什么是奇异值（Singular Value）和奇异值分解（SVD）？代码示例-新游体验-Sensace新潮游戏活动网

2025-10-07 13:39:59 新游体验

什么是奇异值？从线性代数到实际应用

在线性代数和数据分析中，奇异值（Singular Value）是一个非常重要的概念，尤其是在矩阵分解和降维等技术中。你可能听说过奇异值分解（SVD，Singular Value Decomposition），而奇异值正是它的核心组成部分。这篇博客将从基础定义出发，逐步讲解奇异值的含义、计算方法以及它在实际中的意义。

什么是奇异值？

奇异值是矩阵的一种性质，通常与矩阵的奇异值分解（SVD）相关联。对于一个 ( m×nm \times nm×n ) 的矩阵 ( AAA )（可以是实矩阵或复矩阵，不必是方阵），它的奇异值是非负实数，反映了矩阵在不同方向上的“伸缩能力”。

具体来说，假设矩阵 ( AAA ) 可以分解为：

A=UΣVT

A = U \Sigma V^T

A=UΣVT

( UUU ) 是一个 ( m×mm \times mm×m ) 的正交矩阵（列向量是标准正交基）。( VVV ) 是一个 ( n×nn \times nn×n ) 的正交矩阵（列向量是标准正交基）。( Σ\SigmaΣ ) 是一个 ( m×nm \times nm×n ) 的对角矩阵，对角线上的元素是非负实数，称为奇异值，通常按降序排列：( σ1≥σ2≥⋯≥σr>0\sigma_1 \geq \sigma_2 \geq \cdots \geq \sigma_r > 0σ1≥σ2≥⋯≥σr>0 )，其中 ( rrr ) 是矩阵的秩（rank），后面可能补零。

这些奇异值 ( σi\sigma_iσi ) 就是我们要讨论的主角。

奇异值的数学定义

从数学上看，奇异值可以通过矩阵 ( ATAA^T AATA ) 或 ( AATA A^TAAT ) 的特征值来定义：

考虑 ( ATAA^T AATA )（一个 ( n×nn \times nn×n ) 的对称矩阵），它的特征值是非负的（因为 ( ATAA^T AATA ) 是半正定矩阵）。奇异值 ( σi\sigma_iσi ) 就是 ( ATAA^T AATA) 的特征值的平方根，即：

σi=λi(ATA)

\sigma_i = \sqrt{\lambda_i(A^T A)}

σi=λi(ATA)

其中 ( λi\lambda_iλi ) 是 ( ATAA^T AATA ) 的特征值。

同样，( AATA A^TAAT )（一个 ( m×mm \times mm×m ) 的矩阵）的非零特征值的平方根也是相同的奇异值。奇异值的数量等于 ( min⁡(m,n)\min(m, n)min(m,n) )（矩阵的较小维度），但非零奇异值的数量等于矩阵的秩 ( rrr )。

几何意义：矩阵的“伸缩”效应

奇异值有一个直观的几何解释。矩阵 ( AAA ) 可以看作一个线性变换，将 ( nnn ) 维空间的向量映射到 ( mmm ) 维空间。奇异值 ( σi\sigma_iσi ) 表示这个变换在某些特定方向（由 ( VVV ) 的列向量定义）上的“伸缩因子”：

如果 ( σi>1\sigma_i > 1σi>1 )，表示向量在这个方向上被拉伸。如果 ( σi<1\sigma_i < 1σi<1 )，表示向量被压缩。如果 ( σi=0\sigma_i = 0σi=0 )，表示在这个方向上的信息完全丢失（对应矩阵的零空间）。

例如，对于一个 ( 2×22 \times 22×2 ) 矩阵，奇异值可能描述它如何将一个单位圆变成一个椭圆，其中 ( σ1\sigma_1σ1 ) 和 ( σ2\sigma_2σ2 ) 分别是椭圆的长轴和短轴长度。

如何计算奇异值？

以一个简单的 ( 2×12 \times 12×1 ) 矩阵为例：

A=[34]

A = \begin{bmatrix} 3 \\ 4 \end{bmatrix}

A=[34]

计算 ( ATAA^T AATA )：

ATA=[34][34]=32+42=25

A^T A = \begin{bmatrix} 3 & 4 \end{bmatrix} \begin{bmatrix} 3 \\ 4 \end{bmatrix} = 3^2 + 4^2 = 25

ATA=[34][34]=32+42=25

( ATAA^T AATA ) 是一个 ( 1×11 \times 11×1 ) 矩阵，特征值是 25，奇异值是：

σ1=25=5

\sigma_1 = \sqrt{25} = 5

σ1=25=5

再计算 ( AATA A^TAAT )：

AAT=[34][34]=[9121216]

A A^T = \begin{bmatrix} 3 \\ 4 \end{bmatrix} \begin{bmatrix} 3 & 4 \end{bmatrix} = \begin{bmatrix} 9 & 12 \\ 12 & 16 \end{bmatrix}

AAT=[34][34]=[9121216]

特征多项式为：

det⁡(λI−AAT)=det⁡[λ−9−12−12λ−16]=(λ−9)(λ−16)−144=λ2−25λ=0

\det(\lambda I - A A^T) = \det\begin{bmatrix} \lambda - 9 & -12 \\ -12 & \lambda - 16 \end{bmatrix} = (\lambda - 9)(\lambda - 16) - 144 = \lambda^2 - 25\lambda = 0

det(λI−AAT)=det[λ−9−12−12λ−16]=(λ−9)(λ−16)−144=λ2−25λ=0

特征值为 ( λ=25\lambda = 25λ=25 ) 和 ( λ=0\lambda = 0λ=0 )，奇异值为 ( 25=5\sqrt{25} = 525=5 ) 和 ( 000 )。结果一致，非零奇异值数量等于矩阵的秩（这里 ( r=1r = 1r=1 )）。

奇异值分解（SVD）的意义

通过 SVD，矩阵 ( AAA ) 被分解为 ( UΣVTU \Sigma V^TUΣVT )，奇异值在 ( Σ\SigmaΣ ) 中起到连接输入和输出的作用：

( VTV^TVT ) 将输入向量投影到 ( A ) 的“主方向”上。( Σ\SigmaΣ ) 对这些投影进行伸缩（乘以奇异值）。( UUU ) 将结果映射到输出空间。

SVD 的一个重要性质是奇异值按降序排列，前几个较大的奇异值往往捕获了矩阵的大部分信息。这为数据压缩和降维提供了基础。

奇异值的实际应用

数据降维

在主成分分析 (PCA) 中，奇异值反映了数据在每个主成分方向上的方差。通过保留较大的奇异值，可以减少维度同时保留主要信息。

图像压缩

对图像矩阵进行 SVD，只保留前 ( kkk ) 个最大奇异值和对应向量，可以显著减少存储空间，同时保持图像的主要特征。

推荐系统

在协同过滤中，SVD 用于分解用户-物品评分矩阵，奇异值帮助识别潜在特征（如用户偏好）。

数值稳定性

奇异值可以用来判断矩阵是否接近奇异（即秩不足），因为最小的非零奇异值接近 0 时，矩阵接近不可逆。

总结

奇异值是矩阵的一种基本属性，来源于奇异值分解，反映了矩阵在不同方向上的变换强度。它不仅有深刻的数学意义（通过 ( ATAA^T AATA ) 的特征值定义），还有直观的几何解释（伸缩因子）。从数据分析到工程应用，奇异值都扮演着重要角色。

为什么奇异值按降序排列？

奇异值按降序排列并不是一个自然规律，而是 SVD 定义和算法设计中的一种约定，其目的是为了方便解释和应用。让我们从奇异值的来源和意义入手：

1. 奇异值的来源

奇异值是通过矩阵 ( ATAA^T AATA )（或 ( AATA A^TAAT )）的特征值计算得到的。对于一个 ( m×nm \times nm×n ) 的矩阵 ( AAA )：

( ATAA^T AATA) 是一个 ( n×nn \times nn×n ) 的对称半正定矩阵，其特征值 ( λ1,λ2,…,λn\lambda_1, \lambda_2, \ldots, \lambda_nλ1,λ2,…,λn ) 都是非负的。奇异值 ( σi\sigma_iσi ) 定义为 ( σi=λi(ATA)\sigma_i = \sqrt{\lambda_i(A^T A)}σi=λi(ATA) )，按惯例只取非负平方根。

这些特征值反映了矩阵 ( AAA ) 在不同方向上的“伸缩能力”，而特征值的大小顺序并没有天然规定。

2. “能量”的分布

在 SVD 中，矩阵 ( AAA ) 被分解为：

A=UΣVT

A = U \Sigma V^T

A=UΣVT

其中 ( Σ\SigmaΣ ) 的对角元素是奇异值 ( σ1,σ2,…,σr\sigma_1, \sigma_2, \ldots, \sigma_rσ1,σ2,…,σr )（( rrr ) 是矩阵的秩）。矩阵的“能量”通常用 Frobenius 范数平方来衡量：

∥A∥F2=∑i=1m∑j=1naij2=∑i=1rσi2

\|A\|_F^2 = \sum_{i=1}^{m} \sum_{j=1}^{n} a_{ij}^2 = \sum_{i=1}^{r} \sigma_i^2

∥A∥F2=i=1∑mj=1∑naij2=i=1∑rσi2

较大的奇异值 ( σi\sigma_iσi ) 贡献了更多的能量（因为平方效应），因此将奇异值按降序排列（( σ1≥σ2≥⋯≥σr≥0\sigma_1 \geq \sigma_2 \geq \cdots \geq \sigma_r \geq 0σ1≥σ2≥⋯≥σr≥0 )）可以让前几个奇异值自然对应矩阵的主要信息。这种排序使得截断 SVD（只保留前 ( kkk ) 个奇异值）能够最大化保留的能量。

3. 约定与实用性

如果奇异值不按降序排列，SVD 的数学形式仍然成立（只需相应调整 ( UUU ) 和 ( VVV ) 的列顺序），但：

物理意义：降序排列让 ( σ1\sigma_1σ1 ) 表示最大伸缩方向，依次递减，便于理解矩阵的结构。应用便利：在数据压缩、PCA 等场景中，我们希望快速识别最重要的方向，降序排列简化了这一过程。

因此，奇异值按降序排列是数学家和工程师的约定，而非数学上的强制要求。

怎么保证奇异值按降序排列？

奇异值按降序排列的保证主要依赖于 SVD 的计算方法和数值算法的设计。以下是具体机制：

1. 特征值计算的排序

SVD 的奇异值来源于 ( ATAA^T AATA ) 或 ( AATA A^TAAT ) 的特征值。在数值线性代数中，计算特征值的算法（如 QR 算法或雅可比方法）通常会返回特征值及其对应的特征向量，但顺序不一定固定。为了实现降序排列，SVD 算法会在计算后对特征值进行排序：

计算 ( ATAA^T AATA ) 的特征值 ( λ1,λ2,…,λn\lambda_1, \lambda_2, \ldots, \lambda_nλ1,λ2,…,λn )。对 ( λi\lambda_iλi ) 从大到小排序，得到 ( λ1′≥λ2′≥⋯≥λn′\lambda_1' \geq \lambda_2' \geq \cdots \geq \lambda_n'λ1′≥λ2′≥⋯≥λn′ )。奇异值 (σi=λi′\sigma_i = \sqrt{\lambda_i'}σi=λi′ )，自然也是降序的。

同时，特征向量（即 ( VVV ) 的列）会根据排序后的特征值重新排列，以保持 ( ATA=VΛVTA^T A = V \Lambda V^TATA=VΛVT ) 的对角化形式。

2. SVD 算法的实现

在实际的数值库中（如 NumPy 的 np.linalg.svd 或 MATLAB 的 svd），SVD 的实现通常包含以下步骤：

计算 ( ATAA^T AATA ) 或 ( AATA A^TAAT ) 的特征值和特征向量（或通过更高效的方法，如 Golub-Kahan 双对角化）。排序奇异值：从特征值计算奇异值后，显式地按降序排列。调整 ( UUU ) 和 ( VVV )：根据奇异值的顺序，调整 ( UUU ) 和 (VVV ) 的列，确保分解 ( A=UΣVTA = U \Sigma V^TA=UΣVT ) 成立。

例如，NumPy 的 np.linalg.svd 默认返回奇异值数组 ( SSS )（按降序排列），以及对应的 ( UUU ) 和 ( VTV^TVT )。这是通过底层 LAPACK 库（线性代数包）实现的，LAPACK 的 SVD 例程（如 dgesvd）内置了排序逻辑。

3. 数学上的自由度

从数学上看，SVD 的分解并不唯一：

如果交换 ( Σ\SigmaΣ ) 中两个奇异值的位置，同时交换 ( UUU ) 和 ( VVV ) 的对应列，分解仍然有效。但为了标准化输出，算法强制选择降序排列。

例如，对于矩阵 ( AAA )，可能存在两种分解：

A=U[σ100σ2]VT=U′[σ200σ1]V′T

A = U \begin{bmatrix} \sigma_1 & 0 \\ 0 & \sigma_2 \end{bmatrix} V^T = U' \begin{bmatrix} \sigma_2 & 0 \\ 0 & \sigma_1 \end{bmatrix} V'^T

A=U[σ100σ2]VT=U′[σ200σ1]V′T

只要 ( σ1≠σ2\sigma_1 \neq \sigma_2σ1=σ2 )，( UUU ) 和 ( VVV ) 的列顺序不同即可。但算法统一选择 ( σ1≥σ2\sigma_1 \geq \sigma_2σ1≥σ2 )。

4. 验证例子

考虑一个简单矩阵：

A=[0210]

A = \begin{bmatrix} 0 & 2 \\ 1 & 0 \end{bmatrix}

A=[0120]

计算 ( ATAA^T AATA )：

ATA=[0120][0210]=[1004]

A^T A = \begin{bmatrix} 0 & 1 \\ 2 & 0 \end{bmatrix} \begin{bmatrix} 0 & 2 \\ 1 & 0 \end{bmatrix} = \begin{bmatrix} 1 & 0 \\ 0 & 4 \end{bmatrix}

ATA=[0210][0120]=[1004]

特征值为 ( λ1=4,λ2=1\lambda_1 = 4, \lambda_2 = 1λ1=4,λ2=1 )，奇异值为 ( σ1=4=2,σ2=1=1\sigma_1 = \sqrt{4} = 2, \sigma_2 = \sqrt{1} = 1σ1=4=2,σ2=1=1 )。算法会确保 ( Σ=diag(2,1)\Sigma = \text{diag}(2, 1)Σ=diag(2,1) )，而不是 ( diag(1,2)\text{diag}(1, 2)diag(1,2) )。

总结

为什么按降序排列？

奇异值按降序排列是 SVD 的约定，便于解释矩阵的“能量”分布和简化应用（如截断）。它反映了从最大到最小的伸缩效应。

怎么保证？

数学上，奇异值来自 ( ATAA^T AATA ) 的特征值，排序是可选的。算法上，SVD 的实现（如 LAPACK）在计算后对奇异值进行降序排序，并调整 ( UUU ) 和 ( VVV ) 的列，确保一致性。

这种排序设计使得前几个奇异值自然捕获矩阵的主要信息。

SVD 图像压缩的原理

在图像处理中，利用奇异值分解（SVD）进行压缩的核心思想是：图像矩阵可以通过保留前 ( kkk ) 个最大奇异值及其对应的左右奇异向量来近似重构，从而减少存储空间，同时尽量保留主要特征。

对于一个灰度图像，可以表示为一个 ( m×nm \times nm×n ) 的矩阵 (AAA )，其中每个元素是像素的灰度值（通常在 0 到 255 之间）。SVD 将矩阵分解为：

A=UΣVT

A = U \Sigma V^T

A=UΣVT

( UUU ) 是 ( m×mm \times mm×m ) 的正交矩阵，列是左奇异向量。( Σ\SigmaΣ ) 是 ( m×nm \times nm×n ) 的对角矩阵，对角线上的元素是奇异值 ( σ1≥σ2≥⋯≥σr≥0\sigma_1 \geq \sigma_2 \geq \cdots \geq \sigma_r \geq 0σ1≥σ2≥⋯≥σr≥0 )，( r=min⁡(m,n)r = \min(m, n)r=min(m,n) )。( VTV^TVT ) 是 ( n×nn \times nn×n ) 的正交矩阵的转置，行是右奇异向量。

完整的 ( AAA ) 可以用所有奇异值和向量重构，但奇异值通常按降序排列，前几个较大的奇异值捕获了矩阵的大部分“能量”（信息）。因此，我们可以只保留前 ( kkk ) 个最大奇异值及其对应的 ( UUU ) 和 ( VVV ) 的列/行，得到一个近似矩阵 ( AkA_kAk )：

Ak=UkΣkVkT

A_k = U_k \Sigma_k V_k^T

Ak=UkΣkVkT

( UkU_kUk ) 是 ( UUU ) 的前 ( kkk ) 列（( m×km \times km×k )）。( Σk\Sigma_kΣk ) 是 ( Σ\SigmaΣ ) 的前 ( kkk ) 个奇异值构成的 ( k×kk \times kk×k ) 对角矩阵。( VkTV_k^TVkT ) 是 ( VTV^TVT ) 的前 ( kkk ) 行（( k×nk \times nk×n )）。

这样，存储空间从原来的 ( m×nm \times nm×n ) 减少到 ( m×k+k+n×km \times k + k + n \times km×k+k+n×k )（分别对应 ( UkU_kUk )、(Σk\Sigma_kΣk )、( VkTV_k^TVkT )），当 ( k≪min⁡(m,n)k \ll \min(m, n)k≪min(m,n) ) 时，存储需求显著降低。

如何保留前 ( k ) 个最大奇异值和对应向量？

计算 SVD

使用数值库（如 NumPy）对图像矩阵 ( A ) 进行完整 SVD，得到 ( UUU)、(Σ\SigmaΣ )、( VTV^TVT )。

选择前 ( kkk ) 个奇异值

奇异值在 ( Σ\SigmaΣ ) 中是按降序排列的，取前 ( kkk ) 个值。

提取对应向量

从 ( UUU ) 中取前 ( kkk ) 列，作为 ( UkU_kUk )。从 ( VTV^TVT ) 中取前 ( kkk ) 行（或等价地，从 ( VVV ) 中取前 ( kkk ) 列然后转置），作为 ( VkTV_k^TVkT )。

重构近似矩阵

使用 ( UkU_kUk )、(Σk\Sigma_kΣk)、( VkTV_k^TVkT ) 计算 ( AkA_kAk )。

Python 代码实现

以下是一个完整的 Python 代码示例，使用 NumPy 和 PIL（Python Imaging Library）处理图像，进行 SVD 压缩并可视化结果：

import numpy as np

from PIL import Image

import matplotlib.pyplot as plt

# 1. 加载并转换为灰度图像矩阵

def load_image(image_path):

img = Image.open(image_path).convert('L') # 转换为灰度图像

return np.array(img)

# 2. SVD 压缩函数

def svd_compress(image_matrix, k):

# 进行 SVD 分解

U, S, Vt = np.linalg.svd(image_matrix, full_matrices=True)

# 保留前 k 个奇异值及其对应向量

U_k = U[:, :k] # 前 k 列 of U

S_k = np.diag(S[:k]) # 前 k 个奇异值构成对角矩阵

Vt_k = Vt[:k, :] # 前 k 行 of Vt

# 重构近似矩阵

compressed_matrix = np.dot(U_k, np.dot(S_k, Vt_k))

# 确保像素值在合理范围内 (0-255)

compressed_matrix = np.clip(compressed_matrix, 0, 255)

return compressed_matrix

# 3. 显示原始和压缩后的图像

def display_images(original, compressed, k):

plt.figure(figsize=(10, 5))

plt.subplot(1, 2, 1)

plt.title("Original Image")

plt.imshow(original, cmap='gray')

plt.axis('off')

plt.subplot(1, 2, 2)

plt.title(f"Compressed Image (k={k})")

plt.imshow(compressed, cmap='gray')

plt.axis('off')

plt.show()

# 主程序

if __name__ == "__main__":

# 加载图像（替换为你的图像路径）

image_path = "example.jpg" # 示例图像路径

image_matrix = load_image(image_path)

# 设置保留的奇异值数量 k

k = 50 # 可以调整 k 来控制压缩程度

# 进行 SVD 压缩

compressed_matrix = svd_compress(image_matrix, k)

# 显示结果

display_images(image_matrix, compressed_matrix, k)

# 计算存储空间节省

original_size = image_matrix.size

compressed_size = k * (image_matrix.shape[0] + image_matrix.shape[1] + 1)

print(f"Original size: {original_size} elements")

print(f"Compressed size: {compressed_size} elements")

print(f"Compression ratio: {original_size / compressed_size:.2f}")

代码解释

加载图像

使用 PIL 将图像加载并转换为灰度模式（单通道矩阵）。你需要替换 image_path 为实际图像路径。

SVD 分解

np.linalg.svd 返回 ( UUU )、( SSS )（奇异值数组）、( VTV^TVT )。注意 ( SSS ) 是一个一维数组，我们需要手动构造对角矩阵 ( SkS_kSk )。

保留前 ( kkk ) 个奇异值和向量

( UkU_kUk )：从 ( UUU ) 中取前 ( kkk ) 列。( SkS_kSk )：从 ( SSS ) 中取前 (kkk ) 个奇异值，构造 ( k×kk \times kk×k ) 对角矩阵。( VtkVt_kVtk )：从 ( VTV^TVT ) 中取前 ( kkk ) 行。

重构矩阵

使用矩阵乘法 ( Uk⋅Sk⋅VkTU_k \cdot S_k \cdot V_k^TUk⋅Sk⋅VkT ) 重构近似图像矩阵，并用 np.clip 确保像素值在 0-255 范围内。

可视化与分析

显示原始和压缩后的图像，并计算存储空间的节省情况。

输出示例

假设输入图像是 ( 512×512512 \times 512512×512 ) 的灰度图像：

原始大小：( 512×512=262,144512 \times 512 = 262,144512×512=262,144 ) 个元素。若 ( k=50k = 50k=50 )：

( UkU_kUk )：( 512×50=25,600512 \times 50 = 25,600512×50=25,600 )；( SkS_kSk )：( 505050 )；( VkTV_k^TVkT )：( 50×512=25,60050 \times 512 = 25,60050×512=25,600 )；总共 ( 25,600+50+25,600=51,25025,600 + 50 + 25,600 = 51,25025,600+50+25,600=51,250 ) 个元素。

压缩比：( 262,144/51,250≈5.12262,144 / 51,250 \approx 5.12262,144/51,250≈5.12 )，即存储空间减少到原来的约 1/5。

压缩后的图像会保留主要特征（如轮廓），但细节会随 ( kkk ) 减少而丢失。你可以调整 (kkk ) 来平衡质量和压缩率。

实际测试输出如下：

Original size: 12007168 elements

Compressed size: 353250 elements

Compression ratio: 33.99

注意事项

图像类型：代码假设灰度图像。对于彩色图像（RGB），需要对每个通道分别进行 SVD。计算复杂度：SVD 对大矩阵计算成本较高，实际应用中可能使用截断 SVD（如 scipy.sparse.linalg.svds）。选择 ( kkk )：可以通过奇异值的累积和（如保留 95% 的总和）来自动选择 ( kkk )。

希望这个解释和代码能帮你理解如何用 SVD 压缩图像！

后记

2025年3月7日14点20分于上海，在Grok 3大模型辅助下完成。

最近发表