線性代數筆記:特徵值分解 (EVD) 與奇異值分解 (SVD)

一、 特徵值分解 (Eigenvalue Decomposition, EVD)

1. 定義與矩陣形式

對於一個 $n \times n$ 的方陣 $A$,若存在非零向量 $\boldsymbol{v}$ 與純量 $\lambda$ 滿足:

\[A\boldsymbol{v} = \lambda\boldsymbol{v}\]

則稱 $\lambda$ 為特徵值,$\boldsymbol{v}$ 為對應的特徵向量。

若 $A$ 擁有 $n$ 個線性獨立的特徵向量 $\boldsymbol{v}_1, \boldsymbol{v}_2, \dots, \boldsymbol{v}_n$,對應的特徵值為 $\lambda_1, \lambda_2, \dots, \lambda_n$。將這 $n$ 條方程式合併為矩陣相乘的形式:

\[A \begin{bmatrix} | & & | \\ \boldsymbol{v}_1 & \dots & \boldsymbol{v}_n \\ | & & | \end{bmatrix} = \begin{bmatrix} | & & | \\ \lambda_1\boldsymbol{v}_1 & \dots & \lambda_n\boldsymbol{v}_n \\ | & & | \end{bmatrix}\]

令 $V$ 為特徵向量組成的矩陣,$\Lambda$ 為特徵值組成的對角矩陣,原式可改寫為 $AV = V\Lambda$。由於 $V$ 的行向量線性獨立,$V^{-1}$ 必然存在,同乘 $V^{-1}$ 即得到 EVD 的一般定義:

\[A = V \Lambda V^{-1}\]

實對稱矩陣的正交對角化

若 $A$ 為實對稱矩陣 ($A = A^T$),根據譜定理 (Spectral Theorem),其特徵值皆為實數,且特徵向量必可選為彼此正交的單位向量。此時 $V$ 為正交矩陣 (Orthogonal Matrix),習慣記為 $Q$。因正交矩陣滿足 $Q^{-1} = Q^T$,分解式可簡化為:

\[A = Q \Lambda Q^T\]

2. 譜分解 (Spectral Decomposition) 的推導

將實對稱矩陣的分解式 $A = Q \Lambda Q^T$ 透過分塊矩陣乘法展開:

\[A = \begin{bmatrix} | & & | \\ \boldsymbol{q}_1 & \dots & \boldsymbol{q}_n \\ | & & | \end{bmatrix} \begin{bmatrix} \lambda_1 & & \\ & \ddots & \\ & & \lambda_n \end{bmatrix} \begin{bmatrix} — \boldsymbol{q}_1^T — \\ \vdots \\ — \boldsymbol{q}_n^T — \end{bmatrix}\]

先計算前兩個矩陣的乘積,將 $\lambda_i$ 乘入對應的特徵向量:

\[A = \begin{bmatrix} | & & | \\ \lambda_1\boldsymbol{q}_1 & \dots & \lambda_n\boldsymbol{q}_n \\ | & & | \end{bmatrix} \begin{bmatrix} — \boldsymbol{q}_1^T — \\ \vdots \\ — \boldsymbol{q}_n^T — \end{bmatrix}\]

接著執行行向量與列向量的矩陣相乘,可將矩陣 $A$ 展開為一系列秩為 1 的矩陣之線性組合:

\[A = \lambda_1\boldsymbol{q}_1\boldsymbol{q}_1^T + \lambda_2\boldsymbol{q}_2\boldsymbol{q}_2^T + \dots + \lambda_n\boldsymbol{q}_n\boldsymbol{q}_n^T = \sum_{i=1}^n \lambda_i\boldsymbol{q}_i\boldsymbol{q}_i^T\]

外積的代數與物理意義

矩陣 $\boldsymbol{q}_i\boldsymbol{q}_i^T$ 為一外積矩陣。當其作用於空間中任意向量 $\boldsymbol{x}$ 時:

\[(\boldsymbol{q}_i\boldsymbol{q}_i^T)\boldsymbol{x} = \boldsymbol{q}_i(\boldsymbol{q}_i^T\boldsymbol{x})\]

由於 $\boldsymbol{q}_i^T\boldsymbol{x}$ 為內積純量,代表 $\boldsymbol{x}$ 在 $\boldsymbol{q}_i$ 方向上的投影長度。因此,$\boldsymbol{q}_i\boldsymbol{q}_i^T$ 為一投影運算子 (Projection Operator),負責將向量投影至 $\boldsymbol{q}_i$ 方向,而 $\lambda_i$ 則控制該投影方向的縮放尺度。

3. 矩陣的雙重幾何視角

給定方陣 $A \in \mathbb{R}^{n \times n}$,可依據數學情境被詮釋為兩種截然不同的物件:

\[\boldsymbol{x}^T A \boldsymbol{x} = \boldsymbol{x}^T (Q \Lambda Q^T) \boldsymbol{x} = (Q^T\boldsymbol{x})^T \Lambda (Q^T\boldsymbol{x})\]

引入正交座標變換 $\boldsymbol{y} = Q^T\boldsymbol{x}$,可化簡為標準二次曲面方程式:

\[\boldsymbol{y}^T \Lambda \boldsymbol{y} = \sum_{i=1}^n \lambda_i y_i^2 = c\]

幾何結論:EVD 解耦了二次型中的交叉項,將 $A$ 內含的幾何資料提取出來。正交矩陣 $Q$ 的行向量紀錄了二次曲面(如橢球)的主軸方向;特徵值 $\lambda_i$ 紀錄了沿主軸的曲率或尺度(半徑 $r_i \propto 1/\sqrt{\lambda_i}$)。


二、 奇異值分解 (Singular Value Decomposition, SVD)

1. SVD 幾何存在性定理

對於任意線性變換 $M: \mathbb{R}^n \to \mathbb{R}^m$,必定存在一組定義於輸入空間的正交基底 $\boldsymbol{v}_1, \dots, \boldsymbol{v}_n$,使得它們經過 $M$ 映射後,在輸出空間中產生的一組向量 $M\boldsymbol{v}_1, \dots, M\boldsymbol{v}_n$ 依然保持正交。

將映射後的正交向量正規化,即可得到輸出空間的正交基底 $\boldsymbol{u}_i$,其映射關係為:

\[M\boldsymbol{v}_i = \sigma_i \boldsymbol{u}_i\]

其中 $\sigma_i \geq 0$ 為純量(奇異值),代表沿該正交方向的拉伸或壓縮比例。

2. 定義與矩陣形式

任何一個 $m \times n$ 的實數矩陣 $M$ 皆可分解為:

\[M = U \Sigma V^T\]

3. SVD 與 $M^TM$、$MM^T$ 的代數證明

透過計算 $M^TM$,可證明奇異值與特徵值的代數關聯:

\[M^T M = (U \Sigma V^T)^T (U \Sigma V^T)\]

利用轉置運算性質 $(AB)^T = B^T A^T$ 展開:

\[M^T M = V \Sigma^T U^T U \Sigma V^T\]

因 $U$ 為正交矩陣 ($U^T U = I_m$),且 $\Sigma$ 為對角矩陣 ($\Sigma^T \Sigma = \Sigma^2$),代入化簡得:

\[M^T M = V \Sigma^2 V^T\]

上式符合實對稱矩陣 $M^TM$ 的 EVD 形式 ($A = Q \Lambda Q^T$)。同理可推導 $MM^T = U \Sigma^2 U^T$。

代數結論與 Rank 定理

  1. 矩陣 $V$ 的行向量 (columns) 即為 $M^TM$ 的特徵向量。
  2. 矩陣 $U$ 的行向量 (columns) 即為 $MM^T$ 的特徵向量。
  3. 奇異值的平方 $\sigma_i^2$ 同時是 $M^TM$ 與 $MM^T$ 的非零特徵值,亦即 $\sigma_i = \sqrt{\lambda_i(M^T M)} = \sqrt{\lambda_i(MM^T)}$。
  4. Rank 定理:矩陣 $M$ 的秩 (Rank) $r$,恰好等於其大於零的非零奇異值個數。

4. 矩陣維度與 Reduced SVD 外積和展開

SVD 的核心在於處理非方陣的維度映射。給定矩陣 $M \in \mathbb{R}^{m \times n}$,設其秩 (Rank) 為 $r$。根據 Rank 定理,$M$ 恰有 $r$ 個大於零的奇異值 $\sigma_1 \dots \sigma_r > 0$,其餘 $\sigma_{r+1} \dots \sigma_{\min(m,n)}$ 皆為 $0$。

將 $M = U \Sigma V^T$ 以分塊矩陣展開:

\[M = \begin{bmatrix} \boldsymbol{u}_1 & \dots & \boldsymbol{u}_m \end{bmatrix} \begin{bmatrix} \sigma_1 & & \\ & \ddots & \\ & & \sigma_n \end{bmatrix} \begin{bmatrix} \boldsymbol{v}_1^T \\ \vdots \\ \boldsymbol{v}_n^T \end{bmatrix}\]

由於對角矩陣 $\Sigma$ 中僅前 $r$ 個對角元為非零值,與其相乘的 $U$ 的後 $m-r$ 個行向量,以及 $V$ 的後 $n-r$ 個列向量,在乘法過程中皆會被零消去(對應至矩陣的零空間 Null Space)。

因此,可捨棄所有對應為 $0$ 的無效向量,將原分解精簡為 Reduced SVD (截斷奇異值分解 / Rank-r Decomposition),並改寫為秩為 1 的外積和形式:

\[M = \sum_{i=1}^r \sigma_i \boldsymbol{u}_i \boldsymbol{v}_i^T\]

當此展開式作用於向量 $\boldsymbol{x}$ 時:

\[M\boldsymbol{x} = \sum_{i=1}^r \sigma_i \boldsymbol{u}_i (\boldsymbol{v}_i^T \boldsymbol{x})\]

物理意義:此式表達了變換過程:將輸入向量投影至基底 $\boldsymbol{v}_i$ 獲取分量(內積純量),依權重 $\sigma_i$ 進行縮放,最後將該純量沿著輸出空間的基底 $\boldsymbol{u}_i$ 方向映射。任何秩為 $r$ 的矩陣,皆可解構為這 $r$ 個一維變換的線性疊加。