線性代數筆記:特徵值分解 (EVD) 與奇異值分解 (SVD)
一、 特徵值分解 (Eigenvalue Decomposition, EVD)
1. 定義與矩陣形式
對於一個 $n \times n$ 的方陣 $A$,若存在非零向量 $\boldsymbol{v}$ 與純量 $\lambda$ 滿足:
\[A\boldsymbol{v} = \lambda\boldsymbol{v}\]則稱 $\lambda$ 為特徵值,$\boldsymbol{v}$ 為對應的特徵向量。
若 $A$ 擁有 $n$ 個線性獨立的特徵向量 $\boldsymbol{v}_1, \boldsymbol{v}_2, \dots, \boldsymbol{v}_n$,對應的特徵值為 $\lambda_1, \lambda_2, \dots, \lambda_n$。將這 $n$ 條方程式合併為矩陣相乘的形式:
\[A \begin{bmatrix} | & & | \\ \boldsymbol{v}_1 & \dots & \boldsymbol{v}_n \\ | & & | \end{bmatrix} = \begin{bmatrix} | & & | \\ \lambda_1\boldsymbol{v}_1 & \dots & \lambda_n\boldsymbol{v}_n \\ | & & | \end{bmatrix}\]令 $V$ 為特徵向量組成的矩陣,$\Lambda$ 為特徵值組成的對角矩陣,原式可改寫為 $AV = V\Lambda$。由於 $V$ 的行向量線性獨立,$V^{-1}$ 必然存在,同乘 $V^{-1}$ 即得到 EVD 的一般定義:
\[A = V \Lambda V^{-1}\]實對稱矩陣的正交對角化
若 $A$ 為實對稱矩陣 ($A = A^T$),根據譜定理 (Spectral Theorem),其特徵值皆為實數,且特徵向量必可選為彼此正交的單位向量。此時 $V$ 為正交矩陣 (Orthogonal Matrix),習慣記為 $Q$。因正交矩陣滿足 $Q^{-1} = Q^T$,分解式可簡化為:
\[A = Q \Lambda Q^T\]2. 譜分解 (Spectral Decomposition) 的推導
將實對稱矩陣的分解式 $A = Q \Lambda Q^T$ 透過分塊矩陣乘法展開:
\[A = \begin{bmatrix} | & & | \\ \boldsymbol{q}_1 & \dots & \boldsymbol{q}_n \\ | & & | \end{bmatrix} \begin{bmatrix} \lambda_1 & & \\ & \ddots & \\ & & \lambda_n \end{bmatrix} \begin{bmatrix} — \boldsymbol{q}_1^T — \\ \vdots \\ — \boldsymbol{q}_n^T — \end{bmatrix}\]先計算前兩個矩陣的乘積,將 $\lambda_i$ 乘入對應的特徵向量:
\[A = \begin{bmatrix} | & & | \\ \lambda_1\boldsymbol{q}_1 & \dots & \lambda_n\boldsymbol{q}_n \\ | & & | \end{bmatrix} \begin{bmatrix} — \boldsymbol{q}_1^T — \\ \vdots \\ — \boldsymbol{q}_n^T — \end{bmatrix}\]接著執行行向量與列向量的矩陣相乘,可將矩陣 $A$ 展開為一系列秩為 1 的矩陣之線性組合:
\[A = \lambda_1\boldsymbol{q}_1\boldsymbol{q}_1^T + \lambda_2\boldsymbol{q}_2\boldsymbol{q}_2^T + \dots + \lambda_n\boldsymbol{q}_n\boldsymbol{q}_n^T = \sum_{i=1}^n \lambda_i\boldsymbol{q}_i\boldsymbol{q}_i^T\]外積的代數與物理意義
矩陣 $\boldsymbol{q}_i\boldsymbol{q}_i^T$ 為一外積矩陣。當其作用於空間中任意向量 $\boldsymbol{x}$ 時:
\[(\boldsymbol{q}_i\boldsymbol{q}_i^T)\boldsymbol{x} = \boldsymbol{q}_i(\boldsymbol{q}_i^T\boldsymbol{x})\]由於 $\boldsymbol{q}_i^T\boldsymbol{x}$ 為內積純量,代表 $\boldsymbol{x}$ 在 $\boldsymbol{q}_i$ 方向上的投影長度。因此,$\boldsymbol{q}_i\boldsymbol{q}_i^T$ 為一投影運算子 (Projection Operator),負責將向量投影至 $\boldsymbol{q}_i$ 方向,而 $\lambda_i$ 則控制該投影方向的縮放尺度。
3. 矩陣的雙重幾何視角
給定方陣 $A \in \mathbb{R}^{n \times n}$,可依據數學情境被詮釋為兩種截然不同的物件:
-
視角一:作為線性算子 (Linear Operator)
矩陣 $A$ 視為映射函數 $T(\boldsymbol{x}) = A\boldsymbol{x}$,代表空間變換的「動作」。EVD ($A = Q \Lambda Q^T$) 將此變換拆解為三步驟:首先透過 $Q^T$ 將座標軸旋轉至特徵向量基底,接著透過 $\Lambda$ 於各基底軸上獨立縮放,最後透過 $Q$ 旋轉回原座標系。 -
視角二:作為資料紀錄與二次型 (Quadratic Form)
若 $A = A^T$,矩陣 $A$ 可視為空間中測量能量或距離的「度量」,用來「紀錄」某個幾何形狀的特徵。給定二次型 $q(\boldsymbol{x}) = \boldsymbol{x}^T A \boldsymbol{x}$,代入 EVD:
引入正交座標變換 $\boldsymbol{y} = Q^T\boldsymbol{x}$,可化簡為標準二次曲面方程式:
\[\boldsymbol{y}^T \Lambda \boldsymbol{y} = \sum_{i=1}^n \lambda_i y_i^2 = c\]幾何結論:EVD 解耦了二次型中的交叉項,將 $A$ 內含的幾何資料提取出來。正交矩陣 $Q$ 的行向量紀錄了二次曲面(如橢球)的主軸方向;特徵值 $\lambda_i$ 紀錄了沿主軸的曲率或尺度(半徑 $r_i \propto 1/\sqrt{\lambda_i}$)。
二、 奇異值分解 (Singular Value Decomposition, SVD)
1. SVD 幾何存在性定理
對於任意線性變換 $M: \mathbb{R}^n \to \mathbb{R}^m$,必定存在一組定義於輸入空間的正交基底 $\boldsymbol{v}_1, \dots, \boldsymbol{v}_n$,使得它們經過 $M$ 映射後,在輸出空間中產生的一組向量 $M\boldsymbol{v}_1, \dots, M\boldsymbol{v}_n$ 依然保持正交。
將映射後的正交向量正規化,即可得到輸出空間的正交基底 $\boldsymbol{u}_i$,其映射關係為:
\[M\boldsymbol{v}_i = \sigma_i \boldsymbol{u}_i\]其中 $\sigma_i \geq 0$ 為純量(奇異值),代表沿該正交方向的拉伸或壓縮比例。
2. 定義與矩陣形式
任何一個 $m \times n$ 的實數矩陣 $M$ 皆可分解為:
\[M = U \Sigma V^T\]- $U \in \mathbb{R}^{m \times m}$ (左奇異向量矩陣):為正交矩陣,其行向量 $\boldsymbol{u}_i$ 構成輸出空間的正交基底。
- $V \in \mathbb{R}^{n \times n}$ (右奇異向量矩陣):為正交矩陣,其行向量 $\boldsymbol{v}_i$ 構成輸入空間的正交基底。
- $\Sigma \in \mathbb{R}^{m \times n}$ (奇異值矩陣):為對角矩陣,對角線元素為奇異值 $\sigma_i$(且 $\sigma_1 \geq \sigma_2 \geq \dots \geq 0$)。
3. SVD 與 $M^TM$、$MM^T$ 的代數證明
透過計算 $M^TM$,可證明奇異值與特徵值的代數關聯:
\[M^T M = (U \Sigma V^T)^T (U \Sigma V^T)\]利用轉置運算性質 $(AB)^T = B^T A^T$ 展開:
\[M^T M = V \Sigma^T U^T U \Sigma V^T\]因 $U$ 為正交矩陣 ($U^T U = I_m$),且 $\Sigma$ 為對角矩陣 ($\Sigma^T \Sigma = \Sigma^2$),代入化簡得:
\[M^T M = V \Sigma^2 V^T\]上式符合實對稱矩陣 $M^TM$ 的 EVD 形式 ($A = Q \Lambda Q^T$)。同理可推導 $MM^T = U \Sigma^2 U^T$。
代數結論與 Rank 定理
- 矩陣 $V$ 的行向量 (columns) 即為 $M^TM$ 的特徵向量。
- 矩陣 $U$ 的行向量 (columns) 即為 $MM^T$ 的特徵向量。
- 奇異值的平方 $\sigma_i^2$ 同時是 $M^TM$ 與 $MM^T$ 的非零特徵值,亦即 $\sigma_i = \sqrt{\lambda_i(M^T M)} = \sqrt{\lambda_i(MM^T)}$。
- Rank 定理:矩陣 $M$ 的秩 (Rank) $r$,恰好等於其大於零的非零奇異值個數。
4. 矩陣維度與 Reduced SVD 外積和展開
SVD 的核心在於處理非方陣的維度映射。給定矩陣 $M \in \mathbb{R}^{m \times n}$,設其秩 (Rank) 為 $r$。根據 Rank 定理,$M$ 恰有 $r$ 個大於零的奇異值 $\sigma_1 \dots \sigma_r > 0$,其餘 $\sigma_{r+1} \dots \sigma_{\min(m,n)}$ 皆為 $0$。
將 $M = U \Sigma V^T$ 以分塊矩陣展開:
\[M = \begin{bmatrix} \boldsymbol{u}_1 & \dots & \boldsymbol{u}_m \end{bmatrix} \begin{bmatrix} \sigma_1 & & \\ & \ddots & \\ & & \sigma_n \end{bmatrix} \begin{bmatrix} \boldsymbol{v}_1^T \\ \vdots \\ \boldsymbol{v}_n^T \end{bmatrix}\]由於對角矩陣 $\Sigma$ 中僅前 $r$ 個對角元為非零值,與其相乘的 $U$ 的後 $m-r$ 個行向量,以及 $V$ 的後 $n-r$ 個列向量,在乘法過程中皆會被零消去(對應至矩陣的零空間 Null Space)。
因此,可捨棄所有對應為 $0$ 的無效向量,將原分解精簡為 Reduced SVD (截斷奇異值分解 / Rank-r Decomposition),並改寫為秩為 1 的外積和形式:
\[M = \sum_{i=1}^r \sigma_i \boldsymbol{u}_i \boldsymbol{v}_i^T\]當此展開式作用於向量 $\boldsymbol{x}$ 時:
\[M\boldsymbol{x} = \sum_{i=1}^r \sigma_i \boldsymbol{u}_i (\boldsymbol{v}_i^T \boldsymbol{x})\]物理意義:此式表達了變換過程:將輸入向量投影至基底 $\boldsymbol{v}_i$ 獲取分量(內積純量),依權重 $\sigma_i$ 進行縮放,最後將該純量沿著輸出空間的基底 $\boldsymbol{u}_i$ 方向映射。任何秩為 $r$ 的矩陣,皆可解構為這 $r$ 個一維變換的線性疊加。