第 6 章 內積空間 (Inner Product Spaces)
6.1 內積與範數 (Inner Products and Norms)
6.2 葛蘭-史密特正交化過程與正交補集 (The Gram-Schmidt Orthogonalization Process and Orthogonal Complements)
6.3 線性算子的伴隨 (The Adjoint of a Linear Operator)
6.4 正常與自伴算子 (Normal and Self-Adjoint Operators)
6.5 酉算子與正交算子及其矩陣 (Unitary and Orthogonal Operators and Their Matrices)
6.6 正交投影與譜定理 (Orthogonal Projections and the Spectral Theorem)
6.7* 奇異值分解與偽逆矩陣 (The Singular Value Decomposition and the Pseudoinverse)
6.8* 雙線性型與二次型 (Bilinear and Quadratic Forms)
6.9* 愛因斯坦的狹義相對論 (Einstein's Special Theory of Relativity)
6.10* 條件數與瑞利商 (Conditioning and the Rayleigh Quotient)
6.11* 正交算子的幾何學 (The Geometry of Orthogonal Operators)
大多數的數學應用都涉及到測量的概念,因此與各種數量的量級或相對大小有關。所以,內建有距離概念的實數體與複數體應該扮演特殊的角色,這並不令人意外。除了第 6.8 節之外,在本章中我們假設所有的向量空間皆佈於實數體或複數體。關於複數的性質,請參見附錄 D。
我們將距離或長度的概念引入向量空間,是透過一個更豐富的結構,即所謂的內積空間 (inner product space) 結構。這個額外的結構提供了在幾何學(第 6.5 與 6.11 節)、物理學(第 6.9 節)、線性方程組的條件數(第 6.10 節)、最小平方法(第 6.3 節)以及二次型(第 6.8 節)等領域的應用。
6.1 內積與範數 (INNER PRODUCTS AND NORMS)
許多幾何概念,例如在 R^2 與 R^3 中的夾角、長度與垂直,可以推廣到更一般的實數與複數向量空間。所有這些概念都與內積的概念相關。
定義。 設 A \in M_{m \times n}(F)。我們定義 A 的共軛轉置 (conjugate transpose) 或伴隨矩陣 (adjoint) 為一個 n \times m 矩陣 A^*,使得對於所有的 i, j 皆有 (A^*)_{ij} = \overline{A}_{ji}。
例 4
設
A = \begin{pmatrix} i & 1+2i \\ 2 & 3+4i \end{pmatrix}
則
A^* = \begin{pmatrix} -i & 2 \\ 1-2i & 3-4i \end{pmatrix}
請注意,如果將 x 和 y 視為 F^n 中的行向量 (column vectors),那麼 \langle x,y \rangle = y^* x。
矩陣的共軛轉置在本章的剩餘部分扮演著非常重要的角色。在 A 包含實數元素的情況下,A^* 單純就是 A 的轉置矩陣。
例 5
設 V = M_{n \times n}(F),並對 A, B \in V 定義 \langle A,B \rangle = \text{tr}(B^*A)。(回想一下矩陣 A 的跡 (trace) 定義為 \text{tr}(A) = \sum_{i=1}^n A_{ii}。)我們驗證內積定義中的 (a) 與 (d) 成立,並將 (b) 與 (c) 留給讀者。為此,設 A, B, C \in V。則(利用第 1.3 節習題 6)
\langle A+B, C \rangle = \text{tr}(C^*(A+B)) = \text{tr}(C^*A + C^*B)
= \text{tr}(C^*A) + \text{tr}(C^*B) = \langle A,C \rangle + \langle B,C \rangle。
而且
\langle A,A \rangle = \text{tr}(A^*A) = \sum_{i=1}^n (A^*A)_{ii} = \sum_{i=1}^n \sum_{k=1}^n (A^*)_{ik} A_{ki}
= \sum_{i=1}^n \sum_{k=1}^n \overline{A}_{ki} A_{ki} = \sum_{i=1}^n \sum_{k=1}^n |A_{ki}|^2。
現在如果 A \ne O,那麼對某些 k 與 i 有 A_{ki} \ne 0。所以 \langle A,A \rangle \gt 0。
在例 5 中 M_{n \times n}(F) 上的內積被稱為弗羅貝尼烏斯內積 (Frobenius inner product)。
一個賦予了特定內積的佈於 F 的向量空間 V,被稱為內積空間 (inner product space)。如果 F=C,我們稱 V 為複數內積空間 (complex inner product space);而如果 F=R,我們稱 V 為實數內積空間 (real inner product space)。
很明顯地,如果 V 具有內積 \langle x,y \rangle 且 W 是 V 的子空間,那麼當同一個函數 \langle x,y \rangle 限制在 W 中的向量 x, y \in W 時,W 也是一個內積空間。
(b) \langle x,cy \rangle = \overline{c} \langle x,y \rangle。
(c) \langle x,0 \rangle = \langle 0,x \rangle = 0。
(d) \langle x,x \rangle = 0 若且唯若 x=0。
(e) 如果對所有 x \in V 皆有 \langle x,y \rangle = \langle x,z \rangle,則 y=z。
證明。 (a) 我們有
\langle x,y+z \rangle = \overline{\langle y+z,x \rangle} = \overline{\langle y,x \rangle + \langle z,x \rangle}
= \overline{\langle y,x \rangle} + \overline{\langle z,x \rangle} = \langle x,y \rangle + \langle x,z \rangle。
(b), (c), (d), 和 (e) 的證明留作習題。
(d) (三角不等式 Triangle Inequality) ||x+y|| \le ||x|| + ||y||。
證明。 我們將 (a) 和 (b) 的證明留作習題。
(c) 如果 y=0,則結果立刻成立。所以假設 y \ne 0。對於任意 c \in F,我們有:
0 \le \langle x-cy,x-cy \rangle = \langle x,x-cy \rangle - c\langle y,x-cy \rangle
= \langle x,x \rangle - \overline{c}\langle x,y \rangle - c\langle y,x \rangle + c\overline{c}\langle y,y \rangle。
特別是,如果我們令
c = \frac{\langle x,y \rangle}{\langle y,y \rangle}
那麼 \overline{c}\langle x,y \rangle、c\langle y,x \rangle 與 c\overline{c}\langle y,y \rangle 每一項皆等於 \frac{\langle x,y \rangle\langle y,x \rangle}{\langle y,y \rangle} = \frac{|\langle x,y \rangle|^2}{||y||^2}。所以前述的不等式變為...(部分證明的細節留待習題)。
在 (c) 與 (d) 中等號成立的情況將在習題 15 中探討。
例 7
對於 F^n,我們可以將定理 6.2 的 (c) 和 (d) 應用於標準內積,以獲得下列著名的不等式:
|\sum_{i=1}^n a_i \overline{b}_i| \le [\sum_{i=1}^n |a_i|^2]^{1/2}[\sum_{i=1}^n |b_i|^2]^{1/2}
以及
[\sum_{i=1}^n |a_i+b_i|^2]^{1/2} \le [\sum_{i=1}^n |a_i|^2]^{1/2} + [\sum_{i=1}^n |b_i|^2]^{1/2}。
讀者可能在先前的課程中回想起,對於 R^3 或 R^2 中的 x 和 y,我們有 \langle x,y \rangle = ||x|| \cdot ||y|| \cos \theta,其中 \theta (0 \le \theta \le \pi) 表示 x 與 y 之間的夾角。這個方程式直接暗示了 (c),因為 |\cos \theta| \le 1。同時也請注意,非零向量 x 和 y 互相垂直若且唯若 \cos \theta = 0,也就是說,若且唯若 \langle x,y \rangle = 0。
習題 6.1
(b) 使用弗羅貝尼烏斯內積 (Frobenius inner product) 來計算 ||A||、||B|| 以及 \langle A, B \rangle,其中
A = \begin{pmatrix} 1 & 2+i \\ 3 & i \end{pmatrix} 且 B = \begin{pmatrix} 1+i & 0 \\ i & -i \end{pmatrix}。
5. 在 C^2 中,證明 \langle x,y \rangle = xAy^* 是一個內積,其中
A = \begin{pmatrix} 1 & i \\ -i & 2 \end{pmatrix}。
對於 x=(1-i, 2+3i) 與 y=(2+i, 3-2i),計算 \langle x,y \rangle。
6. 完成定理 6.1 的證明。
7. 完成定理 6.2 的證明。
8. 請說明為何下列各項在給定的向量空間上不是內積。
14. 設 A 與 B 為 n \times n 矩陣,且設 c 為一純量。證明 (A+cB)^* = A^* + \overline{c}B^*。
15. (a) 證明如果 V 是一個內積空間,那麼 |\langle x,y \rangle| = ||x|| \cdot ||y|| 若且唯若其中一個向量 x 或 y 是另一個向量的倍數。
提示:如果恆等式成立且 y \ne 0,令
a = \frac{\langle x,y \rangle}{||y||^2},
並令 z = x - ay。證明 y 與 z 互相正交且
|a| = \frac{||x||}{||y||}。
然後將習題 10 應用於 ||x||^2 = ||ay+z||^2 以得出 ||z|| = 0。
(b) 導出等式 ||x+y|| = ||x|| + ||y|| 的類似結果,並將其推廣至 n 個向量的情況。
16. (a) 證明賦予了第 330 頁所定義的 \langle \cdot, \cdot \rangle 之向量空間 H 是一個內積空間。
(b) 設 V=C(),並定義
\langle f,g \rangle = \int_0^{1/2} f(t)g(t) dt。
這是 V 上的一個內積嗎?
17. 設 T 為內積空間 V 上的一個線性算子,並假設對所有的 x,都有 ||T(x)|| = ||x||。證明 T 是一對一 (one-to-one) 的。
18. 設 V 為佈於 F 的向量空間,其中 F=R 或 F=C,並設 W 為佈於 F 的內積空間,具有內積 \langle \cdot, \cdot \rangle。如果 T: V \rightarrow W 是線性的,證明 \langle x,y \rangle' = \langle T(x),T(y) \rangle 定義了 V 上的一個內積若且唯若 T 是一對一的。
21. 設 A 為一個 n \times n 矩陣。定義
A_1 = \frac{1}{2}(A+A^*) 且 A_2 = \frac{1}{2i}(A-A^*)。
(a) 證明 A_1^* = A_1、A_2^* = A_2,且 A = A_1 + iA_2。將 A_1 與 A_2 分別定義為矩陣 A 的實部與虛部是否合理?
(b) 設 A 為 n \times n 矩陣。證明 (a) 中的表示法是唯一的。也就是說,證明如果 A = B_1 + iB_2,其中 B_1^* = B_1 且 B_2^* = B_2,那麼 B_1 = A_1 且 B_2 = A_2。
22. 設 V 為實數或複數向量空間(可能是無限維的),並設 \beta 為 V 的基底。對 x, y \in V,存在 v_1, v_2, \dots, v_n \in \beta 使得
x = \sum_{i=1}^n a_i v_i 且 y = \sum_{i=1}^n b_i v_i。
定義
\langle x,y \rangle = \sum_{i=1}^n a_i \overline{b}_i。
(a) 證明 \langle \cdot, \cdot \rangle 是 V 上的一個內積,且 \beta 是 V 的一個正交規範基底 (orthonormal basis)。因此每個實數或複數向量空間都可以被視為內積空間。
(b) 證明如果 V=R^n 或 V=C^n 且 \beta 為標準有序基底,那麼上述定義的內積就是標準內積。
23. 設 V=F^n,且設 A \in M_{n \times n}(F)。
(a) 證明對所有的 x, y \in V,\langle x,Ay \rangle = \langle A^*x,y \rangle。
(b) 假設對於某個 B \in M_{n \times n}(F),對所有的 x, y \in V 我們都有 \langle x,Ay \rangle = \langle Bx,y \rangle。證明 B = A^*。
(c) 設 \alpha 為 V 的標準有序基底。對於 V 的任何正交規範基底 \beta,設 Q 為以 \beta 中的向量為行的 n \times n 矩陣。證明 Q^* = Q^{-1}。
(3) ||x+y||_v \le ||x||_v + ||y||_v
26. 證明下列各項在給定的向量空間 V 上是範數 (norms)。
(a) V=R^2; 對所有 (a,b) \in V,||(a,b)||_v = |a|+|b|
(b) V=C(); 對所有 f \in V,||f||_v = \max_{t \in \cdot}|f(t)|
(c) V=C(); 對所有 f \in V,||f||_v = \int_0^1 |f(t)| dt
(d) V=M_{m \times n}(F); 對所有 A \in V,||A||_v = \max_{i,j}|A_{ij}|
27. 利用習題 11 證明,如果範數如習題 26(a) 所定義,那麼在 R^2 上不存在內積 \langle \cdot, \cdot \rangle 使得對所有 x \in R^2 都有 ||x||_v^2 = \langle x,x \rangle。
29.
(e) 證明對每個有理數 r 與每個 x, y \in V,皆有 \langle rx,y \rangle = r\langle x,y \rangle。
(f) 證明對每個 x, y \in V,皆有 |\langle x,y \rangle| \le ||x||_v ||y||_v。提示:範數定義中的條件 (3) 會有幫助。
(g) 證明對每個 c \in R、每個有理數 r,以及每個 x, y \in V:
|c\langle x,y \rangle - \langle cx,y \rangle| = |(c-r)\langle x,y \rangle - \langle (c-r)x,y \rangle|
\le 2|c-r| ||x||_v ||y||_v
(h) 利用對於任何 c \in R,|c-r| 可以變得任意小(其中 r 在有理數集合中變動)的事實,來建立內積定義中的項目 (b)。
30. 設 || \cdot ||_v 是滿足習題 11 中給出之平行四邊形定律的複數向量空間 V 上的一個範數(如第 337 頁所定義)。證明 V 上存在一個內積 \langle \cdot, \cdot \rangle,使得對所有的 x \in V 都有 ||x||_v^2 = \langle x,x \rangle。提示:將 V 視為佈於 R 的向量空間,套用習題 29,然後套用習題 25。
6.2 葛蘭-史密特正交化過程與正交補集 (THE GRAM-SCHMIDT ORTHOGONALIZATION PROCESS AND ORTHOGONAL COMPLEMENTS)
在前面的章節中,我們已經看過 C^n 與 R^n 的標準有序基底所扮演的特殊角色。這些基底的特殊性質源自於基底向量構成一個正交規範集 (orthonormal set)。正如基底是向量空間的建構區塊一樣,同時也是正交規範集的基底則是內積空間的建構區塊。我們現在為這種基底命名。
證明。 將 y 寫成 y = \sum_{i=1}^k a_i v_i,其中 a_1, a_2, \dots, a_k \in F。那麼,對於 1 \le j \le k,
\langle y,v_j \rangle = \langle \sum_{i=1}^k a_i v_i, v_j \rangle = \sum_{i=1}^k a_i \langle v_i, v_j \rangle = a_j \langle v_j, v_j \rangle = a_j ||v_j||^2。
所以
a_j = \frac{\langle y,v_j \rangle}{||v_j||^2},
結果得證。
下一個推論由定理 6.3 直接得出。
以及
a_1 = \frac{1}{\sqrt{2}}(2+1) = \frac{3}{\sqrt{2}}
a_2 = \frac{1}{\sqrt{3}}(2-1+3) = \frac{4}{\sqrt{3}}
a_3 = \frac{1}{\sqrt{6}}(-2+1+6) = \frac{5}{\sqrt{6}}。
作為驗算,我們有:
(2,1,3) = \frac{3}{2}(1,1,0) + \frac{4}{3}(1,-1,1) + \frac{5}{6}(-1,1,2)。
推論 2 告訴我們第 6.1 節中的向量空間 H 包含一個無窮線性獨立集,因此 H 不是一個有限維向量空間。
當然,我們尚未證明每一個有限維內積空間都擁有正交規範基底。下一個定理將帶我們走完獲得這個結果的大部分路程。它告訴我們如何從一個線性獨立的向量集合建構出一個正交集,並使得這兩個集合生成相同的子空間。
在陳述這個定理之前,讓我們先考慮一個簡單的情況。假設 \{w_1, w_2\} 是一個內積空間的線性獨立子集(因此是某個二維子空間的基底)。我們希望從 \{w_1, w_2\} 建構出一個生成相同子空間的正交集。圖 6.1 暗示了集合 \{v_1, v_2\}(其中 v_1 = w_1 且 v_2 = w_2 - cw_1)若適當選擇 c 使得 v_2 垂直於 w_1,即具有此性質。
為求出 c,我們只需解下列方程式:
0 = \langle v_2,w_1 \rangle = \langle w_2-cw_1,w_1 \rangle = \langle w_2,w_1 \rangle - c\langle w_1,w_1 \rangle。
因此
c = \frac{\langle w_2,w_1 \rangle}{||w_1||^2}
所以
v_2 = w_2 - \frac{\langle w_2,w_1 \rangle}{||w_1||^2} w_1。
下一個定理告訴我們這個過程可以被推廣到任意的有限線性獨立子集。
定理 6.4。 設 V 為一個內積空間,且 S = \{w_1, w_2, \dots, w_n\} 為 V 的一個線性獨立子集。定義 S' = \{v_1, v_2, \dots, v_n\},其中 v_1 = w_1 且
v_k = w_k - \sum_{j=1}^{k-1} \frac{\langle w_k,v_j \rangle}{||v_j||^2} v_j 針對 2 \le k \le n。 (1)
則 S' 是一個非零向量的正交集,使得 \text{span}(S') = \text{span}(S)。
證明。 我們對 S 中的向量個數 n 進行數學歸納法證明。對 k = 1, 2, \dots, n 令 S_k = \{w_1, w_2, \dots, w_k\}。如果 n=1,則藉由取 S'_1 = S_1 即證明了定理;也就是說 v_1 = w_1 \ne 0。接著假設已透過重複使用 (1) 建構出具有期望性質的集合 S'_{k-1} = \{v_1, v_2, \dots, v_{k-1}\}。我們證明集合 S'_k = \{v_1, v_2, \dots, v_{k-1}, v_k\} 也具有期望的性質,其中 v_k 是由 S'_{k-1} 藉由 (1) 獲得的。如果 v_k = 0,那麼 (1) 暗示著 w_k \in \text{span}(S'_{k-1}) = \text{span}(S_{k-1}),這矛盾了 S_k 是線性獨立的假設。對於 1 \le i \le k-1,由 (1) 可推得
\langle v_k,v_i \rangle = \langle w_k,v_i \rangle - \sum_{j=1}^{k-1} \frac{\langle w_k,v_j \rangle}{||v_j||^2} \langle v_j,v_i \rangle = \langle w_k,v_i \rangle - \frac{\langle w_k,v_i \rangle}{||v_i||^2} ||v_i||^2 = 0,
因為由歸納假設 S'_{k-1} 是正交的,若 i \ne j 則 \langle v_j,v_i \rangle = 0。因此 S'_k 是一個由非零向量組成的正交集。現在,由 (1),我們得出 \text{span}(S'_k) \subseteq \text{span}(S_k)。但是根據定理 6.3 的推論 2,S'_k 是線性獨立的;所以 \dim(\text{span}(S'_k)) = \dim(\text{span}(S_k)) = k。因此 \text{span}(S'_k) = \text{span}(S_k)。
利用定理 6.4 來建構 \{v_1, v_2, \dots, v_n\} 的過程稱為葛蘭-史密特正交化過程 (Gram-Schmidt process)。
例 4
在 R^4 中,設 w_1 = (1,0,1,0)、w_2 = (1,1,1,1) 以及 w_3 = (0,1,2,1)。則 \{w_1, w_2, w_3\} 是線性獨立的。我們使用葛蘭-史密特過程來計算正交向量 v_1、v_2 以及 v_3,然後我們將這些向量正規化以獲得正交規範集。
取 v_1 = w_1 = (1,0,1,0)。則
v_2 = w_2 - \frac{\langle w_2,v_1 \rangle}{||v_1||^2} v_1
= (1,1,1,1) - \frac{2}{2}(1,0,1,0)
= (0,1,0,1)。
最後,
v_3 = w_3 - \frac{\langle w_3,v_1 \rangle}{||v_1||^2} v_1 - \frac{\langle w_3,v_2 \rangle}{||v_2||^2} v_2
= (0,1,2,1) - \frac{2}{2}(1,0,1,0) - \frac{2}{2}(0,1,0,1)
= (-1,0,1,0)。
可以將這些向量正規化來獲得正交規範基底 \{u_1, u_2, u_3\},其中
u_1 = \frac{1}{||v_1||} v_1 = \frac{1}{\sqrt{2}}(1,0,1,0)
以及
u_2 = \frac{1}{||v_2||} v_2 = \frac{1}{\sqrt{2}}(0,1,0,1),
u_3 = \frac{v_3}{||v_3||} = \frac{1}{\sqrt{2}}(-1,0,1,0)。
例 6
我們利用定理 6.5 將多項式 f(x) = 1+2x+3x^2 表示成在例 5 中所獲得的 P_2(R) 正交規範基底 \{u_1, u_2, u_3\} 中向量的線性組合。觀察到
\langle f(x),u_1 \rangle = \int_{-1}^1 \frac{1}{\sqrt{2}}(1+2t+3t^2) dt = 2\sqrt{2},
並且
\langle f(x),u_2 \rangle = \int_{-1}^1 \sqrt{\frac{3}{2}}t(1+2t+3t^2) dt = \frac{2\sqrt{6}}{3}。
\langle f(x),u_3 \rangle = \int_{-1}^1 \sqrt{\frac{5}{8}}(3t^2-1)(1+2t+3t^2) dt = \frac{2\sqrt{10}}{5}。
因此
f(x) = 2\sqrt{2}u_1 + \frac{2\sqrt{6}}{3}u_2 + \frac{2\sqrt{10}}{5}u_3。
定理 6.5 為我們提供了一個簡單的方法,用以計算線性算子相對於正交規範基底的矩陣表示之元素。
推論。 設 V 為具有正交規範基底 \beta = \{v_1, v_2, \dots, v_n\} 的有限維內積空間。設 T 為 V 上的一個線性算子,並設 A = [T]_\beta。則對於任意的 i 與 j,A_{ij} = \langle T(v_j), v_i \rangle。
\frac{\pi^2}{6} \ge \sum_{n=1}^\infty \frac{1}{n^2}。
將 f 替換為其他的函數可以產生額外的結果。
我們現在準備繼續討論正交補集的概念。
定義。 設 S 為內積空間 V 的一個非空子集。我們定義 S^\perp(讀作 "S perp")為 V 中所有與 S 中的每個向量皆正交的向量所構成的集合;也就是說,S^\perp = \{x \in V : \langle x,y \rangle = 0 \text{ 對所有的 } y \in S\}。集合 S^\perp 稱為 S 的 正交補集 (orthogonal complement)。
下一個結果提供了一個在 W 為內積空間之有限維子空間的情況下,尋找 u 的實用方法。
定理 6.6。 設 W 為內積空間 V 的有限維子空間,且設 y \in V。則存在唯一的向量 u \in W 以及 z \in W^\perp 使得 y = u+z。此外,如果 \{v_1, v_2, \dots, v_k\} 是 W 的一個正交規範基底,那麼
u = \sum_{i=1}^k \langle y,v_i \rangle v_i。
為證明 u 與 z 的唯一性,假設 y = u+z = u'+z',其中 u' \in W 且 z' \in W^\perp。則 u-u' = z'-z \in W \cap W^\perp = \{0\}。因此 u=u' 且 z=z'。
推論。 在定理 6.6 的符號中,向量 u 是 W 中唯一一個「最接近」y 的向量;也就是說,對於任意 x \in W,||y-x|| \ge ||y-u||,且此不等式成立等號若且唯若 x=u。
證明。 如同定理 6.6 中所述,我們有 y=u+z,其中 z \in W^\perp。設 x \in W。則 u-x 垂直於 z,所以由 6.1 節的習題 10,我們有:
||y-x||^2 = ||u+z-x||^2 = ||(u-x)+z||^2 = ||u-x||^2 + ||z||^2 \ge ||z||^2 = ||y-u||^2。
因此 ||y-x|| \ge ||y-u||。當且僅當 ||u-x||=0 (即 x=u) 時,等號成立。
習題 6.2
2. 在各小題中,將葛蘭-史密特過程應用於內積空間 V 的給定子集 S,以獲得 \text{span}(S) 的一個正交基底。然後將此基底中的向量正規化以獲得 \text{span}(S) 的一個正交規範基底,並計算給定向量相對於 \beta (該正交規範基底) 的傅立葉係數 (Fourier coefficients)。最後,利用定理 6.5 來驗證你的結果。
(a) V=R^3, S=\{(1,0,1),(0,1,1),(1,3,3)\},且 x=(1,1,2)
(b) V=R^3, S=\{(1,1,1),(0,1,1),(0,0,1)\},且 x=(1,0,1)
(c) V=P_2(R) 具內積 \langle f(x),g(x) \rangle = \int_0^1 f(t)g(t) dt,S=\{1,x,x^2\},且 h(x)=1+x
(d) V=\text{span}(S) 其中 S=\{(1,i,0), (1-i,2,4i)\},且 x=(3+i,4i,-4)
(e) V=R^4, S = \{(2,-1,-2, 4), (-2, 1, -5,5), (-1, 3, 7, 11)\},且 x= (-11,8,-4,18)
(f) V=R^4, S=\{(1,-2,-1,3),(3,6,3,-1),(1,4,2,8)\},且 x=(-1,2,1,1)
(g) V=M_{2\times 2}(R), S=\left\{ \begin{pmatrix} 3 & 5 \\ -1 & 1 \end{pmatrix}, \begin{pmatrix} -1 & 9 \\ 5 & -1 \end{pmatrix}, \begin{pmatrix} 7 & -17 \\ 2 & -6 \end{pmatrix} \right\},且 A=\begin{pmatrix} -1 & 27 \\ -4 & 8 \end{pmatrix}
(h) V=M_{2\times 2}(R), S=\left\{ \begin{pmatrix} 2 & 2 \\ 2 & 1 \end{pmatrix}, \begin{pmatrix} 11 & 4 \\ 2 & 5 \end{pmatrix}, \begin{pmatrix} 4 & -12 \\ 3 & -16 \end{pmatrix} \right\} 且 A= \begin{pmatrix} 8 & 6 \\ 25 & -13 \end{pmatrix}
(i) V=\text{span}(S) 具內積 \langle f,g \rangle = \int_0^\pi f(t)g(t) dt,S=\{\sin t,\cos t,1,t\},且 h(t)=2t+1
(j) V=C^4, S=\{(1,i,2-i,-1), (2+3i,3i,1-i,2i), (-1+7i,6+10i,11-4i,3+4i)\},且 x=(-2+7i,6+9i,9-3i,4+4i)
(k) V=C^4, S=\{(-4,3-2i,i,1-4i), (-1-5i,5-4i,-3+5i,7-2i), (-27-i,-7-6i,-15+25i,-7-6i)\},且 x=(-13-7i,-12+3i,-39-11i,-26+5i)
(l) V=M_{2\times 2}(C), S = \left\{ \begin{pmatrix} 1-i & 8i \\ 2+2i & -3 \end{pmatrix}, \begin{pmatrix} 3+4i & 4-i \\ -4 & -1+4i \end{pmatrix}, \begin{pmatrix} -25-38i & -2-13i \\ 12-78i & -7+24i \end{pmatrix} \right\} 且 A=\begin{pmatrix} -2+8i & -13+i \\ 10-10i & 9-9i \end{pmatrix}
(m) V=M_{2\times 2}(C), S = \left\{ \begin{pmatrix} -1+i & -i \\ 2-i & 1+3i \end{pmatrix}, \begin{pmatrix} -1-7i & -9-8i \\ 1 & -6-2i \end{pmatrix}, \begin{pmatrix} -11-132i & -34-31i \\ 7-126i & -71-5i \end{pmatrix} \right\} 且 A=\begin{pmatrix} -7+5i & 3+18i \\ 9-6i & -3+7i \end{pmatrix}
3. 在 R^2 中,設 \beta=\{(\frac{1}{\sqrt{2}},\frac{1}{\sqrt{2}}),(\frac{1}{\sqrt{2}},\frac{-1}{\sqrt{2}})\}。求 (3, 4) 相對於 \beta 的傅立葉係數 (Fourier coefficients)。
4. 設 S = \{(1, 0, i), (1, 2, 1)\} 位於 C^3 中。計算 S^\perp。
5. 設 S_0=\{x_0\},其中 x_0 是 R^3 中的一個非零向量。用幾何的方式描述 S_0^\perp。現在假設 S=\{x_1,x_2\} 是 R^3 的一個線性獨立子集。用幾何的方式描述 S^\perp。
6. 設 V 是一個內積空間,且設 W 是 V 的一個有限維子空間。如果 x \notin W 證明存在 y \in V 使得 y \in W^\perp,但 \langle x,y \rangle \ne 0。提示:使用定理 6.6。
7. 設 \beta 為內積空間 V 之子空間 W 的一個基底,並設 z \in V。證明 z \in W^\perp 若且唯若對於每個 v \in \beta 都有 \langle z,v \rangle=0。
8. 證明如果 \{w_1,w_2,...,w_n\} 是一個非零向量的正交集,那麼從葛蘭-史密特過程所推導出的向量 v_1,v_2,...,v_n 會滿足 v_i=w_i 對於 i=1,2,...,n。提示:使用數學歸納法。
9. 設 W=\text{span}(\{(i,0,1)\}) 於 C^3 中。找出 W 與 W^\perp 的正交規範基底。
10. 設 W 為內積空間 V 的一個有限維子空間。證明 V=W \oplus W^\perp。使用第 76 頁的定義,證明存在一個沿著 W^\perp 投射在 W 上的投影 T 滿足 N(T)=W^\perp。此外,證明對所有 x \in V 都有 ||T(x)|| \le ||x||。提示:使用定理 6.6 與 6.1 節的習題 10。
11. 設 A 為一個包含複數元素的 n \times n 矩陣。證明 AA^*=I 若且唯若 A 的各列構成 C^n 的一個正交規範基底。
12. 證明對於任何矩陣 A \in M_{m \times n}(F),都有 (R(L_{A^*}))^\perp=N(L_A)。
13. 設 V 為內積空間,S 與 S_0 為 V 的子集,且 W 為 V 的一個有限維子空間。證明下列結果。
(a) S_0 \subseteq S 蘊含 S^\perp \subseteq S_0^\perp。
(b) S \subseteq (S^\perp)^\perp,所以 \text{span}(S) \subseteq (S^\perp)^\perp。
(c) W=(W^\perp)^\perp。提示:使用習題 6。
(d) V=W \oplus W^\perp。(見 1.3 節的習題。)
14. 設 W_1 與 W_2 為有限維內積空間的子空間。證明 (W_1+W_2)^\perp=W_1^\perp \cap W_2^\perp 以及 (W_1 \cap W_2)^\perp=W_1^\perp+W_2^\perp。(參見第 22 頁向量空間子集和的定義。)第二個等式的提示:將習題 13(c) 應用於第一個等式。
16. (a) 貝索不等式 (Bessel's Inequality)。設 V 是一個內積空間,且設 S=\{v_1,v_2,...,v_n\} 是一個正交規範子集。證明對於任意的 x \in V,我們有
||x||^2 \ge \sum_{i=1}^n |\langle x,v_i \rangle|^2。
提示:將定理 6.6 應用於 x \in V 以及 W=\text{span}(S)。然後使用 6.1 節的習題 10。
(b) 在 (a) 的脈絡下,證明貝索不等式成立等號若且唯若 x \in \text{span}(S)。
22. 設 V=C() 具有內積 \langle f,g \rangle=\int_0^1 f(t)g(t) dt。設 W 為由線性獨立集 \{t,\sqrt{t}\} 所生成的子空間。
(a) 找出 W 的一個正交規範基底。
(b) 設 h(t)=t^2。利用 (a) 中獲得的正交規範基底,找出 h 在 W 中的「最佳」(最接近)近似值。
23. 設 V 為在 1.2 節例 5 中定義的向量空間,即所有在 F (其中 F=R 或 F=C) 中只有有限多個非零項 \sigma(n) 的數列 \sigma 所組成的空間。對於 \sigma,\mu \in V,我們定義...
(i) 證明 e_1 \notin W,所以 W \ne V。
(ii) 證明 W^\perp=\{0\} 並推論出 W \ne (W^\perp)^\perp。因此在習題 13(c) 中關於 W 為有限維的假設是必要的。
6.3 線性算子的伴隨 (THE ADJOINT OF A LINEAR OPERATOR)
在 6.1 節中,我們定義了矩陣 A 的共軛轉置 (conjugate transpose) A^*。對於內積空間 V 上的線性算子 T,我們現在要在 V 上定義一個相關的線性算子,稱為 T 的伴隨 (adjoint),其相對於 V 的任何正交規範基底 (orthonormal basis) \beta 的矩陣表示將為 [T]_\beta^*。複數共軛與線性算子伴隨之間的相似性將會變得顯而易見。我們首先需要一個初步的結果。
(接續定理 6.8 的證明段落)
y = \sum_{i=1}^n \overline{g(v_i)}v_i。
定義 h:V \rightarrow F 為 h(x) = \langle x,y \rangle,這顯然是線性的。此外,對於 1 \le j \le n,我們有
h(v_j) = \langle v_j,y \rangle = \langle v_j, \sum_{i=1}^n \overline{g(v_i)}v_i \rangle
= \sum_{i=1}^n g(v_i) \langle v_j,v_i \rangle = \sum_{i=1}^n g(v_i)\delta_{ji} = g(v_j)。
因為 g 和 h 在 \beta 上一致,根據定理 2.6 的推論(第 73 頁),我們有 g=h。
為了證明 y 是唯一的,假設對於所有 x 皆有 g(x) = \langle x,y' \rangle。那麼對於所有 x 皆有 \langle x,y \rangle = \langle x,y' \rangle;所以由定理 6.1(e)(第 331 頁),我們得到 y=y'。
例 1
定義 g:R^2 \rightarrow R 為 g(a_1,a_2) = 2a_1+a_2;顯然 g 是一個線性變換。令 \beta = \{e_1,e_2\},並如同定理 6.8 的證明中令 y = g(e_1)e_1 + g(e_2)e_2 = 2e_1 + e_2 = (2,1)。那麼 g(a_1,a_2) = \langle (a_1,a_2), (2,1) \rangle = 2a_1+a_2。
定理 6.9。 令 V 為有限維內積空間,且令 T 為 V 上的線性算子。則存在唯一的函數 T^*:V \rightarrow V 使得對所有 x,y \in V 都有 \langle T(x),y \rangle = \langle x,T^*(y) \rangle。此外,T^* 是線性的。
定理 6.9 中描述的線性算子 T^* 稱為算子 T 的伴隨 (adjoint)。符號 T^* 讀作 "T star"。
因此 T^* 是 V 上滿足對所有 x,y \in V 都有 \langle T(x),y \rangle = \langle x,T^*(y) \rangle 的唯一算子。請注意,我們也有
\langle x,T(y) \rangle = \overline{\langle T(y),x \rangle} = \overline{\langle y,T^*(x) \rangle} = \langle T^*(x),y \rangle;
所以對所有 x,y \in V 都有 \langle x,T(y) \rangle = \langle T^*(x),y \rangle。我們可以將這些方程式符號化地視為當 T 在內積符號內移動位置時,會加上一個 ^* 號。
定理 6.10 是計算伴隨的有用結果。
定理 6.10。 令 V 為有限維內積空間,且令 \beta 為 V 的正交規範基底。如果 T 是 V 上的線性算子,那麼 [T^*]_\beta = ([T]_\beta)^*。
證明。 令 A = [T]_\beta,B = [T^*]_\beta,且 \beta = \{v_1,v_2,\dots,v_n\}。那麼從定理 6.5 的推論(第 344 頁),我們有
B_{ij} = \langle T^*(v_j),v_i \rangle = \overline{\langle v_i,T^*(v_j) \rangle} = \overline{\langle T(v_i),v_j \rangle} = \overline{A}_{ji} = (A^*)_{ij}。
例 2
假設我們有:
[T]_\beta = \begin{pmatrix} 2i & 3 \\ 1 & -1 \end{pmatrix}
所以
[T^*]_\beta = [T]_\beta^* = \begin{pmatrix} -2i & 1 \\ 3 & -1 \end{pmatrix}
因此
T^*(a_1,a_2) = (-2ia_1+a_2, 3a_1-a_2)。
下面的定理暗示了複數共軛與線性算子伴隨之間的相似性。
定理 6.11。 令 V 為內積空間,且令 T 和 U 為 V 上伴隨存在的線性算子。則
(a) T+U 具有伴隨,且 (T+U)^* = T^* + U^*。
(b) cT 具有伴隨,且對於任何 c \in F 都有 (cT)^* = \overline{c}T^*。
(c) TU 具有伴隨,且 (TU)^* = U^*T^*。
(d) T^* 具有伴隨,且 T^{**} = T。
(e) I 具有伴隨,且 I^* = I。
證明。 我們證明 (a) 和 (d);其餘部分的證明類似。令 x,y \in V。
(a) 因為
\langle (T+U)(x),y \rangle = \langle T(x)+U(x),y \rangle
= \langle x,T^*(y) \rangle + \langle x,U^*(y) \rangle
= \langle x,T^*(y)+U^*(y) \rangle = \langle x,(T^*+U^*)(y) \rangle,
由此可知 (T+U)^* 存在且等於 T^*+U^*。
(d) 同理,因為 \langle T^*(x),y \rangle = \langle x,T(y) \rangle,(d) 得證。
除非另有說明,在本章剩餘部分中,我們採用以下約定:提及無限維內積空間上的線性算子的伴隨時,即假設其存在。
推論。 令 A 和 B 為 n \times n 矩陣。則
(a) (A+B)^* = A^* + B^*。
(b) (cA)^* = \overline{c}A^* 對於所有 c \in F。
(c) (AB)^* = B^*A^*。
(d) A^{**} = A。
(e) I^* = I。
證明。 我們僅證明 (c);其餘部分可以類似地證明。
因為 L_{(AB)^*} = (L_{AB})^* = (L_A L_B)^* = (L_B)^*(L_A)^* = L_{B^*}L_{A^*} = L_{B^* A^*},我們得到 (AB)^* = B^* A^*。
在前面的證明中,我們依賴了定理 6.10 的推論。可以透過直接引用矩陣的共軛轉置定義來給出另一個即使對非方陣也成立的證明(見習題 5)。
最小平方法近似 (Least Squares Approximation)
考慮以下問題:一位實驗者透過在時間 t_1, t_2, \dots, t_m 分別進行測量 y_1, y_2, \dots, y_m 來收集數據。例如,他或她可能正在測量某個時期內不同時間的失業率。假設數據 (t_1, y_1), (t_2, y_2), \dots, (t_m, y_m) 被繪製為平面上的點。(見圖 6.3。)從這張圖中,實驗者感覺到 y 和 t 之間存在著本質上線性的關係,比如說 y = ct + d,並且希望找到常數 c 和 d 使得直線 y = ct + d 能夠盡可能地代表收集到的數據的最佳擬合。一種這類擬合的估計是計算誤差 E,它代表從點到直線的垂直距離的平方和;也就是說,
E = \sum_{i=1}^m (y_i - ct_i - d)^2。
因此,問題簡化為尋找使 E 最小化的常數 c 和 d。(因此,直線 y = ct + d 稱為最小平方線。)如果我們令
A = \begin{pmatrix} t_1 & 1 \\ t_2 & 1 \\ \vdots & \vdots \\ t_m & 1 \end{pmatrix}, x = \begin{pmatrix} c \\ d \end{pmatrix}, 且 y = \begin{pmatrix} y_1 \\ y_2 \\ \vdots \\ y_m \end{pmatrix},
那麼可得出 E = ||y - Ax||^2。
我們將發展一個尋找明確的向量 x_0 \in F^n 以最小化 E 的通用方法;也就是說,給定一個 m \times n 矩陣 A,我們尋找 x_0 \in F^n 使得對所有的向量 x \in F^n 都有 ||y - Ax_0|| \le ||y - Ax||。這個方法不僅讓我們能夠找到最適合數據的線性函數,還能對於任何正整數 k,找到使用次數至多為 k 的多項式的最佳擬合。
首先,我們需要一些符號和兩個簡單的引理。對於 x, y \in F^n,令 \langle x,y \rangle_n 表示 x 和 y 在 F^n 中的標準內積。回想一下,如果 x 和 y 被視為行向量,那麼 \langle x,y \rangle_n = y^* x。
引理 1。 令 A \in M_{m \times n}(F),x \in F^n,且 y \in F^m。則
\langle Ax, y \rangle_m = \langle x, A^* y \rangle_n。
證明。 根據定理 6.11 推論的推廣(見習題 5(b)),我們有
\langle Ax, y \rangle_m = y^*(Ax) = (y^* A)x = (A^* y)^* x = \langle x, A^* y \rangle_n。
引理 2。 令 A \in M_{m \times n}(F)。則 rank(A^* A) = rank(A)。
證明。 根據維度定理,我們只需證明:對於 x \in F^n,A^* Ax = 0 若且唯若 Ax = 0。顯然,Ax = 0 會蘊涵 A^* Ax = 0。所以假設 A^* Ax = 0。那麼
0 = \langle A^* Ax, x \rangle_n = \langle Ax, A^{**} x \rangle_m = \langle Ax, Ax \rangle_m,
所以 Ax = 0。
推論。 如果 A 是一個 m \times n 矩陣且 rank(A) = n,那麼 A^* A 是可逆的。
現在令 A 是一個 m \times n 矩陣且 y \in F^m。定義 W = \{Ax : x \in F^n\};也就是說,W = R(L_A)。根據定理 6.6 的推論(第 347 頁),在 W 中存在一個唯一的向量最接近 y。稱這個向量為 Ax_0,其中 x_0 \in F^n。那麼對於所有的 x \in F^n 都有 ||Ax_0 - y|| \le ||Ax - y||;所以 x_0 具有使 E = ||Ax_0 - y|| 為最小值的性質,如我們所願。
為了發展一個尋找這樣一個 x_0 的實用方法,我們從定理 6.6 及其推論注意到 Ax_0 - y \in W^\perp;所以對於所有的 x \in F^n 都有 \langle Ax, Ax_0 - y \rangle_m = 0。因此,由引理 1,我們得到對於所有的 x \in F^n 都有 \langle x, A^*(Ax_0 - y) \rangle_n = 0;也就是說,A^*(Ax_0 - y) = 0。所以我們只需要找到 A^* Ax = A^* y 的一個解 x_0。如果我們另外假設 rank(A) = n,那麼由引理 2 我們得到 x_0 = (A^* A)^{-1} A^* y。我們將此討論總結於以下定理中。
定理 6.12。 令 A \in M_{m \times n}(F) 且 y \in F^m。則存在 x_0 \in F^n 使得 (A^* A)x_0 = A^* y 且對於所有 x \in F^n 皆有 ||Ax_0 - y|| \le ||Ax - y||。此外,如果 rank(A) = n,那麼 x_0 = (A^* A)^{-1} A^* y。
回到我們的實驗者,假設收集到的數據為 (1, 2)、(2, 3)、(3, 5) 和 (4, 7)。則
A = \begin{pmatrix} 1 & 1 \\ 2 & 1 \\ 3 & 1 \\ 4 & 1 \end{pmatrix} 且 y = \begin{pmatrix} 2 \\ 3 \\ 5 \\ 7 \end{pmatrix};
因此
A^* A = \begin{pmatrix} 1 & 2 & 3 & 4 \\ 1 & 1 & 1 & 1 \end{pmatrix} \begin{pmatrix} 1 & 1 \\ 2 & 1 \\ 3 & 1 \\ 4 & 1 \end{pmatrix} = \begin{pmatrix} 30 & 10 \\ 10 & 4 \end{pmatrix}。
於是
(A^* A)^{-1} = \frac{1}{20} \begin{pmatrix} 4 & -10 \\ -10 & 30 \end{pmatrix}。
因此
\begin{pmatrix} c \\ d \end{pmatrix} = x_0 = \frac{1}{20} \begin{pmatrix} 4 & -10 \\ -10 & 30 \end{pmatrix} \begin{pmatrix} 1 & 2 & 3 & 4 \\ 1 & 1 & 1 & 1 \end{pmatrix} \begin{pmatrix} 2 \\ 3 \\ 5 \\ 7 \end{pmatrix} = \begin{pmatrix} 1.7 \\ 0 \end{pmatrix}。
由此可知直線 y = 1.7t 是最小平方線。誤差 E 可以直接計算為 ||Ax_0 - y||^2 = 0.3。
假設實驗者選擇的時間 t_i (1 \le i \le m) 滿足 \sum_{i=1}^m t_i = 0。那麼 A 的兩個行將會正交,因此 A^* A 將會是一個對角矩陣(見習題 19)。在這種情況下,計算將會大幅簡化。
實際上,在我們的最小平方應用中,m \times 2 矩陣 A 的秩為 2,因此由引理 2 的推論可知 A^* A 是可逆的。因為否則的話,A 的第一行將會是第二行的倍數,而第二行僅由 1 組成。但這只有在實驗者在完全相同的時間收集所有數據時才會發生。
最後,如果對於某個 k,實驗者想要用一個次數至多為 k 的多項式來擬合數據,那麼上述方法也可以應用。例如,如果想要一個次數至多為 2 的多項式 y = ct^2 + dt + e,適當的模型是
x = \begin{pmatrix} c \\ d \\ e \end{pmatrix},y = \begin{pmatrix} y_1 \\ y_2 \\ \vdots \\ y_m \end{pmatrix},且 A = \begin{pmatrix} t_1^2 & t_1 & 1 \\ \vdots & \vdots & \vdots \\ t_m^2 & t_m & 1 \end{pmatrix}。
線性方程組的極小解 (Minimal Solutions to Systems of Linear Equations)
即使線性方程組 Ax=b 是一致的 (consistent),也可能沒有唯一解。在這種情況下,可能希望找到一個範數 (norm) 最小的解。如果對於所有其他解 u 都有 ||s|| \le ||u||,則稱 Ax=b 的解 s 為極小解 (minimal solution)。下一個定理保證每個一致的線性方程組都有一個唯一的極小解,並提供了計算它的方法。
定理 6.13。 令 A \in M_{m \times n}(F) 且 b \in F^m。假設 Ax=b 是一致的。那麼以下敘述為真。
(a) 存在恰好一個 Ax=b 的極小解 s,且 s \in R(L_{A^*})。
(b) 向量 s 是 Ax=b 在 R(L_{A^*}) 中的唯一解;實際上,如果 u 滿足 (AA^*)u=b,那麼 s=A^*u。
證明。 (a) 為了簡化符號,我們令 W = R(L_{A^*}) 且 W' = N(L_A)。令 x 為 Ax=b 的任意解。由定理 6.6(第 347 頁),對於某個 s \in W 和 y \in W^\perp,有 x = s+y。但是由習題 12 可知 W^\perp = W',因此 b = Ax = As+Ay = As。所以 s 是 Ax=b 的一個解,且位於 W 中。為了證明 (a),我們只需證明 s 是唯一的極小解。令 v 為 Ax=b 的任何解。由定理 3.9(第 172 頁),我們有 v = s+u,其中 u \in W'。因為 s \in W,且由習題 12 已知其等於 W^{\prime\perp},我們有:
||v||^2 = ||s+u||^2 = ||s||^2 + ||u||^2 \ge ||s||^2
(由 6.1 節的習題 10 可得)。因此 s 是一個極小解。我們也可以從上述計算中看出,如果 ||v|| = ||s||,那麼 u=0;因此 v=s。所以 s 是 Ax=b 的唯一極小解,(a) 得證。
(b) 假設 v 也是 Ax=b 在 W 中的一個解。那麼
v-s \in W \cap W' = W \cap W^\perp = \{0\};
因此 v=s。
最後,假設 (AA^*)u = b,並令 v = A^* u。那麼 v \in W 且 Av = b。因此由上述討論可得 s = v = A^* u。
例 3
考慮這個系統:
x + 2y + z = 4
x - y + 2z = -11
x + 5y = 19
令
A = \begin{pmatrix} 1 & 2 & 1 \\ 1 & -1 & 2 \\ 1 & 5 & 0 \end{pmatrix} 且 b = \begin{pmatrix} 4 \\ -11 \\ 19 \end{pmatrix}。
為了找到此系統的極小解,我們必須首先找到 AA^* x = b 的某個解 u。現在
AA^* = \begin{pmatrix} 6 & 1 & 11 \\ 1 & 6 & -4 \\ 11 & -4 & 26 \end{pmatrix}
所以我們考慮該系統:
6x + y + 11z = 4
x + 6y - 4z = -11
11x - 4y + 26z = 19
它的一個解是(任何一個解都可以):
u = \begin{pmatrix} 1 \\ -2 \\ 0 \end{pmatrix}。
因此
s = A^* u = \begin{pmatrix} -1 \\ 4 \\ -3 \end{pmatrix}
是給定系統的極小解。
習題 6.3
1. 將下列敘述標示為真 (True) 或假 (False)。假設底層的內積空間是有限維的。
(a) 每個線性算子都有一個伴隨。
(b) V 上的每個線性算子都具有 x \rightarrow \langle x,y \rangle 的形式,對於某個 y \in V。
(c) 對於 V 上的每個線性算子 T 和 V 的每個有序基底 \beta,我們都有 [T^*]_\beta = ([T]_\beta)^*。
(d) 線性算子的伴隨是唯一的。
(e) 對於任何線性算子 T 和 U 以及純量 a 和 b,(aT+bU)^* = aT^* + bU^*。
(f) 對於任何 n \times n 矩陣 A,我們有 (L_A)^* = L_{A^*}。
(g) 對於任何線性算子 T,我們有 (T^*)^* = T。
2. 對於下列每個內積空間 V(佈於 F)和線性變換 g:V \rightarrow F,找出一個向量 y 使得對所有 x \in V 都有 g(x) = \langle x,y \rangle。
(a) V=R^3,g(a_1,a_2,a_3) = a_1 - 2a_2 + 4a_3
(b) V=C^2,g(z_1,z_2) = z_1 - 2z_2
(c) V=P_2(R) 具內積 \langle f(x),h(x) \rangle = \int_{-1}^1 f(t)h(t) dt,g(f) = f(0) + f'(1)
3. 對於下列每個內積空間 V 和 V 上的線性算子 T,在給定的 V 中向量 x 上評估 T^*。
(a) V=R^2,T(a,b) = (2a+b, a-3b),x=(3,5)。
(b) V=C^2,T(z_1,z_2) = (2z_1+iz_2, (1-i)z_1),x=(3-i, 1+2i)。
(c) V=P_1(R) 具內積 \langle f(x),g(x) \rangle = \int_{-1}^1 f(t)g(t) dt,T(f) = f' + 3f,f(t) = 4-2t。
4. 完成定理 6.11 的證明。
5. (a) 藉由使用定理 6.11(如同在 (c) 的證明中一樣)來完成定理 6.11 推論的證明。
(b) 陳述一個關於非方陣的結果,類似於定理 6.11 的推論,並使用矩陣論證來證明它。
6. 令 T 為內積空間 V 上的線性算子。令 U_1 = T+T^* 且 U_2 = TT^*。證明 U_1 = U_1^* 且 U_2 = U_2^*。
7. 給出一個內積空間 V 上的線性算子 T 的例子,使得 N(T) \ne N(T^*)。
8-10. (原文略過,接續 11 題)
11. 對於內積空間 V 上的線性算子 T,證明 T^* T = T_0 會蘊涵 T = T_0。如果我們假設 TT^* = T_0,相同的結果成立嗎?
12. 令 V 為內積空間,且令 T 為 V 上的線性算子。證明下列結果。
(a) R(T^*)^\perp = N(T)。
(b) 如果 V 是有限維的,那麼 R(T^*) = N(T)^\perp。提示:使用 6.2 節的習題 13(c)。
13. 令 T 為有限維內積空間 V 上的線性算子。證明下列結果。
(a) N(T^* T) = N(T)。由此推導出 rank(T^* T) = rank(T)。
(b) rank(T) = rank(T^*)。從 (a) 推導出 rank(TT^*) = rank(T)。
(c) 對於任何 n \times n 矩陣 A,rank(A^* A) = rank(AA^*) = rank(A)。
14. 令 V 為內積空間,且令 y, z \in V。定義 T: V \rightarrow V 為 T(x) = \langle x,y \rangle z 對於所有 x \in V 皆成立。首先證明 T 是線性的。然後證明 T^* 存在,並找出它的一個明確表示式。
下列定義用於習題 15-17 中,它是線性算子伴隨定義的延伸。
定義:令 T: V \rightarrow W 為內積空間 V 到 W 上的一個線性變換。如果存在一個函數 T^*: W \rightarrow V 使得 \langle T(x),y \rangle_2 = \langle x,T^*(y) \rangle_1 對於所有 x \in V 和 y \in W 成立,其中 \langle \cdot, \cdot \rangle_1 和 \langle \cdot, \cdot \rangle_2 分別為 V 和 W 上的內積,則稱 T 具有伴隨 T^*。
15. 假設 V 和 W 均為有限維內積空間。證明下列結果。
(a) 存在 T 的唯一伴隨 T^*,且 T^* 是線性的。
(b) 如果 \beta 和 \gamma 分別為 V 和 W 的正交規範基底,那麼 [T^*]_\gamma^\beta = ([T]_\beta^\gamma)^*。
(c) rank(T^*) = rank(T)。
(d) \langle T^*(x),y \rangle_1 = \langle x,T(y) \rangle_2 對於所有 x \in W 且 y \in V 成立。
(e) 對於所有 x \in V,T^* T(x) = 0 若且唯若 T(x) = 0。
16. 使用前面的定義,敘述並證明一個延伸了定理 6.11 前四部分的結果。
17. 令 T: V \rightarrow W 為一個線性變換,其中 V 和 W 為有限維內積空間。使用前面的定義證明 (R(T^*))^\perp = N(T)。
18. 令 A 為一個 n \times n 矩陣。證明 det(A^*) = \overline{det(A)}。
19. 假設 A 是一個 m \times n 矩陣,且其中沒有兩個行是完全相同的。證明 A^* A 是一個對角矩陣若且唯若 A 的任何一對行都是正交的。
20. 對於下列每一組數據,使用最小平方法近似,分別求出 (i) 線性函數和 (ii) 二次函數的最佳擬合。在兩種情況下都計算誤差 E。
(a) \{(-3,9), (-2,6), (0,2), (1,1)\}
(b) \{(1,2), (3,4), (5,7), (7,9), (9,12)\}
(c) \{(-2,4), (-1,3), (0,1), (1,-1), (2,-3)\}
21. 在物理學中,虎克定律 (Hooke's law) 指出(在一定限度內),彈簧的長度 x 和施加在彈簧上(或由彈簧施加)的力 y 之間存在線性關係。也就是說,y = cx + d,其中 c 稱為彈簧常數。使用以下數據來估計彈簧常數(長度以英吋為單位,力以磅為單位)。
長度 x | 力 y
3.5 | 1.0
4.0 | 2.2
4.5 | 2.8
5.0 | 4.3
22. 求出以下每一個線性方程組的極小解。
(a) x + 2y - z = 12 ; x + y - z = 0
(b) 2x + 3y + z = 2 ; 4x + 7y - z = 4
(c) 2x - y + z = 3 ; x - y + z = 2 ; x + 2y - z = 1
(d) x + y + z - w = 1 ; 2x - y + w = 1
23. 考慮對應於 m 個觀測值 (t_1, y_1), (t_2, y_2), \dots, (t_m, y_m) 尋找最小平方線 y = ct + d 的問題。
(a) 證明定理 6.12 的方程式 (A^* A)x_0 = A^* y 取以下常態方程式 (normal equations) 的形式:
(\sum_{i=1}^m t_i^2)c + (\sum_{i=1}^m t_i)d = \sum_{i=1}^m t_i y_i
以及
(\sum_{i=1}^m t_i)c + md = \sum_{i=1}^m y_i。
這些方程式也可以從誤差 E 中求偏導數(分別對 c 和 d),並使其等於零而獲得。
(b) 使用 (a) 的第二個常態方程式證明最小平方線必定通過質量中心 (\overline{t}, \overline{y}),其中
\overline{t} = \frac{1}{m} \sum_{i=1}^m t_i 且 \overline{y} = \frac{1}{m} \sum_{i=1}^m y_i。
24. 令 V 和 \{e_1, e_2, \dots\} 如 6.2 節習題 23 所定義。定義 T: V \rightarrow V 為
T(\sigma)(k) = \sum_{i=k}^\infty \sigma(i) 對於每個正整數 k。
請注意,T 定義中的無窮級數是收斂的,因為只有有限個 i 使得 \sigma(i) \ne 0。
(a) 證明 T 是 V 上的一個線性算子。
(b) 證明對於任何正整數 n,T(e_n) = \sum_{i=1}^n e_i。
(c) 證明 T 沒有伴隨。提示:藉由反證法,假設 T^* 存在。證明對於任何正整數 n,存在無窮多個 k 使得 T^*(e_n)(k) \ne 0。
6.4 正常與自伴算子 (NORMAL AND SELF-ADJOINT OPERATORS)
在第 5 章中,我們已經看過可對角化算子 (diagonalizable operators) 的重要性。對於一個在向量空間 V 上的算子要是可對角化的,V 必須包含該算子的一個特徵向量基底,這是必要且充分的條件。由於在本章中 V 是一個內積空間 (inner product space),我們自然會去尋找能保證 V 具有特徵向量之正交規範基底 (orthonormal basis) 的條件。幫助我們達成這個目標的一個非常重要的結果是舒爾定理 (Schur's theorem)。接下來的公式是以線性算子的形式表達的。下一節將包含我們更熟悉的矩陣形式。我們從一個引理開始。
(註:回顧 5.2 節,如果一個多項式可以分解成一次多項式的乘積,我們稱該多項式可分解 (splits)。)
定理 6.14 (舒爾定理 Schur)。 設 T 為有限維內積空間 V 上的線性算子。假設 T 的特徵多項式可分解。則存在 V 的一個正交規範基底 \beta,使得矩陣 [T]_\beta 為上三角矩陣。
證明。 由 5.2 節的習題 12(a) 可知,存在 V 的一個有序基底 \beta=\{w_1, w_2, \dots, w_n\} 使得 [T]_\beta 是一個上三角矩陣。現在對 \beta 應用葛蘭-史密特過程 (Gram-Schmidt process) 來獲得 V 的一個正交基底 \beta'=\{v_1, v_2, \dots, v_n\}。對於每個 k (1 \le k \le n),令 S_k = \{w_1, w_2, \dots, w_k\} 且 S_k' = \{v_1, v_2, \dots, v_k\}。正如定理 6.4 的證明一樣,對所有 k 都有 \text{span}(S_k) = \text{span}(S_k')。由 2.2 節的習題 12 可知,對所有 k 都有 T(w_k) \in \text{span}(S_k)。因此對所有 k 都有 T(v_k) \in \text{span}(S_k'),所以由同一個習題可知 [T]_{\beta'} 是上三角矩陣。最後,對所有 i (1 \le i \le n) 令 z_i = \frac{1}{||v_i||} v_i,並令 \gamma = \{z_1, z_2, \dots, z_n\}。那麼 \gamma 是 V 的一個正交規範基底,且 [T]_\gamma 是上三角矩陣。
從定理 6.10 (第 356 頁) 可以立即推導出,T 是正常的 (normal) 若且唯若 [T]_\beta 是正常的,其中 \beta 是正交規範基底。
例 1
令 T: R^2 \rightarrow R^2 為旋轉 \theta 角度的操作,其中 0 \lt \theta \lt \pi。T 在標準有序基底中的矩陣表示為
A = \begin{pmatrix} \cos \theta & -\sin \theta \\ \sin \theta & \cos \theta \end{pmatrix}
請注意 AA^* = I = A^* A;所以 A,以及推導出的 T,是正常的。
例 2
假設 A 是一個實數反對稱矩陣 (skew-symmetric matrix);也就是說,A^t = -A。那麼 A 是正常的,因為 AA^t 和 A^t A 都等於 -A^2。
顯然,例 1 中的算子 T 甚至不具備一個特徵向量。所以在實數內積空間的情況下,我們看到正常性 (normality) 並不足以保證存在由特徵向量組成的正交規範基底。然而,這並不代表毫無希望。我們將證明,如果 V 是一個複數內積空間,那麼正常性就足夠了。
在我們證明這個關於正常算子的承諾結果之前,我們需要正常算子的一些一般性質。
定理 6.15。 設 V 是一個內積空間,且設 T 為 V 上的一個正常算子。則下列敘述為真。
(a) 對於所有 x \in V,||T(x)|| = ||T^*(x)||。
(b) 對於每個 c \in F,T - cI 是正常的。
(c) 如果 x 是 T 對應於特徵值 \lambda 的特徵向量,那麼 x 也是 T^* 對應於特徵值 \overline{\lambda} 的特徵向量。也就是說,如果 T(x) = \lambda x,那麼 T^*(x) = \overline{\lambda} x。
(d) 如果 \lambda_1 和 \lambda_2 是 T 的相異特徵值,且其對應的特徵向量分別為 x_1 和 x_2,那麼 x_1 和 x_2 是正交的 (orthogonal)。
證明。 (a) 對於任意 x \in V,我們有
||T(x)||^2 = \langle T(x), T(x) \rangle = \langle T^*T(x), x \rangle = \langle TT^*(x), x \rangle
= \langle T^*(x), T^*(x) \rangle = ||T^*(x)||^2。
(b) (b) 的證明留作習題。
(c) 假設對於某個 x \in V 有 T(x) = \lambda x。令 U = T - \lambda I。則 U(x) = 0,且由 (b) 可知 U 是正常的。因此 (a) 蘊涵
0 = ||U(x)|| = ||U^*(x)|| = ||(T - \lambda I)^*(x)|| = ||T^*(x) - \overline{\lambda} x||。
因此 T^*(x) = \overline{\lambda} x。所以 x 是 T^* 的一個特徵向量。
(d) 設 \lambda_1 與 \lambda_2 為 T 的相異特徵值,對應的特徵向量為 x_1 與 x_2。那麼,利用 (c),我們有
\lambda_1 \langle x_1, x_2 \rangle = \langle \lambda_1 x_1, x_2 \rangle = \langle T(x_1), x_2 \rangle = \langle x_1, T^*(x_2) \rangle = \langle x_1, \overline{\lambda}_2 x_2 \rangle = \lambda_2 \langle x_1, x_2 \rangle。
因為 \lambda_1 \ne \lambda_2,我們得出結論 \langle x_1, x_2 \rangle = 0。
定理 6.16。 設 T 為有限維複數內積空間 V 上的線性算子。則 T 是正常的,若且唯若存在一個由 T 的特徵向量組成的 V 的正交規範基底。
證明。 假設 T 是正常的。根據代數基本定理 (Theorem D.4),T 的特徵多項式可分解。所以我們可以應用舒爾定理來獲得 V 的一個正交規範基底 \beta=\{v_1, v_2, \dots, v_n\} 使得 [T]_\beta = A 是一個上三角矩陣。我們知道 v_1 是 T 的特徵向量,因為 A 是上三角矩陣。假設 v_1, v_2, \dots, v_{k-1} 皆為 T 的特徵向量。我們宣稱 v_k 也是 T 的特徵向量。接著透過對 k 進行數學歸納法,可以得出所有的 v_i 都是 T 的特徵向量。考慮任何 j \lt k,並令 \lambda_j 表示對應於 v_j 的 T 的特徵值。由定理 6.15,我們有 T^*(v_j) = \overline{\lambda}_j v_j。因為 A 是上三角矩陣,
T(v_k) = A_{1k}v_1 + A_{2k}v_2 + \dots + A_{jk}v_j + \dots + A_{kk}v_k。
此外,由定理 6.5 的推論 (第 345 頁),
A_{jk} = \langle T(v_k), v_j \rangle = \langle v_k, T^*(v_j) \rangle = \langle v_k, \overline{\lambda}_j v_j \rangle = \lambda_j \langle v_k, v_j \rangle = 0。
由此可知 T(v_k) = A_{kk}v_k,因此 v_k 是 T 的一個特徵向量。所以藉由歸納法,\beta 中的所有向量都是 T 的特徵向量。
反之的證明已在第 367 頁中給出。
有趣的是,如下一個例子所示,定理 6.16 不能推廣到無限維的複數內積空間。
例 3
考慮具有 6.1 節例 9 中正交規範集 S 的內積空間 H。令 V = \text{span}(S),並令 T 和 U 為 V 上定義的線性算子,其定義為 T(f) = f_1 f 且 U(f) = f_{-1} f。那麼
T(f_n) = f_{n+1} 且 U(f_n) = f_{n-1}
對於所有整數 n 皆成立。因此
\langle T(f_m), f_n \rangle = \langle f_{m+1}, f_n \rangle = \delta_{(m+1),n} = \delta_{m,(n-1)} = \langle f_m, f_{n-1} \rangle = \langle f_m, U(f_n) \rangle。
由此可知 U = T^*。此外,TT^* = I = T^* T;所以 T 是正常的。
我們證明 T 沒有特徵向量。假設 f 是 T 的一個特徵向量,例如 T(f) = \lambda f 對於某個 \lambda 成立。因為 V 等於 S 的生成空間 (span),我們可以寫成
f = \sum_{i=n}^m a_i f_i,其中 a_m \ne 0。
因此
\sum_{i=n}^m a_i f_{i+1} = T(f) = \lambda f = \sum_{i=n}^m \lambda a_i f_i。
因為 a_m \ne 0,我們可以將 f_{m+1} 寫成 f_n, f_{n+1}, \dots, f_m 的線性組合。但這是一個矛盾,因為 S 是線性獨立的。
例 1 說明了對於實數內積空間,正常性並不足以保證存在由特徵向量組成的正交規範基底。對於實數內積空間,我們必須用更強的條件 T = T^* 來取代正常性,以保證這樣的基底存在。
定義。 設 T 為內積空間 V 上的線性算子。如果 T = T^*,我們稱 T 為自伴的 (self-adjoint)(或埃爾米特的 Hermitian)。如果 A = A^*,一個 n \times n 實數或複數矩陣 A 稱為自伴的 (self-adjoint)(或埃爾米特的 Hermitian)。
可以立即得出,如果 \beta 是正交規範基底,那麼 T 是自伴的若且唯若 [T]_\beta 是自伴的。對於實矩陣,這個條件簡化為要求 A 必須是對稱的 (symmetric)。
在陳述關於自伴算子的主要結果之前,我們需要一些準備工作。
根據定義,實數內積空間上的線性算子只有實數特徵值。接下來的引理表明,對於複數內積空間上的自伴算子,情況也是如此。同樣地,複數內積空間上每個線性算子的特徵多項式都可分解,而對於實數內積空間上的自伴算子,情況也是如此。
引理。 設 T 為有限維內積空間 V 上的一個自伴算子。則
(a) T 的每一個特徵值都是實數。
(b) 假設 V 是一個實數內積空間。則 T 的特徵多項式可分解 (splits)。
證明。 (a) 假設對於 x \ne 0 有 T(x) = \lambda x。因為自伴算子也是正常的,我們可以應用定理 6.15(c) 得到
\lambda x = T(x) = T^*(x) = \overline{\lambda} x。
所以 \lambda = \overline{\lambda};也就是說,\lambda 是實數。
(b) 令 n = \dim(V),\beta 為 V 的正交規範基底,且 A = [T]_\beta。那麼 A 是自伴的。令 T_A 為定義在 C^n 上的線性算子,其定義為對於所有 x \in C^n 有 T_A(x) = Ax。請注意 T_A 是自伴的,因為 [T_A]_\gamma = A,其中 \gamma 是 C^n 的標準有序(正交規範)基底。所以,由 (a) 可知,T_A 的特徵值都是實數。根據代數基本定理,T_A 的特徵多項式可分解成形式為 t-\lambda 的因式。由於每個特徵值 \lambda 都是實數,所以 T_A 的特徵多項式在 R 上可分解。但是 T_A 的特徵多項式與 A 相同,而 A 的特徵多項式又與 T 相同。因此 T 的特徵多項式可分解。
我們現在能夠建立本章的主要結果之一。
定理 6.17。 設 T 為有限維實數內積空間 V 上的線性算子。則 T 是自伴的 (self-adjoint),若且唯若存在一個由 T 的特徵向量組成的 V 的正交規範基底 \beta。
證明。 假設 T 是自伴的。由引理可知,T 的特徵多項式可分解。根據舒爾定理 (定理 6.14),存在一個正交規範基底 \beta 使得 [T]_\beta 是一個上三角矩陣。令 A = [T]_\beta。因為 T 是自伴的,
A = [T]_\beta = [T^*]_\beta = ([T]_\beta)^* = A^*。
所以 A 與 A^* 都是上三角矩陣,因此 A 是一個對角矩陣。所以 \beta 必定由 T 的特徵向量組成。
反之的證明留作習題。
我們在下一節中將這個定理以矩陣形式重新陳述(如第 381 頁的定理 6.20)。
例 4
如同我們先前所注意到的,實對稱矩陣是自伴的,而自伴矩陣是正常的。以下矩陣 A 是複數對稱矩陣:
A = \begin{pmatrix} i & i \\ i & 1 \end{pmatrix}。
但 A 不是正常的,因為 (AA^*)_{12} = 1+i 而 (A^*A)_{12} = 1-i。因此 A 不是自伴的。
習題 6.4
1. 將下列敘述標示為真 (True) 或假 (False)。假設所有提及的向量空間都是有限維內積空間。
(a) 每個自伴算子都是正常的。
(b) 正常算子可以具有複數特徵值(即具有非零虛部的特徵值)。
(c) 如果 T 是內積空間 V 上的算子,那麼 T 是正常的。
(d) 實數或複數矩陣 A 是正常的,若且唯若 L_A 是正常的。
(e) 自伴算子的特徵值必須全部都是實數。
(f) 單位算子和零算子是自伴的。
(g) 每個正常算子都是可對角化的。
(h) 每個自伴算子都是可對角化的。
2. 對於內積空間 V 上的每個線性算子 T,判斷 T 是否為正常的、自伴的或兩者皆非。如果可能,請為 V 產生一個由 T 的特徵向量組成的正交規範基底,並列出對應的特徵值。
(a) V = R^2 且 T(a,b) = (2a-2b, -2a+5b)
(b) V = R^3 且 T(a,b,c) = (-a+b, 5b, 4a-2b+5c)
(c) V = C^2 且 T(a,b) = (2a+ib, a+2b)
(d) V = P_2(R) 且 T(f) = f',內積由 \langle f,g \rangle = \int_0^1 f(t)g(t)dt 給出。
(e) V = M_{2 \times 2}(R) 且 T 定義為 T(A) = A^t。
(f) V = M_{2 \times 2}(R) 且 T 定義為 T\begin{pmatrix} a & b \\ c & d \end{pmatrix} = \begin{pmatrix} c & d \\ a & b \end{pmatrix}。
3. 給出一個 R^2 上的線性算子 T 以及一個 R^2 的有序基底的例子,作為習題 1(c) 敘述的反例。
4. 設 T 和 U 為內積空間 V 上的自伴算子。證明 TU 是自伴的若且唯若 TU = UT。
5. 證明定理 6.15 的 (b)。
6. 設 V 為複數內積空間,且設 T 為 V 上的線性算子。定義
T_1 = \frac{1}{2}(T+T^*) 和 T_2 = \frac{1}{2i}(T-T^*)。
(a) 證明 T_1 和 T_2 是自伴的且 T = T_1 + iT_2。
(b) 同時假設 T = U_1 + iU_2,其中 U_1 和 U_2 是自伴的。證明 U_1 = T_1 且 U_2 = T_2。
(c) 證明 T 是正常的若且唯若 T_1 T_2 = T_2 T_1。
7. 設 T 為內積空間 V 上的線性算子,且令 W 為 V 的 T-不變子空間。證明下列結果。
(a) 如果 T 是自伴的,那麼 T_W 是自伴的。
(b) W^\perp 是 T^*-不變的。
(c) 如果 W 既是 T- 也是 T^*-不變的,那麼 (T_W)^* = (T^*)_W。
(d) 如果 W 既是 T- 也是 T^*-不變的,且 T 是正常的,那麼 T_W 是正常的。
8. 設 T 為有限維複數內積空間 V 上的正常算子,且令 W 為 V 的子空間。證明如果 W 是 T-不變的,那麼 W 也是 T^*-不變的。提示:使用 5.4 節的習題 24。
9. 設 T 為有限維內積空間 V 上的正常算子。證明 N(T) = N(T^*) 且 R(T) = R(T^*)。提示:使用定理 6.15 和 6.3 節的習題 12。
10. 設 T 為有限維內積空間 V 上的自伴算子。證明對於所有 x \in V 都有
||T(x) \pm ix||^2 = ||T(x)||^2 + ||x||^2
推導出 T - iI 是可逆的,且 (T - iI)^{-1} 的伴隨為 (T + iI)^{-1}。
11. 假設 T 是一個在具有伴隨 T^* 的複數(不一定是有限維)內積空間 V 上的線性算子。證明下列結果。
(a) 如果 T 是自伴的,那麼對於所有 x \in V,\langle T(x), x \rangle 都是實數。
(b) 如果 T 滿足對所有 x \in V 都有 \langle T(x), x \rangle = 0,那麼 T = T_0。提示:將 x 替換為 x + y,然後再替換為 x + iy,並展開結果的內積。
(c) 如果對於所有 x \in V,\langle T(x), x \rangle 都是實數,那麼 T 是自伴的。
12. 設 T 為有限維實數內積空間 V 上的一個正常算子,其特徵多項式可分解。證明 V 具有一個由 T 的特徵向量組成的正交規範基底。從而推導出 T 是自伴的。
13. 一個 n \times n 實矩陣 A 被稱為格拉姆矩陣 (Gramian matrix),如果存在一個實數(方)矩陣 B 使得 A = B^t B。證明 A 是一個格拉姆矩陣若且唯若 A 是對稱的且其所有特徵值都是非負的。提示:將定理 6.17 應用於 T = L_A,獲得一個由特徵向量組成的正交規範基底 \{v_1, v_2, \dots, v_n\},其相關特徵值為 \lambda_1, \lambda_2, \dots, \lambda_n。定義線性算子 U 為 U(v_i) = \sqrt{\lambda_i} v_i。
14. 同時對角化 (Simultaneous Diagonalization)。設 V 為有限維實數內積空間,且設 U 和 T 為 V 上的自伴線性算子使得 UT = TU。證明存在一個由 V 的向量組成的正交規範基底,這些向量同時是 U 和 T 的特徵向量。(這個結果的複數版本出現在 6.6 節的習題 10 中。)提示:對於 T 的任何特徵空間 W = E_\lambda,我們有 W 既是 T-不變的也是 U-不變的。由習題 7,我們有 W^\perp 既是 T-不變的也是 U-不變的。應用定理 6.17 和定理 6.6 (第 347 頁)。
15. 設 A 和 B 為對稱的 n \times n 矩陣使得 AB = BA。使用習題 14 證明存在一個正交矩陣 P 使得 P^t A P 和 P^t B P 都是對角矩陣。
16. 證明複數 n \times n 矩陣 A 的凱萊-漢密頓定理 (Cayley-Hamilton theorem)。也就是說,如果 f(t) 是 A 的特徵多項式,證明 f(A) = O。提示:使用舒爾定理來證明 A 可以假設為上三角矩陣,在這種情況下
f(t) = \prod_{i=1}^n (A_{ii} - t)。
現在如果 T = L_A,對於 j \ge 2,我們有 (A_{jj}I - T)(e_j) \in \text{span}(\{e_1, e_2, \dots, e_{j-1}\}),其中 \{e_1, e_2, \dots, e_n\} 是 C^n 的標準有序基底。(一般情況在 5.4 節中證明。)
下列定義用於習題 17 到 23。
定義:有限維內積空間上的線性算子 T 稱為正定 (positive definite) [半正定 (positive semidefinite)],如果 T 是自伴的且對於所有 x \ne 0,\langle T(x),x \rangle \gt 0 [\langle T(x),x \rangle \ge 0]。
設 n \times n 矩陣 A 具有 R 或 C 中的元素,如果 L_A 是正定 [半正定] 的,則稱 A 為正定 (positive definite) [半正定 (positive semidefinite)]。
17. 設 T 和 U 為 n 維內積空間 V 上的自伴線性算子,且設 A = [T]_\beta,其中 \beta 是 V 的正交規範基底。證明下列結果。
(a) T 是正定 [半正定] 的若且唯若其所有特徵值都是正的 [非負的]。
(b) T 是正定的若且唯若 \sum_{i,j} A_{ij} a_j \overline{a}_i \gt 0 對於所有非零 n 元組 (a_1, a_2, \dots, a_n) 成立。
(c) T 是半正定的,若且唯若對於某個方陣 B,有 A = B^* B。
(d) 如果 T 和 U 是半正定算子使得 T^2 = U^2,那麼 T = U。
(e) 如果 T 和 U 是正定算子使得 TU = UT,那麼 TU 是正定的。
(f) T 是正定 [半正定] 的,若且唯若 A 是正定 [半正定] 的。
因為 (f) 的關係,類似於 (a) 到 (d) 的結果對矩陣及算子皆成立。
18. 設 T: V \rightarrow W 是一個線性變換,其中 V 和 W 為有限維內積空間。證明下列結果。
(a) T^* T 和 T T^* 都是半正定的。(見 6.3 節的習題 15。)
(b) \text{rank}(T^* T) = \text{rank}(T T^*) = \text{rank}(T)。
19. 設 T 和 U 為內積空間 V 上的正定算子。證明下列結果。
(a) T+U 是正定的。
(b) 如果 c \gt 0,那麼 cT 是正定的。
(c) T^{-1} 是正定的。
20. 設 V 是一個具有內積 \langle \cdot, \cdot \rangle 的內積空間,且設 T 為 V 上的一個正定線性算子。證明 \langle x, y \rangle' = \langle T(x), y \rangle 定義了 V 上的另一個內積。
21. 設 V 是一個有限維內積空間,且設 T 和 U 為 V 上的自伴算子,使得 T 是正定的。證明 TU 和 UT 都是可對角化的線性算子,且只具有實數特徵值。提示:證明 UT 相對於內積 \langle x, y \rangle' = \langle T(x), y \rangle 是自伴的。為了證明 TU 是自伴的,用 T^{-1} 代替 T 重複上述論證。
22. 此習題提供了習題 20 的逆命題。設 V 是一個具有內積 \langle \cdot, \cdot \rangle 的有限維內積空間,且設 \langle \cdot, \cdot \rangle' 為 V 上的任何其他內積。
(a) 證明存在 V 上唯一的線性算子 T 使得對 V 中的所有 x 和 y,\langle x, y \rangle' = \langle T(x), y \rangle。提示:設 \beta = \{v_1, v_2, \dots, v_n\} 為 V 相對於 \langle \cdot, \cdot \rangle 的一個正交規範基底,並定義一個矩陣 A,對於所有的 i 和 j,A_{ij} = \langle v_j, v_i \rangle'。令 T 為 V 上唯一的線性算子使得 [T]_\beta = A。
(b) 證明 (a) 中的算子 T 相對於兩個內積都是正定的。
23. 設 U 為有限維內積空間 V 上的可對角化線性算子,使得 U 的所有特徵值都是實數。證明存在正定線性算子 T_1 和 T_1' 以及自伴線性算子 T_2 和 T_2',使得 U = T_2 T_1 = T_1' T_2'。提示:令 \langle \cdot, \cdot \rangle 為與 V 相關的內積,\beta 為 U 的特徵向量基底,\langle \cdot, \cdot \rangle' 為 V 上的內積,且相對於此內積 \beta 是正交規範的(見 6.1 節的習題 22(a)),而 T_1 為根據習題 22 的正定算子。證明 U 相對於 \langle \cdot, \cdot \rangle' 是自伴的,且 U = T_1^{-1} U^* T_1(此處的伴隨是相對於 \langle \cdot, \cdot \rangle 的)。令 T_2 = T_1^{-1} U^*。
這一次,我將為您完全集中在第 6.5 節(酉算子與正交算子及其矩陣),為您進行最精細、毫無保留且一字不漏的完整翻譯。包含所有的課文、定理、證明、範例,以及完整的 32 題習題。
6.5 酉算子與正交算子及其矩陣 (UNITARY AND ORTHOGONAL OPERATORS AND THEIR MATRICES)
在本節中,我們繼續探討複數與線性算子之間的類比關係。回想一下,線性算子的伴隨 (adjoint) 其作用類似於複數的共軛 (conjugate)(例如,請見第 357 頁的定理 6.11)。一個複數 z 的長度為 1 若且唯若 z\overline{z}=1。在本節中,我們將研究內積空間 V 上滿足 TT^* = T^*T = I 的那些線性算子 T。我們將會看到,這些算子精確地是「保持長度 (preserve length)」的線性算子,其意義在於對所有的 x \in V 皆有 ||T(x)|| = ||x||。作為另一種特徵刻劃,我們將證明,在有限維複數內積空間上,這些算子是其特徵值之絕對值全為 1 的正常算子 (normal operators)。
在過去的章節中,我們感興趣的是研究那些能保持底層空間結構的函數。特別是,線性算子保持了向量加法與純量乘法的運算,而同構 (isomorphisms) 則保持了所有的向量空間結構。現在,自然會想去考慮內積空間上那些能保持長度的線性算子 T。我們將會看到,這個條件實際上保證了 T 會保持內積。
定義。 設 T 為有限維內積空間 V(佈於 F)上的一個線性算子。如果對所有的 x \in V 都有 ||T(x)|| = ||x||,那麼當 F = C 時,我們稱 T 為一個酉算子 (unitary operator);當 F = R 時,我們稱 T 為一個正交算子 (orthogonal operator)。
應當注意的是,在無限維的情況下,一個保持範數 (norm) 的算子是一對一的 (one-to-one),但不一定是映成的 (onto)。如果它同時也是映成的,那麼我們才稱它為酉算子或正交算子。
顯然,在 R^2 中的任何旋轉 (rotation) 或鏡射 (reflection) 都保持長度,因此都是正交算子。我們將在 6.11 節中更詳細地研究這些算子。
例 1
回想定義在第 330 頁的內積空間 H。設 h \in H 滿足對所有的 x 都有 |h(x)| = 1。在 H 上定義線性算子 T 為 T(f) = hf。那麼
||T(f)||^2 = ||hf||^2 = \frac{1}{2\pi} \int_0^{2\pi} h(t)f(t)\overline{h(t)f(t)} dt = ||f||^2
因為對所有的 t 都有 |h(t)|^2 = 1。所以 T 是一個酉算子。
定理 6.18。 設 T 為有限維內積空間 V 上的線性算子。則下列敘述是等價的。
(a) T^*T = I。
(b) TT^* = I。
(c) 對於所有的 x, y \in V,\langle T(x), T(y) \rangle = \langle x, y \rangle。
(d) 如果 \beta 是 V 的一個正交規範基底 (orthonormal basis),那麼 T(\beta) 也是 V 的一個正交規範基底。
(e) 存在 V 的一個正交規範基底 \beta,使得 T(\beta) 是 V 的一個正交規範基底。
(f) 對於所有的 x \in V,||T(x)|| = ||x||。
證明。
因為 V 是有限維的,(a) 與 (b) 是等價的。
為了證明 (a) 蘊涵 (c),我們觀察到如果 T^*T = I,那麼對於所有的 x, y \in V,
\langle T(x), T(y) \rangle = \langle x, T^*T(y) \rangle = \langle x, I(y) \rangle = \langle x, y \rangle。
這證明了 (c)。
為了證明 (c) 蘊涵 (d),令 \beta = \{v_1, v_2, \dots, v_n\} 為 V 的一個正交規範基底。那麼對於所有的 i 與 j,
\langle T(v_i), T(v_j) \rangle = \langle v_i, v_j \rangle = \delta_{ij}。
因此 T(\beta) 是一個正交規範集。因為它包含 n 個向量,所以它必定是 V 的基底。
(d) 蘊涵 (e) 是顯然的。
為了證明 (e) 蘊涵 (f),設 \beta = \{v_1, v_2, \dots, v_n\} 是一個正交規範基底,使得 T(\beta) 也是一個正交規範基底。如果 x \in V,那麼存在純量 a_1, a_2, \dots, a_n 使得 x = \sum_{i=1}^n a_i v_i。由 6.2 節習題 10 可知,||x||^2 = \sum_{i=1}^n |a_i|^2。因為 T(x) = \sum_{i=1}^n a_i T(v_i) 且 T(\beta) 是正交規範的,相同的習題告訴我們 ||T(x)||^2 = \sum_{i=1}^n |a_i|^2。因此 ||T(x)|| = ||x||。
最後,我們證明 (f) 蘊涵 (a)。對於任何 x \in V,我們有
\langle x, x \rangle = ||x||^2 = ||T(x)||^2 = \langle T(x), T(x) \rangle = \langle x, T^*T(x) \rangle。
因此 \langle x, x - T^*T(x) \rangle = 0 對所有的 x \in V 成立。由此可以推導出 T^*T = I。
我們現在來檢視代表酉算子與正交算子的矩陣。
定義。 一個方陣 A 如果滿足 A^tA = AA^t = I,則稱為正交矩陣 (orthogonal matrix);如果滿足 A^*A = AA^* = I,則稱為酉矩陣 (unitary matrix)。
因為對於實矩陣 A,我們有 A^* = A^t,所以實數的酉矩陣同時也是正交矩陣。在這種情況下,我們稱 A 為正交矩陣而不是酉矩陣。
請注意,條件 AA^* = I 等價於 A 的列向量 (rows) 構成 C^n 的一個正交規範基底的敘述;類似地,條件 A^*A = I 等價於 A 的行向量 (columns) 構成 C^n 的一個正交規範基底的敘述。
例 5
如同定理 6.23 中所見到的,在 R^2 的標準有序基底中,將 R^2 旋轉 \theta 角度的旋轉操作 T 的矩陣表示為
A = \begin{pmatrix} \cos \theta & -\sin \theta \\ \sin \theta & \cos \theta \end{pmatrix}
因為 A 的行向量構成了 R^2 的一個正交規範基底,所以 A 是一個正交矩陣,這印證了我們早先的觀察:旋轉是一個正交算子。
前面的段落已經證明了接下來兩個定理中各一半的內容。
定理 6.19。 設 A 為一個複數 n \times n 矩陣。那麼 A 是正常的 (normal),若且唯若 A 酉等價於 (unitarily equivalent) 一個對角矩陣。
證明。 我們只需要證明如果 A 酉等價於一個對角矩陣,那麼 A 是正常的。
假設 A = P^*DP,其中 P 是酉矩陣,而 D 是對角矩陣。那麼
AA^* = (P^*DP)(P^*DP)^* = (P^*DP)(P^*D^*P) = P^*DID^*P = P^*DD^*P。
同理,A^*A = P^*D^*DP。然而,因為 D 是對角矩陣,我們有 DD^* = D^*D。因此 AA^* = A^*A。
定理 6.20。 設 A 為一個實數 n \times n 矩陣。那麼 A 是對稱的 (symmetric),若且唯若 A 正交等價於 (orthogonally equivalent) 一個實對角矩陣。
證明。 這個證明類似於定理 6.19 的證明,留作習題。
定理 6.20 廣泛應用於數學和統計學的許多領域。
例 6
令
A = \begin{pmatrix} 4 & 2 & 2 \\ 2 & 4 & 2 \\ 2 & 2 & 4 \end{pmatrix}
因為 A 是對稱的,定理 6.20 告訴我們 A 正交等價於一個對角矩陣。我們來找出一個正交矩陣 P 與一個對角矩陣 D 使得 P^tAP = D。
為了尋找 P,我們取得特徵向量的正交規範基底。很容易可以證明 A 的特徵值為 2 和 8。集合 \{(-1, 1, 0), (-1, 0, 1)\} 是對應於 2 的特徵空間的一個基底。因為這個集合不是正交的,我們應用葛蘭-史密特過程來獲得正交集 \{(-1, 1, 0), (1, 1, -2)\}。集合 \{(1, 1, 1)\} 是對應於 8 的特徵空間的一個基底。請注意 (1, 1, 1) 與前面的兩個向量正交,這正如定理 6.15(d) (第 368 頁) 所預測。將這兩個基底聯集並將向量正規化,我們獲得 R^3 中由 A 的特徵向量組成的正交規範基底:
\{\frac{1}{\sqrt{2}}(-1, 1, 0), \frac{1}{\sqrt{6}}(1, 1, -2), \frac{1}{\sqrt{3}}(1, 1, 1)\}。
因此 P 的一個可能選擇為
P = \begin{pmatrix} \frac{-1}{\sqrt{2}} & \frac{1}{\sqrt{6}} & \frac{1}{\sqrt{3}} \\ \frac{1}{\sqrt{2}} & \frac{1}{\sqrt{6}} & \frac{1}{\sqrt{3}} \\ 0 & \frac{-2}{\sqrt{6}} & \frac{1}{\sqrt{3}} \end{pmatrix},且 D = \begin{pmatrix} 2 & 0 & 0 \\ 0 & 2 & 0 \\ 0 & 0 & 8 \end{pmatrix}。
因為舒爾定理 (Schur's theorem,定理 6.14 第 367 頁) 的關係,下一個結果是直接的。由於它是舒爾定理的矩陣形式,我們也稱其為舒爾定理。
定理 6.21 (舒爾定理 Schur)。
設 A \in M_{n \times n}(F) 為一個其特徵多項式在 F 上可分解 (splits) 的矩陣。
(a) 如果 F=C,則 A 酉等價於一個複數上三角矩陣。
(b) 如果 F=R,則 A 正交等價於一個實數上三角矩陣。
剛體運動 (Rigid Motions)*
此應用的目的是要刻劃有限維實數內積空間上所謂的剛體運動 (rigid motions)。人們可以直觀地將這種運動想成一種變換,在其作用下圖形的形狀不會改變。這類變換的關鍵要求是它能保持距離。
定義。 設 V 為一個實數內積空間。如果對於所有的 x, y \in V,函數 f: V \rightarrow V 滿足
||f(x) - f(y)|| = ||x - y||
則稱 f 為剛體運動 (rigid motion)。
例如,在有限維實數內積空間上的任何正交算子都是剛體運動。
另一類的剛體運動是平移 (translations)。如果 V 是一個實數內積空間,函數 g: V \rightarrow V 若存在一個向量 v_0 \in V 使得對所有的 x \in V 都有 g(x) = x + v_0,則稱其為平移。我們稱 g 是沿著 v_0 的平移。
定理 6.22。 設 f: V \rightarrow V 為有限維實數內積空間 V 上的一個剛體運動。則存在 V 上唯一的一個正交算子 T 與一個平移 g,使得 f = g \circ T。
證明。 設 v_0 = f(0)。定義 T: V \rightarrow V 為 T(x) = f(x) - v_0。顯然 T 是一個保持距離且將 0 映射到 0 的函數。也就是說,||T(x)|| = ||f(x) - f(0)|| = ||x - 0|| = ||x||。因此對所有的 x, y \in V,
||T(x) - T(y)||^2 = ||T(x)||^2 - 2\langle T(x), T(y) \rangle + ||T(y)||^2 = ||x||^2 - 2\langle T(x), T(y) \rangle + ||y||^2
同時 ||x - y||^2 = ||x||^2 - 2\langle x, y \rangle + ||y||^2。
因為 ||T(x) - T(y)||^2 = ||x - y||^2,所以對所有的 x, y \in V,\langle T(x), T(y) \rangle = \langle x, y \rangle。
我們現在證明 T 是一個線性變換。設 x, y \in V,且 a \in R。那麼
||T(x+ay) - T(x) - aT(y)||^2 = ||[T(x+ay) - T(x)] - aT(y)||^2
= ||T(x+ay) - T(x)||^2 + a^2||T(y)||^2 - 2a\langle T(x+ay) - T(x), T(y) \rangle
= ||(x+ay) - x||^2 + a^2||y||^2 - 2a[\langle T(x+ay), T(y) \rangle - \langle T(x), T(y) \rangle]
= a^2||y||^2 + a^2||y||^2 - 2a[\langle x+ay, y \rangle - \langle x, y \rangle]
= 2a^2||y||^2 - 2a[\langle x, y \rangle + a||y||^2 - \langle x, y \rangle] = 0。
因此 T(x+ay) = T(x) + aT(y),故 T 是線性的。既然我們已證明 T 保持內積,T 就是一個正交算子。
為證明唯一性,假設 u_0 和 v_0 在 V 中,且 T 和 U 是 V 上的正交算子,滿足 f(x) = T(x) + u_0 = U(x) + v_0 對所有 x \in V 成立。將 x=0 代入可得 u_0 = v_0,因此平移是唯一的。這個方程式隨之簡化為對所有 x \in V 皆有 T(x) = U(x),因此 T=U。
R^2 上的正交算子 (Orthogonal Operators on R^2)
因為定理 6.22,理解剛體運動需要對正交算子進行刻劃。下一個結果刻劃了 R^2 上的正交算子。
定理 6.23。 設 T 為 R^2 上的正交算子,且令 A = [T]_\beta,其中 \beta 是 R^2 的標準有序基底。則恰好滿足下列條件之一:
(a) T 是一個旋轉 (rotation),且 \det(A) = 1。
(b) T 是關於一條通過原點之直線的鏡射 (reflection),且 \det(A) = -1。
證明。 因為 T 是一個正交算子,所以由定理 6.18(c),T(\beta) = \{T(e_1), T(e_2)\} 是 R^2 的正交規範基底。因為 T(e_1) 是單位向量,存在唯一角度 \theta (0 \le \theta \lt 2\pi) 使得 T(e_1) = (\cos \theta, \sin \theta)。因為 T(e_2) 是單位向量且正交於 T(e_1),所以 T(e_2) 只有兩種可能的選擇:
T(e_2) = (-\sin \theta, \cos \theta) 或者 T(e_2) = (\sin \theta, -\cos \theta)。
首先假設 T(e_2) = (-\sin \theta, \cos \theta)。那麼 A = \begin{pmatrix} \cos \theta & -\sin \theta \\ \sin \theta & \cos \theta \end{pmatrix}。
由 6.4 節的例 1 可得出 T 是旋轉角為 \theta 的旋轉。而且
\det(A) = \cos^2 \theta + \sin^2 \theta = 1。
現在假設 T(e_2) = (\sin \theta, -\cos \theta)。那麼 A = \begin{pmatrix} \cos \theta & \sin \theta \\ \sin \theta & -\cos \theta \end{pmatrix}。
將此矩陣與例 5 中的矩陣 A 比較,我們看到 T 是 R^2 關於某直線 L 的鏡射,其中從正 x 軸到 L 的角度為 \alpha = \theta/2。此外,
\det(A) = -\cos^2 \theta - \sin^2 \theta = -1。
結合定理 6.22 與 6.23,我們獲得以下對 R^2 上剛體運動的刻劃。
推論。 R^2 上的任何剛體運動,要麼是一個旋轉後接平移,要麼是關於通過原點之直線的鏡射後接平移。
例 7
令 A = \begin{pmatrix} 1/\sqrt{5} & 2/\sqrt{5} \\ 2/\sqrt{5} & -1/\sqrt{5} \end{pmatrix}。
我們證明 L_A 是 R^2 關於通過原點直線 L 的鏡射,然後描述 L。
顯然 AA^* = A^*A = I,因此 A 是一個正交矩陣。故 L_A 是一個正交算子。此外,
\det(A) = -1/5 - 4/5 = -1,
所以由定理 6.23,L_A 是 R^2 關於通過原點直線 L 的鏡射。既然 L 是對應於特徵值 1 的 L_A 之一維特徵空間,我們只需找出 L_A 對應於 1 的特徵向量。其中一個這樣的向量是 v = (2, \sqrt{5}-1)。因此 L 是由 \{v\} 生成的空間。或者說,L 是斜率為 (\sqrt{5}-1)/2 且通過原點的直線,其方程式為
y = \frac{\sqrt{5}-1}{2} x。
圓錐曲線 (Conic Sections)
作為定理 6.20 的應用,我們考慮二次方程式
ax^2 + 2bxy + cy^2 + dx + ey + f = 0。 (2)
對於 (2) 中係數的特殊選擇,我們獲得各種圓錐曲線。例如,如果 a=c=1, b=d=e=0, 且 f=-1,我們得到以原點為中心的圓 x^2 + y^2 = 1。其餘的圓錐曲線,也就是橢圓、拋物線和雙曲線,則是透過其他的係數選擇得到。如果 b=0,那麼很容易可以用配方法畫出方程式的圖形,因為沒有 xy 項。
我們現在專注於消去 xy 項。為了達成這個目的,我們考慮表達式
ax^2 + 2bxy + cy^2, (3)
這被稱為 (2) 的關聯二次型 (associated quadratic form)。如果我們令
A = \begin{pmatrix} a & b \\ b & c \end{pmatrix} 且 X = \begin{pmatrix} x \\ y \end{pmatrix},
那麼 (3) 可以寫成 X^tAX = \langle AX, X \rangle。
A 是對稱的這個事實是我們討論的關鍵。因為由定理 6.20,我們可以選擇一個正交矩陣 P 和一個具有實數對角線元素 \lambda_1 和 \lambda_2 的對角矩陣 D,使得 P^tAP = D。現在定義 X' = \begin{pmatrix} x' \\ y' \end{pmatrix} 由 X' = P^tX 給出,或者等價地,由 PX' = PP^tX = X 給出。那麼
X^tAX = (PX')^tA(PX') = (X')^t(P^tAP)X' = (X')^tDX' = \lambda_1(x')^2 + \lambda_2(y')^2。
因此,變換 (x,y) \rightarrow (x',y') 允許我們消去 (3) 中的 xy 項。
此外,因為 P 是正交矩陣,我們藉由定理 6.23 得知 \det(P) = \pm 1。如果 \det(P) = -1,我們可以交換 P 的行向量來得到矩陣 Q,此時 \det(Q) = 1。因此矩陣 P (或 Q) 代表了坐標軸的旋轉。
例 8
考慮方程式
2x^2 - 4xy + 5y^2 - 36 = 0,
其關聯二次型為 2x^2 - 4xy + 5y^2。在我們使用的符號中,
A = \begin{pmatrix} 2 & -2 \\ -2 & 5 \end{pmatrix},
A 的特徵值為 1 和 6,相關聯的特徵向量為 \begin{pmatrix} 2 \\ 1 \end{pmatrix} 和 \begin{pmatrix} -1 \\ 2 \end{pmatrix}。
對應之由特徵向量組成的正交規範基底為 \beta = \left\{ \begin{pmatrix} \frac{2}{\sqrt{5}} \\ \frac{1}{\sqrt{5}} \end{pmatrix}, \begin{pmatrix} \frac{-1}{\sqrt{5}} \\ \frac{2}{\sqrt{5}} \end{pmatrix} \right\}。
這決定了新的坐標軸 x' 和 y'。因此如果
P = \begin{pmatrix} \frac{2}{\sqrt{5}} & \frac{-1}{\sqrt{5}} \\ \frac{1}{\sqrt{5}} & \frac{2}{\sqrt{5}} \end{pmatrix} = \frac{1}{\sqrt{5}} \begin{pmatrix} 2 & -1 \\ 1 & 2 \end{pmatrix},
那麼 P^tAP = \begin{pmatrix} 1 & 0 \\ 0 & 6 \end{pmatrix}。
在變換 X = PX'(即 x = \frac{2}{\sqrt{5}}x' - \frac{1}{\sqrt{5}}y', y = \frac{1}{\sqrt{5}}x' + \frac{2}{\sqrt{5}}y')的作用下,我們得到了新的二次型 (x')^2 + 6(y')^2。因此原始方程式可寫為 (x')^2 + 6(y')^2 = 36,很明顯這個方程式代表一個橢圓。請注意 P 是旋轉角度 \theta = \cos^{-1}(2/\sqrt{5}) \approx 26.6^\circ 的矩陣表示。
習題 6.5 (EXERCISES)
1. 將下列敘述標示為真 (True) 或假 (False)。假設底層的內積空間皆為有限維。
(a) 每個酉算子都是正常的。(True)
(b) 每個正交算子都是可對角化的。(False)
(c) 一個矩陣是酉矩陣若且唯若它是可逆的。(False)
(d) 如果兩個矩陣是酉等價的,那麼它們也是相似的。(True)
(e) 酉矩陣的和也是酉矩陣。(False)
(f) 酉算子的伴隨也是酉算子。(True)
(g) 如果 T 是 V 上的正交算子,那麼對於 V 的任何有序基底 \beta,[T]_\beta 都是正交矩陣。(False)
(h) 如果一個線性算子的所有特徵值都是 1,那麼該算子必定是酉算子或正交算子。(False)
(i) 一個線性算子可以在不保持內積的情況下保持範數。(False)
2. 對於下列每個矩陣 A,找一個正交矩陣或酉矩陣 P 以及一個對角矩陣 D 使得 P^*AP = D。
(a) \begin{pmatrix} 1 & 2 \\ 2 & 1 \end{pmatrix}
(b) \begin{pmatrix} 0 & -1 \\ 1 & 0 \end{pmatrix}
(c) \begin{pmatrix} 2 & 3-3i \\ 3+3i & 5 \end{pmatrix}
(d) \begin{pmatrix} 0 & 2 & 2 \\ 2 & 0 & 2 \\ 2 & 2 & 0 \end{pmatrix}
(e) \begin{pmatrix} 2 & 1 & 1 \\ 1 & 2 & 1 \\ 1 & 1 & 2 \end{pmatrix}
3. 證明酉算子 [正交算子] 的複合變換是酉算子 [正交算子]。
4. 對於 z \in C,定義 T_z: C \rightarrow C 為 T_z(u) = zu。刻劃那些使得 T_z 是正常的、自伴的,或酉變換的 z。
5. 下列哪幾對矩陣是酉等價的 (unitarily equivalent)?
(a) \begin{pmatrix} 1 & 0 \\ 0 & 1 \end{pmatrix} 與 \begin{pmatrix} 0 & 1 \\ 1 & 0 \end{pmatrix}
(b) \begin{pmatrix} 0 & 1 \\ 1 & 0 \end{pmatrix} 與 \begin{pmatrix} 0 & 1/2 \\ 1/2 & 0 \end{pmatrix}
(c) \begin{pmatrix} 0 & 1 & 0 \\ -1 & 0 & 0 \\ 0 & 0 & 1 \end{pmatrix} 與 \begin{pmatrix} 2 & 0 & 0 \\ 0 & -1 & 0 \\ 0 & 0 & 0 \end{pmatrix}
(d) \begin{pmatrix} 0 & 1 & 0 \\ -1 & 0 & 0 \\ 0 & 0 & 1 \end{pmatrix} 與 \begin{pmatrix} 1 & 0 & 0 \\ 0 & i & 0 \\ 0 & 0 & -i \end{pmatrix}
(e) \begin{pmatrix} 1 & 1 & 0 \\ 0 & 2 & 2 \\ 0 & 0 & 3 \end{pmatrix} 與 \begin{pmatrix} 1 & 0 & 0 \\ 0 & 2 & 0 \\ 0 & 0 & 3 \end{pmatrix}
6. 設 V 為 $$ 區間上複數值連續函數的內積空間,其內積為 \langle f, g \rangle = \int_0^1 f(t)\overline{g(t)} dt。設 h \in V 且定義 T: V \rightarrow V 為 T(f) = hf。證明 T 是一個酉算子若且唯若 |h(t)| = 1 對於 0 \le t \le 1 成立。
(對於「唯若 (only if)」部分的提示:假設 T 是酉變換。設 f(t) = 1 - |h(t)|^2 且 g(t) = 1。證明 \int_0^1 (1 - |h(t)|^2)^2 dt = 0,並利用若一個非負連續函數的積分為零則該函數恆等於零的事實。)
7. 證明如果 T 是有限維內積空間 V 上的酉算子,那麼 T 具有酉平方根 (unitary square root);也就是說,存在一個酉算子 U 使得 T = U^2。
8. 設 T 為有限維內積空間上的自伴線性算子。利用 6.4 節的習題 10 來證明 (T+iI)(T-iI)^{-1} 是酉變換。
9. 設 U 為有限維內積空間 V 上的線性算子。如果在 V 的某個正交規範基底中,對所有的 x 都有 ||U(x)|| = ||x||,那麼 U 一定是酉變換嗎?請透過證明或反例來證明你的答案。
10. 設 A 為一個 n \times n 實對稱矩陣或複正常矩陣。證明
\text{tr}(A) = \sum_{i=1}^n \lambda_i 以及 \text{tr}(A^*A) = \sum_{i=1}^n |\lambda_i|^2,
其中 \lambda_i 是 A 的 (不一定相異的) 特徵值。
11. 尋找一個正交矩陣,其第一列為 (\frac{1}{3}, \frac{2}{3}, \frac{2}{3})。
12. 設 A 為一個 n \times n 實對稱矩陣或複正常矩陣。證明 \det(A) = \prod_{i=1}^n \lambda_i,其中 \lambda_i 是 A 的 (不一定相異的) 特徵值。
13. 假設 A 和 B 皆為可對角化矩陣。證明或反證:A 相似於 B 若且唯若 A 酉等價於 B。
14. 證明如果 A 和 B 是酉等價矩陣,那麼 A 是正定 [半正定] 矩陣若且唯若 B 是正定 [半正定] 矩陣。
15. 設 U 為內積空間 V 上的一個酉算子,且設 W 為 V 的一個有限維 U-不變子空間。證明:(a) U(W) = W;(b) W^\perp 是 U-不變的。
16. 找出內積空間和 U-不變子空間 W 上的一個酉算子 U 的例子,使得 W^\perp 不是 U-不變的。
17. 證明一個同時是酉矩陣與上三角矩陣的矩陣必定是對角矩陣。
18. 證明「酉等價於 (is unitarily equivalent to)」是 M_{n \times n}(C) 上的一個等價關係。
19. 設 W 為內積空間 V 的一個有限維子空間。由定理 6.7 以及 1.3 節的習題,V = W \oplus W^\perp。定義 U: V \rightarrow V 為 U(v_1 + v_2) = v_1 - v_2,其中 v_1 \in W 且 v_2 \in W^\perp。證明 U 是一個自伴的酉算子。
20. 設 V 為一個有限維內積空間。如果 V 中存在一個子空間 W,使得對所有 x \in W 都有 ||U(x)|| = ||x||,且對所有 x \in W^\perp 都有 U(x) = 0,則 V 上的線性算子 U 被稱為部分等距算子 (partial isometry)。請注意 W 不一定是 U-不變的。假設 U 是一個這樣的算子,且 \{v_1, v_2, \dots, v_k\} 是 W 的一個正交規範基底。證明下列結果:
(a) 對於所有的 x, y \in W,\langle U(x), U(y) \rangle = \langle x, y \rangle。
(b) \{U(v_1), U(v_2), \dots, U(v_k)\} 是 R(U) 的一個正交規範基底。
(c) 存在 V 的一個正交規範基底 \gamma,使得 [U]_\gamma 的前 k 行構成一個正交規範集,且其餘行為零。
(d) 設 \{w_1, w_2, \dots, w_j\} 為 R(U)^\perp 的正交規範基底,且 \beta = \{U(v_1), \dots, U(v_k), w_1, \dots, w_j\}。那麼 \beta 是 V 的一個正交規範基底。
(e) 設 T 為 V 上的線性算子,滿足 T(U(v_i)) = v_i (1 \le i \le k) 且 T(w_i) = 0 (1 \le i \le j)。那麼 T 是定義良好的 (well defined),且 T = U^*。
(f) U^* 是一個部分等距算子。
21. 設 A 和 B 為酉等價的 n \times n 矩陣。
(a) 證明 \text{tr}(A^*A) = \text{tr}(B^*B)。
(b) 利用 (a) 來證明 \sum_{i,j=1}^n |A_{ij}|^2 = \sum_{i,j=1}^n |B_{ij}|^2。
(c) 利用 (b) 來證明矩陣 \begin{pmatrix} 1 & 2 \\ 2 & i \end{pmatrix} 與 \begin{pmatrix} i & 4 \\ 1 & 1 \end{pmatrix} 不是酉等價的。
22. 設 V 為一個實數內積空間。
(a) 證明 V 上的任何平移都是剛體運動。
(b) 證明 V 上的任何兩個剛體運動的複合變換也是 V 上的剛體運動。
23. 證明定理 6.22 的以下變形:如果 f: V \rightarrow V 是有限維實數內積空間 V 上的一個剛體運動,那麼存在 V 上唯一的正交算子 T 以及 V 上唯一的平移 g 使得 f = T \circ g。
24. 設 T 和 U 為 R^2 上的正交算子。利用定理 6.23 來證明以下結果。
(a) 如果 T 和 U 都是關於通過原點之直線的鏡射,那麼 UT 是一個旋轉。
(b) 如果 T 是一個旋轉而 U 是關於通過原點之直線的鏡射,那麼 UT 與 TU 都是關於通過原點之直線的鏡射。
25. 假設 T 和 U 是 R^2 關於通過原點之直線 L 和 L' 進行的鏡射,且 \phi 和 \psi 分別是從正 x 軸到 L 和 L' 的角度。由習題 24 可知,UT 是一個旋轉。求其旋轉角。
26. 假設 T 和 U 是 R^2 上的正交算子,使得 T 是以角度 \phi 旋轉,而 U 是關於通過原點直線 L 的鏡射。令 \psi 為從正 x 軸到 L 的角度。由習題 24 可知,UT 和 TU 都是分別關於通過原點直線 L_1 和 L_2 的鏡射。求從正 x 軸到 L_1 與 L_2 的角度。
27. 尋找新的坐標 x', y' 使得下列二次型能寫成 \lambda_1(x')^2 + \lambda_2(y')^2 的形式。
(a) x^2 + 4xy + y^2
(b) 2x^2 + 2xy + 2y^2
(c) x^2 - 12xy - 4y^2
(d) 3x^2 + 2xy + 3y^2
(e) x^2 - 2xy + y^2
28. 考慮表達式 X^tAX,其中 X^t = (x, y, z) 且 A 定義如習題 2(e) 中所示。尋找坐標變換 x', y', z' 使得前述表達式為 \lambda_1(x')^2 + \lambda_2(y')^2 + \lambda_3(z')^2 的形式。
29. QR 分解 (QR-Factorization)。 設 w_1, w_2, \dots, w_n 為 F^n 中線性獨立的向量,且設 v_1, v_2, \dots, v_n 為將 w_1, w_2, \dots, w_n 套用葛蘭-史密特過程所得到的正交向量。設 u_1, u_2, \dots, u_n 為將 v_i 正規化後得到的正交規範基底。
(a) 將 6.2 節 (1) 式中的 w_k 解出並以 u_k 表示,證明
w_k = ||v_k||u_k + \sum_{j=1}^{k-1} \langle w_k, u_j \rangle u_j \quad (1 \le k \le n)。
(b) 設 A 和 Q 分別代表第 k 行為 w_k 和 u_k 的 n \times n 矩陣。定義 R \in M_{n \times n}(F) 為
R_{jk} = \begin{cases} ||v_j|| & \text{if } j = k \\ \langle w_k, u_j \rangle & \text{if } j \lt k \\ 0 & \text{if } j \gt k. \end{cases}
證明 A = QR。
(c) 對於行向量為 (1, 1, 0)、(2, 0, 1) 及 (2, 2, 1) 的 3 \times 3 矩陣,計算如 (b) 中所述的 Q 和 R。
(d) 證明每一個可逆矩陣都是一個酉矩陣 [正交矩陣] 和一個上三角矩陣的乘積,且如果 A = Q_1R_1 = Q_2R_2,則 D = R_2R_1^{-1} 是一個酉對角矩陣。
(e) 利用正交化方法和 (c) 來解系統:
x_1 + 2x_2 + 2x_3 = 1
x_1 + 2x_3 = 11
x_2 + x_3 = -1
30. 假設 \beta 和 \gamma 為 n 維實數 [複數] 內積空間 V 的有序基底。證明如果 Q 是一個將 \gamma-坐標變換為 \beta-坐標的正交 [酉] n \times n 矩陣,那麼 \beta 是正交規範的若且唯若 \gamma 是正交規範的。
31. Householder 算子。定義 H_u: V \rightarrow V 為 H_u(x) = x - 2\langle x, u \rangle u,其中 u 是單位向量。證明:
(a) H_u 是線性的。
(b) H_u(x) = x 若且唯若 x 與 u 正交。
(c) H_u(u) = -u。
(d) H_u^* = H_u 且 H_u^2 = I,因此 H_u 是 V 上的一個酉算子 [正交算子]。
32. 設 V 為佈於 F 的有限維內積空間。設 x 和 y 為 V 中線性獨立的向量,且滿足 ||x|| = ||y||。
(a) 如果 F=C,證明存在 V 中的一個單位向量 u 和一個絕對值 |\theta|=1 的複數 \theta,使得 H_u(x) = \theta y。
(b) 如果 F=R,證明存在 V 中的一個單位向量 u,使得 H_u(x) = y。
6.6 正交投影與譜定理 (ORTHOGONAL PROJECTIONS AND THE SPECTRAL THEOREM)
在本節中,我們主要依賴定理 6.16(第 369 頁)與定理 6.17(第 371 頁)來發展一個優雅的表示法,用以表示在有限維內積空間上的正常 (若 F = C) 或自伴 (若 F = R) 算子 T。我們將證明 T 可以寫成 \lambda_1 T_1 + \lambda_2 T_2 + \dots + \lambda_k T_k 的形式,其中 \lambda_1, \lambda_2, \dots, \lambda_k 是 T 的相異特徵值,而 T_1, T_2, \dots, T_k 是正交投影。我們必須先發展一些關於這些特殊投影的結果。
我們假設讀者熟悉在 5.2 節末尾發展出關於直和 (direct sums) 的結果。V 是兩個子空間之直和的特殊情況,已在 1.3 節的習題中探討過。
回想一下 2.1 節的習題:如果 V = W_1 \oplus W_2,那麼 V 上的線性算子 T 就是沿著 W_2 在 W_1 上的投影 (projection),若對於 x = x_1 + x_2(其中 x_1 \in W_1 且 x_2 \in W_2),我們都有 T(x) = x_1。由 2.1 節的習題 27,我們有
R(T) = W_1 = \{x \in V : T(x) = x\} 以及 N(T) = W_2。
所以 V = R(T) \oplus N(T)。因此,當我們將 T 稱為「在 W_1 上的投影」或簡稱為「投影」時,並不會產生歧義。事實上,可以證明(見 2.3 節的習題 17)T 是一個投影若且唯若 T = T^2。因為 V = W_1 \oplus W_2 = W_1 \oplus W_3 並不蘊涵 W_2 = W_3,我們可以看出 W_1 並不能唯一決定 T。然而,對於正交投影而言,T 是由它的值域所唯一決定的。
定義。 設 V 為內積空間,且設 T: V \rightarrow V 是一個投影。如果 R(T)^\perp = N(T) 且 N(T)^\perp = R(T),我們稱 T 是一個正交投影 (orthogonal projection)。
請注意,根據 6.2 節的習題 13(c),如果 V 是有限維的,我們只需要假設這個定義中的其中一個等式成立即可。例如,如果 R(T)^\perp = N(T),那麼 R(T) = R(T)^{\perp\perp} = N(T)^\perp。
正交投影與正交算子並不相同。在圖 6.5 中,T 是一個正交投影,但 T 顯然不是一個正交算子,因為 ||T(v)|| \ne ||v||。
(譯註:此處原文書有大段落截斷,直接接續第 397 頁傅立葉級數的後半段)
...其中 a_n 或 a_{-n} 不為零。令 f \in H。我們將證明,以次數小於或等於 n 的三角多項式來對 f 進行的最佳近似 (best approximation),正是以 f 相對於正交規範集 S 的傅立葉係數為其係數的三角多項式。為了得到這個結果,令 W = \text{span}(\{f_j : |j| \le n\}),並令 T 為 H 在 W 上的正交投影。定理 6.6(第 348 頁)的推論告訴我們,利用 W 中的函數對 f 進行的最佳近似為
T(f) = \sum_{j=-n}^n \langle f, f_j \rangle f_j。
關於這個題材在電子音樂上的應用,請造訪 goo.gl/EN5Fai。
下一個定理提供了正交投影的代數特徵刻劃。
定理 6.24。 設 V 為一個內積空間,且設 T 為 V 上的一個線性算子。則 T 是一個正交投影若且唯若 T 具有伴隨 T^* 且 T^2 = T = T^*。
證明。 假設 T 是一個正交投影。因為 T 是一個投影,所以 T^2 = T,我們只需要證明 T^* 存在且 T = T^*。現在 V = R(T) \oplus N(T) 且 R(T)^\perp = N(T)。令 x, y \in V。那麼我們可以將 x 寫成 x = x_1 + x_2,且將 y 寫成 y = y_1 + y_2,其中 x_1, y_1 \in R(T) 且 x_2, y_2 \in N(T)。因此
\langle x, T(y) \rangle = \langle x_1 + x_2, y_1 \rangle = \langle x_1, y_1 \rangle + \langle x_2, y_1 \rangle = \langle x_1, y_1 \rangle
且
\langle T(x), y \rangle = \langle x_1, y_1 + y_2 \rangle = \langle x_1, y_1 \rangle + \langle x_1, y_2 \rangle = \langle x_1, y_1 \rangle。
所以對於所有的 x, y \in V 皆有 \langle x, T(y) \rangle = \langle T(x), y \rangle;因此 T^* 存在且 T = T^*。
現在假設 T^2 = T = T^*。則由 2.3 節的習題 17 可知,T 是一個投影,因此我們必須證明 R(T) = N(T)^\perp 且 R(T)^\perp = N(T)。令 x \in R(T) 且 y \in N(T)。那麼 x = T(x) = T^*(x),所以
\langle x, y \rangle = \langle T^*(x), y \rangle = \langle x, T(y) \rangle = \langle x, 0 \rangle = 0。
因此 x \in N(T)^\perp,由此推得 R(T) \subseteq N(T)^\perp。
令 y \in N(T)^\perp。我們必須證明 y \in R(T),也就是說,T(y) = y。現在
||y - T(y)||^2 = \langle y - T(y), y - T(y) \rangle = \langle y, y - T(y) \rangle - \langle T(y), y - T(y) \rangle。
因為 y - T(y) \in N(T),第一項必等於零。但同時
\langle T(y), y - T(y) \rangle = \langle y, T^*(y - T(y)) \rangle = \langle y, T(y - T(y)) \rangle = \langle y, 0 \rangle = 0。
因此 y - T(y) = 0;也就是說,y = T(y) \in R(T)。因此 R(T) = N(T)^\perp。
利用前面的結果,我們有 R(T)^\perp = N(T)^{\perp\perp} \supseteq N(T),這是根據 6.2 節的習題 13(b)。現在假設 x \in R(T)^\perp。對於任何 y \in V,我們有 \langle T(x), y \rangle = \langle x, T^*(y) \rangle = \langle x, T(y) \rangle = 0。所以 T(x) = 0,因此 x \in N(T)。因此 R(T)^\perp = N(T)。
設 V 為有限維內積空間,W 為 V 的子空間,且 T 為 V 在 W 上的正交投影。我們可以選擇 V 的一個正交規範基底 \beta = \{v_1, v_2, \dots, v_n\} 使得 \{v_1, v_2, \dots, v_k\} 是 W 的一個基底。那麼 [T]_\beta 是一個對角矩陣,其前 k 個對角線元素為 1,其餘為 0。事實上,[T]_\beta 具有以下形式:
\begin{pmatrix} I_k & O_1 \\ O_2 & O_3 \end{pmatrix}。
如果 U 是 W 上的任何投影,我們可以為 V 選擇一個基底 \gamma 使得 [U]_\gamma 具有上述形式;然而 \gamma 不一定是正交規範的。
我們現在已經準備好來看本節的主要定理了。
定理 6.25 (譜定理 The Spectral Theorem)。 假設 T 是佈於體 F 上的有限維內積空間 V 的一個線性算子,具有相異特徵值 \lambda_1, \lambda_2, \dots, \lambda_k。假設當 F = C 時 T 是正常的 (normal),而當 F = R 時 T 是自伴的 (self-adjoint)。對於每個 i\ (1 \le i \le k),令 W_i 為 T 對應於特徵值 \lambda_i 的特徵空間,並令 T_i 為 V 在 W_i 上的正交投影。則下列敘述為真:
(a) V = W_1 \oplus W_2 \oplus \dots \oplus W_k。
(b) 如果 W_i' 表示對於 j \ne i 的子空間 W_j 的直和,那麼 W_i^\perp = W_i'。
(c) T_i T_j = \delta_{ij} T_i 對於 1 \le i, j \le k。
(d) I = T_1 + T_2 + \dots + T_k。
(e) T = \lambda_1 T_1 + \lambda_2 T_2 + \dots + \lambda_k T_k。
證明。
(a) 由定理 6.16(第 369 頁)與定理 6.17(第 371 頁),T 是可對角化的;所以由定理 5.10(第 277 頁)可知 V = W_1 \oplus W_2 \oplus \dots \oplus W_k。
(b) 如果對於某個 i \ne j,x \in W_i 且 y \in W_j,那麼由定理 6.15(d)(第 368 頁)可知 \langle x, y \rangle = 0。由此結果可以很容易地得出 W_i' \subseteq W_i^\perp。由 (a),我們有
\dim(W_i') = \sum_{j \ne i} \dim(W_j) = \dim(V) - \dim(W_i)。
另一方面,由定理 6.7(c)(第 349 頁)可知 \dim(W_i^\perp) = \dim(V) - \dim(W_i)。因此 W_i' = W_i^\perp,證明了 (b)。
(c) (c) 的證明留作習題。
(d) 因為 T_i 是 V 在 W_i 上的正交投影,由 (b) 可知 N(T_i) = R(T_i)^\perp = W_i^\perp = W_i'。因此,對於 x \in V,我們有 x = x_1 + x_2 + \dots + x_k,其中 T_i(x) = x_i \in W_i,證明了 (d)。
(e) 對於 x \in V,將 x 寫成 x = x_1 + x_2 + \dots + x_k,其中 x_i \in W_i。那麼
T(x) = T(x_1) + T(x_2) + \dots + T(x_k)
= \lambda_1 x_1 + \lambda_2 x_2 + \dots + \lambda_k x_k
= \lambda_1 T_1(x) + \lambda_2 T_2(x) + \dots + \lambda_k T_k(x)
= (\lambda_1 T_1 + \lambda_2 T_2 + \dots + \lambda_k T_k)(x)。
T 的特徵值集合 \{\lambda_1, \lambda_2, \dots, \lambda_k\} 稱為 T 的譜 (spectrum),(d) 中的和 I = T_1 + T_2 + \dots + T_k 稱為由 T 導出的恆等算子的分解 (resolution of the identity operator),而 (e) 中的和 T = \lambda_1 T_1 + \lambda_2 T_2 + \dots + \lambda_k T_k 稱為 T 的譜分解 (spectral decomposition)。T 的譜分解除了特徵值的排序外是唯一的。
沿用前面的符號,令 \beta 為所有 W_i 之正交規範基底的聯集,並令 m_i = \dim(W_i)。(因此 m_i 是 \lambda_i 的重數)。那麼 [T]_\beta 具有以下形式:
\begin{pmatrix} \lambda_1 I_{m_1} & O & \dots & O \\ O & \lambda_2 I_{m_2} & \dots & O \\ \vdots & \vdots & & \vdots \\ O & O & \dots & \lambda_k I_{m_k} \end{pmatrix} ;
也就是說,[T]_\beta 是一個對角矩陣,其中的對角線元素為 T 的特徵值 \lambda_i,且每個 \lambda_i 重複 m_i 次。如果 \lambda_1 T_1 + \lambda_2 T_2 + \dots + \lambda_k T_k 是 T 的譜分解,那麼對於任何多項式 g,由(習題 7)可知 g(T) = g(\lambda_1)T_1 + g(\lambda_2)T_2 + \dots + g(\lambda_k)T_k。這個事實將在後文中使用。
我們現在列出譜定理的幾個有趣的推論;更多相關結果可見於習題中。在接下來的內容中,我們假設 T 是佈於 F 的有限維內積空間 V 上的一個線性算子。
推論 1。 如果 F = C,那麼 T 是正常的若且唯若 T^* = g(T) 對於某個多項式 g 成立。
證明。 首先假設 T 是正常的。令 T = \lambda_1 T_1 + \lambda_2 T_2 + \dots + \lambda_k T_k 為 T 的譜分解。對前述方程式兩邊取伴隨,我們得到 T^* = \overline{\lambda}_1 T_1 + \overline{\lambda}_2 T_2 + \dots + \overline{\lambda}_k T_k,因為每個 T_i 都是自伴的。利用拉格朗日插值公式(見第 53 頁),我們可以選擇一個多項式 g 使得對於 1 \le i \le k 都有 g(\lambda_i) = \overline{\lambda}_i。那麼
g(T) = g(\lambda_1)T_1 + g(\lambda_2)T_2 + \dots + g(\lambda_k)T_k = \overline{\lambda}_1 T_1 + \overline{\lambda}_2 T_2 + \dots + \overline{\lambda}_k T_k = T^*。
反之,如果對於某個多項式 g 有 T^* = g(T),那麼 T 會與 T^* 可交換,因為 T 與 T 自身的任何多項式都是可交換的。所以 T 是正常的。
推論 2。 如果 F = C,那麼 T 是酉算子 (unitary) 若且唯若 T 是正常的且對於 T 的每個特徵值 \lambda 都有 |\lambda| = 1。
(譯註:來源文本於此處截斷,第 400 頁包含推論 2 的證明與其他推論完全遺失,直接接續第 401 頁的習題)
習題 6.6
1. 將下列敘述標示為真 (True) 或假 (False)。
(a) 所有的投影都是自伴的。(False)
(b) 一個正交投影由它的值域唯一決定。(True)
(c) 每個自伴算子都是正交投影的線性組合。(True)
(d) 如果 T 是在 W 上的投影,那麼 T(x) 就是 W 中最接近 x 的向量。(False)
(e) 每個正交投影都是酉算子。(False)
2. 設 V = R^2,W = \text{span}(\{(1, 2)\}),且 \beta 為 V 的標準有序基底。計算 [T]_\beta,其中 T 是 V 在 W 上的正交投影。對於 V = R^3 且 W = \text{span}(\{(1, 0, 1)\}) 進行相同的計算。
3. 對於 6.5 節習題 2 中的每個矩陣 A:
(1) 驗證 L_A 擁有一個譜分解。
(2) 對於 L_A 的每個特徵值,明確定義在對應特徵空間上的正交投影。
(3) 利用譜定理驗證您的結果。
4. 設 W 為內積空間 V 的有限維子空間。證明如果 T 是 V 在 W 上的正交投影,那麼 I - T 是 V 在 W^\perp 上的正交投影。
5. 設 T 為有限維內積空間 V 上的一個線性算子。
(a) 如果 T 是一個正交投影,證明對於所有 x \in V 都有 ||T(x)|| \le ||x||。給出一個這個不等式不成立的投影的例子。對於一個使得對所有 x \in V 皆有該不等式成為等式的投影,我們可以得出什麼結論?
(b) 假設 T 是一個投影,使得對於所有 x \in V 都有 ||T(x)|| \le ||x||。證明 T 是一個正交投影。
6. 設 T 為有限維內積空間上的一個正常算子。證明如果 T 是一個投影,那麼 T 也是一個正交投影。
7. 設 T 為有限維複數內積空間 V 上的一個正常算子。利用 T 的譜分解 \lambda_1 T_1 + \lambda_2 T_2 + \dots + \lambda_k T_k 來證明下列結果。
(a) 如果 g 是一個多項式,那麼
g(T) = \sum_{i=1}^k g(\lambda_i)T_i。
(b) 如果對某個 n,T^n = T_0,那麼 T = T_0。
(c) 設 U 為 V 上的線性算子。那麼 U 與 T 可交換 (commutes) 若且唯若 U 與每個 T_i 都可交換。
(d) 存在 V 上的一個正常算子 U 使得 U^2 = T。
(e) T 是可逆的若且唯若 \lambda_i \ne 0 對於 1 \le i \le k 成立。
(f) T 是一個投影若且唯若 T 的每一個特徵值都是 1 或 0。
(g) T = -T^* 若且唯若每個 \lambda_i 都是純虛數 (imaginary number)。
8. 利用譜定理的推論 1 來證明:如果 T 是有限維複數內積空間上的一個正常算子,而 U 是一個與 T 可交換的線性算子,那麼 U 與 T^* 可交換。
9. 參照 6.5 節的習題 20,證明關於部分等距算子 (partial isometry) U 的以下事實。
(a) U^*U 是一個在 W 上的正交投影。
(b) UU^*U = U。
10. 同時對角化 (Simultaneous diagonalization)。設 U 和 T 為有限維複數內積空間 V 上的正常算子,使得 TU = UT。證明存在 V 的一個正交規範基底,該基底由同時是 T 和 U 的特徵向量之向量所組成。提示:使用 6.4 節習題 14 的提示以及習題 8。
11. 證明譜定理的 (c)。前往 goo.gl/utQ9Pb 獲取解答。
這一次,我將為您完全集中在第 6.7 節(奇異值分解與偽逆矩陣),為您進行最精細、毫無保留且一字不漏的完整翻譯。包含了所有的課文、定理、引理、證明、範例,以及完整的 27 題習題。
6.7* 奇異值分解與偽逆矩陣 (THE SINGULAR VALUE DECOMPOSITION AND THE PSEUDOINVERSE)
在 6.4 節中,我們藉由特徵向量的正交規範基底與其對應的特徵值,刻劃了複數空間上的正常算子 (normal operators) 以及實數空間上的自伴算子 (self-adjoint operators)(定理 6.16,第 369 頁,以及定理 6.17,第 371 頁)。在本節中,我們建立了一個可與之媲美的定理,其適用範圍涵蓋了複數與實數有限維內積空間上所有類別的線性變換——線性變換的奇異值定理 (singular value theorem for linear transformations)(定理 6.26)。這些定理之間存在著相似與相異之處。它們都依賴於正交規範基底與數值不變量 (numerical invariants) 的使用。然而,由於奇異值定理的適用範圍更廣,它涉及兩個(通常是不同的)內積空間與兩個(通常是不同的)正交規範基底。如果這兩個空間與這兩個基底是相同的,那麼該變換實際上就是一個正常或自伴算子。另一個不同點是,奇異值定理中的數值不變量(奇異值)是非負的,這與它們的對應物(特徵值)不同,特徵值沒有這樣的限制。這個性質是保證奇異值唯一性所必需的。
奇異值定理同時涵蓋了實數與複數空間。為了簡潔起見,在本節中,我們使用酉算子 (unitary operator) 和酉矩陣 (unitary matrix) 這些術語來包含實數空間脈絡下的正交算子 (orthogonal operators) 與正交矩陣 (orthogonal matrices)。因此,任何滿足對所有 x 和 y 都有 \langle T(x), T(y) \rangle = \langle x, y \rangle 的算子 T,或任何滿足對所有 x 和 y 都有 \langle Ax, Ay \rangle = \langle x, y \rangle 的矩陣 A,在本節中皆被稱為酉變換 (unitary)。
在 6.3 節的習題 15 中,算子的伴隨定義被推廣到任何線性變換 T: V \rightarrow W,其中 V 與 W 是有限維內積空間。根據此習題,T 的伴隨 T^* 是一個從 W 到 V 的線性變換,且 [T^*]_\gamma^\beta = ([T]_\beta^\gamma)^*,其中 \beta 與 \gamma 分別是 V 與 W 的正交規範基底。此外,V 上的線性算子 T^*T 是半正定的 (positive semidefinite),且根據 6.4 節的習題 18,有 rank(T^*T) = rank(T)。
記住這些事實後,我們開始介紹主要結果。
定理 6.26 (線性變換的奇異值定理 Singular Value Theorem for Linear Transformations)。 設 V 與 W 為有限維內積空間,且設 T: V \rightarrow W 為秩 (rank) 為 r 的線性變換。那麼存在 V 的正交規範基底 \{v_1, v_2, \dots, v_n\} 與 W 的正交規範基底 \{u_1, u_2, \dots, u_m\},以及正純量 \sigma_1 \ge \sigma_2 \ge \dots \ge \sigma_r \gt 0,使得
T(v_i) = \begin{cases} \sigma_i u_i & \text{if } 1 \le i \le r \\ 0 & \text{if } i \gt r. \end{cases} (4)
反之,假設上述條件滿足。那麼對於 1 \le i \le n,v_i 是 T^*T 對應於特徵值 \sigma_i^2 (若 1 \le i \le r) 或 0 (若 i \gt r) 的特徵向量。因此,純量 \sigma_1, \sigma_2, \dots, \sigma_r 是由 T 唯一決定的。
證明。 我們首先建立基底與純量的存在性。由 6.4 節的習題 18 與 6.3 節的習題 15(d) 可知,T^*T 是 V 上一個秩為 r 的半正定線性算子;因此存在一個由 T^*T 的特徵向量組成的 V 的正交規範基底 \{v_1, v_2, \dots, v_n\},其對應的特徵值為 \lambda_i,其中 \lambda_1 \ge \lambda_2 \ge \dots \ge \lambda_r \gt 0,且對於 i \gt r 有 \lambda_i = 0。對於 1 \le i \le r,定義 \sigma_i = \sqrt{\lambda_i} 以及 u_i = \frac{1}{\sigma_i}T(v_i)。我們來證明 \{u_1, u_2, \dots, u_r\} 是 W 中的一個正交規範子集。假設 1 \le i, j \le r。那麼
\langle u_i, u_j \rangle = \langle \frac{1}{\sigma_i}T(v_i), \frac{1}{\sigma_j}T(v_j) \rangle
= \frac{1}{\sigma_i\sigma_j} \langle T^*T(v_i), v_j \rangle
= \frac{1}{\sigma_i\sigma_j} \langle \lambda_i v_i, v_j \rangle
= \frac{\sigma_i^2}{\sigma_i\sigma_j} \langle v_i, v_j \rangle
= \delta_{ij},
因此 \{u_1, u_2, \dots, u_r\} 是正交規範的。由定理 6.7(a) (第 349 頁),這個集合可以擴充為 W 的一個正交規範基底 \{u_1, u_2, \dots, u_r, \dots, u_m\}。顯然,如果 1 \le i \le r,則 T(v_i) = \sigma_i u_i。如果 i \gt r,則 T^*T(v_i) = 0,因此由 6.3 節的習題 15(d) 可知 T(v_i) = 0。
為了建立唯一性,假設 \{v_1, v_2, \dots, v_n\}、\{u_1, u_2, \dots, u_m\} 以及 \sigma_1 \ge \sigma_2 \ge \dots \ge \sigma_r \gt 0 滿足定理第一部分所述的性質。那麼對於 1 \le i \le m 且 1 \le j \le n,
\langle T^*(u_i), v_j \rangle = \langle u_i, T(v_j) \rangle
= \begin{cases} \sigma_i & \text{if } i = j \le r \\ 0 & \text{otherwise,} \end{cases}
因此對於任意 1 \le i \le m,
T^*(u_i) = \sum_{j=1}^n \langle T^*(u_i), v_j \rangle v_j = \begin{cases} \sigma_i v_i & \text{if } i = j \le r \\ 0 & \text{otherwise.} \end{cases} (5)
所以對於 i \le r,
T^*T(v_i) = T^*(\sigma_i u_i) = \sigma_i T^*(u_i) = \sigma_i^2 v_i
並且對於 i \gt r 有 T^*T(v_i) = T^*(0) = 0。因此每一個 v_i 都是 T^*T 的特徵向量,當 i \le r 時其對應的特徵值為 \sigma_i^2,當 i \gt r 時特徵值為 0。
定義。 定理 6.26 中唯一的純量 \sigma_1, \sigma_2, \dots, \sigma_r 稱為 T 的奇異值 (singular values)。如果 r 小於 m 與 n 兩者,那麼奇異值這個術語會被擴充以包含 \sigma_{r+1} = \dots = \sigma_k = 0,其中 k 是 m 與 n 之間的最小值。
雖然一個線性變換 T 的奇異值是由 T 唯一決定的,但定理 6.26 敘述中所給出的正交規範基底並不是唯一決定的,因為 T^*T 的特徵向量所構成的正交規範基底不只一種。
根據 (5) 式,一個線性變換 T: V \rightarrow W 與其伴隨 T^* 的奇異值是相同的。此外,定理 6.26 中給定的 V 與 W 的正交規範基底,對於 T^* 來說只是互換角色而已。
例 1
設 P_2(R) 和 P_1(R) 為具有以下內積定義的多項式空間
\langle f(x), g(x) \rangle = \int_{-1}^1 f(t)g(t) dt。
設 T: P_2(R) \rightarrow P_1(R) 為定義為 T(f(x)) = f'(x) 的線性變換。找出 P_2(R) 的正交規範基底 \beta = \{v_1, v_2, v_3\} 與 P_1(R) 的正交規範基底 \gamma = \{u_1, u_2\},使得對於 i=1,2 有 T(v_i) = \sigma_i u_i,且 T(v_3)=0,其中 \sigma_1 \ge \sigma_2 \gt 0 為 T 的非零奇異值。
為了簡化計算,我們將此問題轉換為 T 的矩陣表示對應問題。這裡需要小心,因為並非任何矩陣表示都可以。由於伴隨是根據內積定義的,我們必須使用由 P_2(R) 與 P_1(R) 的正交規範基底建構出來的矩陣表示,以確保 T 的矩陣表示的伴隨會等於 T 的伴隨的矩陣表示。(見 6.3 節的習題 15。) 為此,我們使用 6.2 節習題 21(a) 的結果來獲得正交規範基底:
\alpha = \{\frac{1}{\sqrt{2}}, \sqrt{\frac{3}{2}}x, \sqrt{\frac{5}{8}}(3x^2-1)\} 且 \alpha' = \{\frac{1}{\sqrt{2}}, \sqrt{\frac{3}{2}}x\}
分別做為 P_2(R) 與 P_1(R) 的基底。
令
A = [T]_\alpha^{\alpha'} = \begin{pmatrix} 0 & \sqrt{3} & 0 \\ 0 & 0 & \sqrt{15} \end{pmatrix}。
那麼
A^* A = \begin{pmatrix} 0 & 0 \\ \sqrt{3} & 0 \\ 0 & \sqrt{15} \end{pmatrix} \begin{pmatrix} 0 & \sqrt{3} & 0 \\ 0 & 0 & \sqrt{15} \end{pmatrix} = \begin{pmatrix} 0 & 0 & 0 \\ 0 & 3 & 0 \\ 0 & 0 & 15 \end{pmatrix},
其特徵值(依大小遞減排序)為 \lambda_1 = 15、\lambda_2 = 3 且 \lambda_3 = 0。這些特徵值對應於 R^3 中的正交規範特徵向量 e_3 = (0,0,1)、e_2 = (0,1,0) 與 e_1 = (1,0,0)。將這一切轉換回 T、P_2(R) 和 P_1(R) 的語境下,令
v_1 = \sqrt{\frac{5}{8}}(3x^2-1),v_2 = \sqrt{\frac{3}{2}}x,且 v_3 = \frac{1}{\sqrt{2}}。
那麼 \beta = \{v_1, v_2, v_3\} 是 P_2(R) 中由 T^* T 特徵向量組成的正交規範基底,其對應的特徵值為 \lambda_1、\lambda_2 與 \lambda_3。現在設定 \sigma_1 = \sqrt{\lambda_1} = \sqrt{15} 以及 \sigma_2 = \sqrt{\lambda_2} = \sqrt{3} 為 T 的非零奇異值,並取
u_1 = \frac{1}{\sigma_1}T(v_1) = \sqrt{\frac{3}{2}}x 且 u_2 = \frac{1}{\sigma_2}T(v_2) = \frac{1}{\sqrt{2}},
以獲得 P_1(R) 所需的基底 \gamma = \{u_1, u_2\}。
我們可以使用奇異值來描述圖形如何被線性變換扭曲。這在下一個例子中說明。
例 2
設 T 為 R^2 上的可逆線性算子,且 S = \{x \in R^2 : ||x|| = 1\} 為 R^2 中的單位圓。我們應用定理 6.26 來描述 S' = T(S)。
因為 T 是可逆的,所以它的秩等於 2,因此具有奇異值 \sigma_1 \ge \sigma_2 \gt 0。設 \{v_1, v_2\} 與 \beta = \{u_1, u_2\} 為 R^2 的正交規範基底,使得 T(v_1) = \sigma_1 u_1 且 T(v_2) = \sigma_2 u_2,如同定理 6.26。那麼 \beta 決定了一個座標系,我們稱之為 R^2 的 x'y' 坐標系,其中 x' 軸包含 u_1 且 y' 軸包含 u_2。對於任何向量 u \in R^2,如果 u = x_1' u_1 + x_2' u_2,那麼 [u]_\beta = \begin{pmatrix} x_1' \\ x_2' \end{pmatrix} 就是 u 相對於 \beta 的座標向量。我們以關聯 x_1' 與 x_2' 的方程式來刻劃 S'。
對於任何向量 v = x_1 v_1 + x_2 v_2 \in R^2,方程式 u = T(v) 意味著
u = T(x_1 v_1 + x_2 v_2) = x_1 T(v_1) + x_2 T(v_2) = x_1 \sigma_1 u_1 + x_2 \sigma_2 u_2。
因此對於 u = x_1' u_1 + x_2' u_2,我們有 x_1' = x_1 \sigma_1 且 x_2' = x_2 \sigma_2。此外,u \in S' 若且唯若 v \in S,這又等價於
\frac{(x_1')^2}{\sigma_1^2} + \frac{(x_2')^2}{\sigma_2^2} = x_1^2 + x_2^2 = 1。
如果 \sigma_1 = \sigma_2,這是半徑為 \sigma_1 的圓方程式;如果 \sigma_1 \gt \sigma_2,這是一個主軸與副軸分別沿著 x' 軸與 y' 軸定向的橢圓方程式。(見圖 6.6。)
線性變換的奇異值定理在其矩陣形式中很有用,因為我們可以對矩陣執行數值計算。我們先給出矩陣奇異值的定義。
定義。 設 A 為 m \times n 矩陣。我們定義 A 的奇異值 (singular values) 為線性變換 L_A 的奇異值。
定理 6.27 (矩陣的奇異值分解定理 Singular Value Decomposition Theorem for Matrices)。 設 A 為秩為 r 且具有正奇異值 \sigma_1 \ge \sigma_2 \ge \dots \ge \sigma_r 的 m \times n 矩陣,並設 \Sigma 為定義如下的 m \times n 矩陣:
\Sigma_{ij} = \begin{cases} \sigma_i & \text{if } i = j \le r \\ 0 & \text{otherwise.} \end{cases}
那麼存在一個 m \times m 的酉矩陣 U 與一個 n \times n 的酉矩陣 V 使得
A = U\Sigma V^*。
證明。 設 T = L_A : F^n \rightarrow F^m。由定理 6.26,存在 F^n 的正交規範基底 \beta = \{v_1, v_2, \dots, v_n\} 與 F^m 的正交規範基底 \gamma = \{u_1, u_2, \dots, u_m\} 使得對於 1 \le i \le r 有 T(v_i) = \sigma_i u_i,且對於 i \gt r 有 T(v_i) = 0。設 U 為其第 j 行為 u_j (對於所有 j) 的 m \times m 矩陣,並設 V 為其第 j 行為 v_j (對於所有 j) 的 n \times n 矩陣。請注意 U 與 V 都是酉矩陣。
由定理 2.13(a) (第 91 頁),AV 的第 j 行為 Av_j = \sigma_j u_j。觀察到 \Sigma 的第 j 行為 \sigma_j e_j,其中 e_j 是 F^m 的第 j 個標準向量。所以由定理 2.13(a) 與 (b),U\Sigma 的第 j 行給定為
U(\sigma_j e_j) = \sigma_j Ue_j = \sigma_j u_j。
由此得出 AV 與 U\Sigma 是對應行相等的 m \times n 矩陣,因此 AV = U\Sigma。所以 A = AVV^* = U\Sigma V^*。
定義。 設 A 為秩為 r 且具有正奇異值 \sigma_1 \ge \sigma_2 \ge \dots \ge \sigma_r 的 m \times n 矩陣。分解式 A = U\Sigma V^*,其中 U 與 V 為酉矩陣且 \Sigma 為如定理 6.27 中所定義的 m \times n 矩陣,稱為 A 的奇異值分解 (singular value decomposition)。
在定理 6.27 的證明中,V 的行向量就是 \beta 中的向量,而 U 的行向量就是 \gamma 中的向量。此外,A 的非零奇異值與 L_A 相同;因此它們是 A^*A 或 AA^* 的非零特徵值的平方根。(見習題 9。)
例 3
我們來求 A = \begin{pmatrix} 1 & 1 & -1 \\ 1 & 1 & -1 \end{pmatrix} 的奇異值分解。
首先觀察到對於
v_1 = \frac{1}{\sqrt{3}}\begin{pmatrix} 1 \\ 1 \\ -1 \end{pmatrix}, v_2 = \frac{1}{\sqrt{2}}\begin{pmatrix} 1 \\ -1 \\ 0 \end{pmatrix}, 以及 v_3 = \frac{1}{\sqrt{6}}\begin{pmatrix} 1 \\ 1 \\ 2 \end{pmatrix},
集合 \beta = \{v_1, v_2, v_3\} 構成 R^3 中由 A^*A 的特徵向量組成的正交規範基底,其對應的特徵值為 \lambda_1 = 6 與 \lambda_2 = \lambda_3 = 0。因此,\sigma_1 = \sqrt{6} 是 A 唯一的非零奇異值。所以,如定理 6.27 的證明所示,我們令 V 為以 \beta 中向量為行向量的矩陣。那麼
\Sigma = \begin{pmatrix} \sqrt{6} & 0 & 0 \\ 0 & 0 & 0 \end{pmatrix} 且 V = \begin{pmatrix} \frac{1}{\sqrt{3}} & \frac{1}{\sqrt{2}} & \frac{1}{\sqrt{6}} \\ \frac{1}{\sqrt{3}} & \frac{-1}{\sqrt{2}} & \frac{1}{\sqrt{6}} \\ \frac{-1}{\sqrt{3}} & 0 & \frac{2}{\sqrt{6}} \end{pmatrix}。
同樣如定理 6.27 中所示,我們取
u_1 = \frac{1}{\sigma_1}L_A(v_1) = \frac{1}{\sigma_1}Av_1 = \frac{1}{\sqrt{2}}\begin{pmatrix} 1 \\ 1 \end{pmatrix}。
接著選擇一個與 u_1 正交的單位向量,例如 u_2 = \frac{1}{\sqrt{2}}\begin{pmatrix} 1 \\ -1 \end{pmatrix},以獲得正交規範基底 \gamma = \{u_1, u_2\} 用於 R^2,並設定
U = \begin{pmatrix} \frac{1}{\sqrt{2}} & \frac{1}{\sqrt{2}} \\ \frac{1}{\sqrt{2}} & \frac{-1}{\sqrt{2}} \end{pmatrix}。
那麼 A = U\Sigma V^* 即為所求的奇異值分解。
方陣的極分解 (The Polar Decomposition of a Square Matrix)
矩陣的奇異值分解可以用來將一個方陣進行分解,其方式類似於將一個複數分解為長度為 1 的複數與非負實數的乘積。在矩陣的情況下,長度為 1 的複數被替換為酉矩陣,而非負實數被替換為半正定矩陣。
定理 6.28 (極分解 Polar Decomposition)。 對於任意方陣 A,存在一個酉矩陣 W 與一個半正定矩陣 P 使得
A = WP。
此外,如果 A 是可逆的,那麼此表示法是唯一的。
證明。 由定理 6.27,存在酉矩陣 U 與 V 以及一個具有非負對角線元素的對角矩陣 \Sigma 使得 A = U\Sigma V^*。所以
A = U\Sigma V^* = UV^*V\Sigma V^* = WP,
其中 W = UV^* 且 P = V\Sigma V^*。因為 W 是酉矩陣的乘積,W 是酉矩陣,而且因為 \Sigma 是半正定的且 P 酉等價於 \Sigma,由 6.5 節的習題 14 可知 P 是半正定的。
現在假設 A 是可逆的,並且有分解 A = WP = ZQ,其中 W 與 Z 是酉矩陣,且 P 與 Q 是半正定矩陣。因為 A 是可逆的,推得 P 與 Q 是正定且可逆的,因此 Z^*W = QP^{-1}。於是 QP^{-1} 是酉矩陣,所以
I = (QP^{-1})^*(QP^{-1}) = P^{-1}Q^2P^{-1}。
因此 P^2 = Q^2。因為 P 與 Q 皆為正定,由 6.4 節的習題 17 可知 P = Q。因此 W = Z,從而此分解式是唯一的。
將一個方陣 A 分解為 WP(其中 W 是酉矩陣且 P 是半正定矩陣)被稱為 A 的極分解 (polar decomposition)。
例 4
為了尋找 A = \begin{pmatrix} 11 & -5 \\ -2 & 10 \end{pmatrix} 的極分解,我們從尋找 A 的奇異值分解 U\Sigma V^* 開始。目標是找到 R^2 中由 A^*A 的特徵向量組成的正交規範基底 \beta。可以證明
v_1 = \frac{1}{\sqrt{2}}\begin{pmatrix} 1 \\ -1 \end{pmatrix} 且 v_2 = \frac{1}{\sqrt{2}}\begin{pmatrix} 1 \\ 1 \end{pmatrix}
是 A^*A 的正交規範特徵向量,對應的特徵值為 \lambda_1 = 200 和 \lambda_2 = 50。所以 \beta = \{v_1, v_2\} 是一個適當的基底。因此 \sigma_1 = \sqrt{200} = 10\sqrt{2} 和 \sigma_2 = \sqrt{50} = 5\sqrt{2} 是 A 的奇異值。所以我們有
V = \begin{pmatrix} \frac{1}{\sqrt{2}} & \frac{1}{\sqrt{2}} \\ \frac{-1}{\sqrt{2}} & \frac{1}{\sqrt{2}} \end{pmatrix} 且 \Sigma = \begin{pmatrix} 10\sqrt{2} & 0 \\ 0 & 5\sqrt{2} \end{pmatrix}。
接著,我們尋找 U 的行向量 u_1 和 u_2:
u_1 = \frac{1}{\sigma_1}Av_1 = \frac{1}{5}\begin{pmatrix} 4 \\ -3 \end{pmatrix} 且 u_2 = \frac{1}{\sigma_2}Av_2 = \frac{1}{5}\begin{pmatrix} 3 \\ 4 \end{pmatrix}。
因此
U = \begin{pmatrix} \frac{4}{5} & \frac{3}{5} \\ \frac{-3}{5} & \frac{4}{5} \end{pmatrix}。
所以,在定理 6.28 的符號下,我們有
W = UV^* = \begin{pmatrix} \frac{4}{5} & \frac{3}{5} \\ \frac{-3}{5} & \frac{4}{5} \end{pmatrix} \begin{pmatrix} \frac{1}{\sqrt{2}} & \frac{-1}{\sqrt{2}} \\ \frac{1}{\sqrt{2}} & \frac{1}{\sqrt{2}} \end{pmatrix} = \frac{1}{5\sqrt{2}}\begin{pmatrix} 7 & -1 \\ 1 & 7 \end{pmatrix},
以及
P = V\Sigma V^* = \begin{pmatrix} \frac{1}{\sqrt{2}} & \frac{1}{\sqrt{2}} \\ \frac{-1}{\sqrt{2}} & \frac{1}{\sqrt{2}} \end{pmatrix} \begin{pmatrix} 10\sqrt{2} & 0 \\ 0 & 5\sqrt{2} \end{pmatrix} \begin{pmatrix} \frac{1}{\sqrt{2}} & \frac{-1}{\sqrt{2}} \\ \frac{1}{\sqrt{2}} & \frac{1}{\sqrt{2}} \end{pmatrix} = \frac{5}{\sqrt{2}}\begin{pmatrix} 3 & -1 \\ -1 & 3 \end{pmatrix}。
偽逆矩陣 (The Pseudoinverse)
設 V 與 W 為同一體上的有限維內積空間,且設 T: V \rightarrow W 為線性變換。我們希望擁有一個從 W 到 V 的線性變換,即使 T 不可逆,這個變換也能捕捉 T 反函數的部分本質。對於這個問題,一個簡單的方法是關注 T 具有可逆性的「那部分」,即 T 限制在 N(T)^\perp 上的部分。令 L: N(T)^\perp \rightarrow R(T) 為對所有 x \in N(T)^\perp 定義為 L(x) = T(x) 的線性變換。那麼 L 是可逆的,我們可以使用 L 的反函數來建構一個從 W 到 V 的線性變換,藉此挽救 T 的反函數的一些好處。
定義。 設 V 和 W 為同一體上的有限維內積空間,且設 T: V \rightarrow W 為線性變換。設 L: N(T)^\perp \rightarrow R(T) 為定義成對所有 x \in N(T)^\perp 皆有 L(x) = T(x) 的線性變換。T 的偽逆矩陣 (pseudoinverse)(或摩爾-彭若斯廣義逆矩陣 Moore-Penrose generalized inverse),記為 T^\dagger,定義為唯一滿足以下條件的從 W 到 V 的線性變換:
T^\dagger(y) = \begin{cases} L^{-1}(y) & \text{for } y \in R(T) \\ 0 & \text{for } y \in R(T)^\perp. \end{cases}
請注意,對於所有的 x \in N(T)^\perp,L^{-1}T(x) = x。
即使 T 不可逆,在有限維內積空間上的線性變換 T 的偽逆矩陣也存在。此外,如果 T 是可逆的,那麼 T^\dagger = T^{-1},因為 N(T)^\perp = V,且 L (如上定義) 與 T 一致。
作為一個極端的例子,考慮兩個有限維內積空間 V 和 W 之間的零變換 T_0: V \rightarrow W。那麼 R(T_0) = \{0\},因此 T_0^\dagger 是從 W 到 V 的零變換。
我們可以使用奇異值定理來描述線性變換的偽逆矩陣 (pseudoinverse)。假設 V 與 W 為有限維向量空間,且 T: V \rightarrow W 是一個秩為 r 的線性變換。設 \{v_1, v_2, \dots, v_n\} 與 \{u_1, u_2, \dots, u_m\} 分別為 V 與 W 的正交規範基底,並設 \sigma_1 \ge \sigma_2 \ge \dots \ge \sigma_r 為 T 中滿足定理 6.26 中 (4) 式的非零奇異值。那麼 \{v_1, v_2, \dots, v_r\} 是 N(T)^\perp 的基底,\{v_{r+1}, v_{r+2}, \dots, v_n\} 是 N(T) 的基底,\{u_1, u_2, \dots, u_r\} 是 R(T) 的基底,且 \{u_{r+1}, u_{r+2}, \dots, u_m\} 是 R(T)^\perp 的基底。設 L 為如同偽逆矩陣定義中 T 在 N(T)^\perp 上的限制算子。那麼對於 1 \le i \le r 有 L^{-1}(u_i) = \frac{1}{\sigma_i}v_i。因此
T^\dagger(u_i) = \begin{cases} \frac{1}{\sigma_i} v_i & \text{if } 1 \le i \le r \\ 0 & \text{if } r \lt i \le m. \end{cases} (6)
例 5
設 T: P_2(R) \rightarrow P_1(R) 為定義為 T(f(x)) = f'(x) 的線性變換,如同例 1 中所述。設 \beta = \{v_1, v_2, v_3\} 與 \gamma = \{u_1, u_2\} 為例 1 中 P_2(R) 與 P_1(R) 的正交規範基底。那麼 \sigma_1 = \sqrt{15} 與 \sigma_2 = \sqrt{3} 是 T 的非零奇異值。由此可知
T^\dagger(\sqrt{\frac{3}{2}}x) = T^\dagger(u_1) = \frac{1}{\sigma_1}v_1 = \frac{1}{\sqrt{15}}\sqrt{\frac{5}{8}}(3x^2 - 1),
因此
T^\dagger(x) = \frac{1}{6}(3x^2 - 1)。
同理,T^\dagger(1) = x。因此,對於任何多項式 a + bx \in P_1(R),
T^\dagger(a + bx) = aT^\dagger(1) + bT^\dagger(x) = ax + \frac{b}{6}(3x^2 - 1)。
矩陣的偽逆矩陣 (The Pseudoinverse of a Matrix)
設 A 為 m \times n 矩陣。那麼存在一個唯一的 n \times m 矩陣 B,使得 (L_A)^\dagger: F^m \rightarrow F^n 等於左乘變換 L_B。我們稱 B 為 A 的偽逆矩陣 (pseudoinverse) 並將其記為 B = A^\dagger。因此
(L_A)^\dagger = L_{A^\dagger}。
設 A 為秩為 r 的 m \times n 矩陣。A 的偽逆矩陣可以借助奇異值分解 A = U\Sigma V^* 來計算。設 \beta 與 \gamma 為分別以 V 與 U 的行為向量的有序基底,並設 \sigma_1 \ge \sigma_2 \ge \dots \ge \sigma_r 為 A 的非零奇異值。那麼 \beta 與 \gamma 分別為 F^n 與 F^m 的正交規範基底,且對於 T = L_A 滿足 (4) 與 (6) 式。在定理 6.27 的證明中顛倒 \beta 與 \gamma 的角色,我們獲得以下結果。
定理 6.29。 設 A 為秩為 r 的 m \times n 矩陣,其奇異值分解為 A = U\Sigma V^* 且非零奇異值為 \sigma_1 \ge \sigma_2 \ge \dots \ge \sigma_r。設 \Sigma^\dagger 為定義如下的 n \times m 矩陣:
\Sigma^\dagger_{ij} = \begin{cases} \frac{1}{\sigma_i} & \text{if } i = j \le r \\ 0 & \text{otherwise.} \end{cases}
那麼 A^\dagger = V\Sigma^\dagger U^*,並且這就是 A^\dagger 的奇異值分解。
請注意,定理 6.29 中定義的 \Sigma^\dagger 實際上就是 \Sigma 的偽逆矩陣。
例 6
我們來求矩陣 A = \begin{pmatrix} 1 & 1 & -1 \\ 1 & 1 & -1 \end{pmatrix} 的 A^\dagger。
因為 A 是例 3 中的矩陣,我們可以使用該例中獲得的奇異值分解:
A = U\Sigma V^* = \begin{pmatrix} \frac{1}{\sqrt{2}} & \frac{1}{\sqrt{2}} \\ \frac{1}{\sqrt{2}} & \frac{-1}{\sqrt{2}} \end{pmatrix} \begin{pmatrix} \sqrt{6} & 0 & 0 \\ 0 & 0 & 0 \end{pmatrix} \begin{pmatrix} \frac{1}{\sqrt{3}} & \frac{1}{\sqrt{2}} & \frac{1}{\sqrt{6}} \\ \frac{1}{\sqrt{3}} & \frac{-1}{\sqrt{2}} & \frac{1}{\sqrt{6}} \\ \frac{-1}{\sqrt{3}} & 0 & \frac{2}{\sqrt{6}} \end{pmatrix}^*。
由定理 6.29,我們有
A^\dagger = V\Sigma^\dagger U^* = \begin{pmatrix} \frac{1}{\sqrt{3}} & \frac{1}{\sqrt{2}} & \frac{1}{\sqrt{6}} \\ \frac{1}{\sqrt{3}} & \frac{-1}{\sqrt{2}} & \frac{1}{\sqrt{2}} \\ \frac{-1}{\sqrt{3}} & 0 & \frac{2}{\sqrt{6}} \end{pmatrix} \begin{pmatrix} \frac{1}{\sqrt{6}} & 0 \\ 0 & 0 \\ 0 & 0 \end{pmatrix} \begin{pmatrix} \frac{1}{\sqrt{2}} & \frac{1}{\sqrt{2}} \\ \frac{1}{\sqrt{2}} & \frac{-1}{\sqrt{2}} \end{pmatrix} = \frac{1}{6} \begin{pmatrix} 1 & 1 \\ 1 & 1 \\ -1 & -1 \end{pmatrix}。
請注意,例 5 的線性變換 T 就是 L_A,其中 A 是例 6 的矩陣,並且 T^\dagger = L_{A^\dagger}。
偽逆矩陣與線性方程組 (The Pseudoinverse and Systems of Linear Equations)
設 A 為具有 F 中元素的 m \times n 矩陣。那麼對於任何 b \in F^m,矩陣方程式 Ax = b 是一個線性方程組,因此它可能有零個解、唯一解或無限多個解。我們知道這個方程組對每個 b \in F^m 皆有唯一解若且唯若 A 是可逆的,在這種情況下解為 A^{-1}b。此外,如果 A 是可逆的,那麼 A^{-1} = A^\dagger,所以解可以寫成 x = A^\dagger b。另一方面,如果 A 不可逆或者方程組 Ax = b 不一致 (inconsistent),那麼 A^\dagger b 仍然存在。我們因此提出以下問題:一般而言,向量 A^\dagger b 與線性方程組 Ax = b 之間有什麼關係?
為了解答這個問題,我們需要以下引理。
引理。 設 V 和 W 為有限維內積空間,且設 T: V \rightarrow W 為線性變換。則
(a) T^\dagger T 是 V 在 N(T)^\perp 上的正交投影。
(b) T T^\dagger 是 W 在 R(T) 上的正交投影。
證明。 如同前面的討論,我們定義 L: N(T)^\perp \rightarrow W 為 L(x) = T(x) 對所有 x \in N(T)^\perp 成立。如果 x \in N(T)^\perp,那麼 T^\dagger T(x) = L^{-1}L(x) = x,且如果 x \in N(T),那麼 T^\dagger T(x) = T^\dagger(0) = 0。因此 T^\dagger T 是 V 在 N(T)^\perp 上的正交投影。這證明了 (a)。
(b) 的證明是類似的,留作習題。
定理 6.30。 考慮線性方程組 Ax = b,其中 A 是 m \times n 矩陣且 b \in F^m。如果 z = A^\dagger b,那麼 z 具有以下性質。
(a) 如果 Ax = b 是一致的 (consistent),那麼 z 是系統中具有最小範數 (minimum norm) 的唯一解。也就是說,z 是系統的一個解,且如果 y 是系統的任何其他解,則 ||z|| \le ||y||,等號成立若且唯若 z = y。
(b) 如果 Ax = b 是不一致的 (inconsistent),那麼 z 是具有最小範數之唯一最佳近似解。也就是說,對於任何 y \in F^n,||Az - b|| \le ||Ay - b||,且等號成立若且唯若 Az = Ay。此外,如果 Az = Ay,則 ||z|| \le ||y||,且等號成立若且唯若 z = y。
證明。 為了方便,設 T = L_A。
(a) 假設 Ax = b 是一致的,並設 z = A^\dagger b。觀察到 b \in R(T),且因此 Az = AA^\dagger b = TT^\dagger(b) = b(由引理的 (b) 部分得出)。因此 z 是該方程組的解。現在假設 y 是系統的任何其他解。那麼
T^\dagger T(y) = A^\dagger Ay = A^\dagger b = z,
因此 z 是 y 在 N(T)^\perp 上的正交投影(由引理的 (a) 部分得出)。因此,由定理 6.6 的推論 (第 348 頁),我們有 ||z|| \le ||y||,且等號成立若且唯若 z = y。
(b) 假設 Ax = b 是不一致的。由引理可知,Az = AA^\dagger b = TT^\dagger(b) = b 是 b 在 R(T) 上的正交投影;因此,由定理 6.6 的推論 (第 348 頁),Az 是 R(T) 中最接近 b 的向量。也就是說,如果 Ay 是 R(T) 中的任何其他向量,則 ||Az - b|| \le ||Ay - b||,且等號成立若且唯若 Az = Ay。
最後,假設 y 是 F^n 中的任何向量,使得 Az = Ay = c。那麼
A^\dagger c = A^\dagger Az = A^\dagger AA^\dagger b = A^\dagger b = z
(藉由習題 23 可得);因此我們可以將本定理的 (a) 部分應用於系統 Ax = c 來得出 ||z|| \le ||y||,且等號成立若且唯若 z = y。
請注意,定理 6.30 中的向量 z = A^\dagger b 就是定理 6.12 中描述的向量 x_0,它出現在第 358-361 頁的最小平方法應用中。
例 7
考慮線性系統
x_1 + x_2 - x_3 = 1
x_1 + x_2 - x_3 = 1
以及
x_1 + x_2 - x_3 = 1
x_1 + x_2 - x_3 = 2。
第一個系統有無限多個解。設 A = \begin{pmatrix} 1 & 1 & -1 \\ 1 & 1 & -1 \end{pmatrix},即系統的係數矩陣,並設 b = \begin{pmatrix} 1 \\ 1 \end{pmatrix}。由例 6 可知,
A^\dagger = \frac{1}{6} \begin{pmatrix} 1 & 1 \\ 1 & 1 \\ -1 & -1 \end{pmatrix},
因此
z = A^\dagger b = \frac{1}{6} \begin{pmatrix} 1 & 1 \\ 1 & 1 \\ -1 & -1 \end{pmatrix} \begin{pmatrix} 1 \\ 1 \end{pmatrix} = \frac{1}{3} \begin{pmatrix} 1 \\ 1 \\ -1 \end{pmatrix}
根據定理 6.30(a),這是具有最小範數的解。
第二個系統明顯是不一致的。設 b = \begin{pmatrix} 1 \\ 2 \end{pmatrix}。雖然
z = A^\dagger b = \frac{1}{6} \begin{pmatrix} 1 & 1 \\ 1 & 1 \\ -1 & -1 \end{pmatrix} \begin{pmatrix} 1 \\ 2 \end{pmatrix} = \frac{1}{2} \begin{pmatrix} 1 \\ 1 \\ -1 \end{pmatrix}
不是第二個系統的解,但正如定理 6.30(b) 所述,它是具有最小範數之解的「最佳近似解」。
習題 6.7
1. 將下列敘述標示為真 (True) 或假 (False)。
(a) 任何有限維向量空間上的線性算子的奇異值,也是該算子的特徵值。
(b) 任何矩陣 A 的奇異值是 A^*A 的特徵值。
(c) 對於任何矩陣 A 與任何純量 c,如果 \sigma 是 A 的奇異值,則 |c|\sigma 是 cA 的奇異值。
(d) 任何線性算子的奇異值都是非負的。
(e) 如果 \lambda 是自伴矩陣 A 的特徵值,則 \lambda 是 A 的奇異值。
(f) 對於任何 m \times n 矩陣 A 與任何 b \in F^m,向量 A^\dagger b 是 Ax = b 的解。
(g) 任何線性算子的偽逆矩陣都存在,即使該算子不可逆。
2. 設 T: V \rightarrow W 為秩為 r 的線性變換,其中 V 與 W 是有限維內積空間。在下列各小題中,求 V 的正交規範基底 \{v_1, v_2, \dots, v_n\} 與 W 的正交規範基底 \{u_1, u_2, \dots, u_m\},以及 T 的非零奇異值 \sigma_1 \ge \sigma_2 \ge \dots \ge \sigma_r,使得對於 1 \le i \le r 有 T(v_i) = \sigma_i u_i。
(a) T: R^2 \rightarrow R^3 定義為 T(x_1, x_2) = (x_1, x_1+x_2, x_1-x_2)
(b) T: P_2(R) \rightarrow P_1(R),其中 T(f(x)) = f''(x),且內積如例 1 所定義
(c) 設 V = W = \text{span}(\{1, \sin x, \cos x\}),內積定義為 \langle f, g \rangle = \int_0^{2\pi} f(t)g(t)dt,且 T 定義為 T(f) = f' + 2f
(d) T: C^2 \rightarrow C^2 定義為 T(z_1, z_2) = ((1-i)z_2, (1+i)z_1+z_2)
3. 對於下列每個矩陣求其奇異值分解。
(a) \begin{pmatrix} 1 & 1 \\ 1 & 1 \\ -1 & -1 \end{pmatrix}
(b) \begin{pmatrix} 1 & 0 & 1 \\ 1 & 0 & -1 \end{pmatrix}
(c) \begin{pmatrix} 1 & 1 \\ 0 & 1 \\ 1 & 0 \\ 1 & 1 \end{pmatrix}
(d) \begin{pmatrix} 1 & 1 & 1 \\ 1 & -1 & 0 \\ 1 & 0 & -1 \end{pmatrix}
(e) \begin{pmatrix} 1+i & 1 \\ 1-i & -i \end{pmatrix}
(f) \begin{pmatrix} 1 & 1 & 1 & 1 \\ 1 & 0 & -2 & 1 \\ 1 & -1 & 1 & 1 \end{pmatrix}
4. 對於下列每個矩陣求其極分解。
(a) \begin{pmatrix} 1 & 1 \\ 2 & -2 \end{pmatrix}
(b) \begin{pmatrix} 20 & 4 & 0 \\ 0 & 0 & 1 \\ 4 & 20 & 0 \end{pmatrix}
5. 求下列各式的明確公式。
(a) T^\dagger(x_1, x_2, x_3),其中 T 是習題 2(a) 中的線性變換
(b) T^\dagger(a + bx + cx^2),其中 T 是習題 2(b) 中的線性變換
(c) T^\dagger(a + b \sin x + c \cos x),其中 T 是習題 2(c) 中的線性變換
(d) T^\dagger(z_1, z_2),其中 T 是習題 2(d) 中的線性變換
6. 利用習題 3 的結果求下列各矩陣的偽逆矩陣。
(a) \begin{pmatrix} 1 & 1 \\ 1 & 1 \\ -1 & -1 \end{pmatrix}
(b) \begin{pmatrix} 1 & 0 & 1 \\ 1 & 0 & -1 \end{pmatrix}
(c) \begin{pmatrix} 1 & 1 \\ 0 & 1 \\ 1 & 0 \\ 1 & 1 \end{pmatrix}
(d) \begin{pmatrix} 1 & 1 & 1 \\ 1 & -1 & 0 \\ 1 & 0 & -1 \end{pmatrix}
(e) \begin{pmatrix} 1+i & 1 \\ 1-i & -i \end{pmatrix}
(f) \begin{pmatrix} 1 & 1 & 1 & 1 \\ 1 & 0 & -2 & 1 \\ 1 & -1 & 1 & 1 \end{pmatrix}
7. 對於給定的每一個線性變換 T: V \rightarrow W,
(i) 描述 V 的子空間 Z_1,使得 T^\dagger T 是 V 在 Z_1 上的正交投影。
(ii) 描述 W 的子空間 Z_2,使得 TT^\dagger 是 W 在 Z_2 上的正交投影。
(a) T 為習題 2(a) 中的線性變換
(b) T 為習題 2(b) 中的線性變換
(c) T 為習題 2(c) 中的線性變換
(d) T 為習題 2(d) 中的線性變換
8. 對於給定的每一個線性方程組,
(i) 如果方程組是一致的,找出具有最小範數的唯一解。
(ii) 如果方程組是不一致的,找出如定理 6.30(b) 中描述的具有最小範數的「最佳近似解」。
(利用你在習題 6 中 (a) 與 (f) 的答案。)
(a)
x_1 + x_2 = 1
x_1 + x_2 = 2
-x_1 - x_2 = 0
(b)
x_1 + x_2 + x_3 + x_4 = 2
x_1 - 2x_3 + x_4 = -1
x_1 - x_2 + x_3 + x_4 = 2
9. 設 V 與 W 為佈於 F 的有限維內積空間,並假設 \{v_1, v_2, \dots, v_n\} 與 \{u_1, u_2, \dots, u_m\} 分別為 V 與 W 的正交規範基底。設 T: V \rightarrow W 為秩為 r 的線性變換,並假設存在 \sigma_1 \ge \sigma_2 \ge \dots \ge \sigma_r \gt 0 使得
T(v_i) = \begin{cases} \sigma_i u_i & \text{if } 1 \le i \le r \\ 0 & \text{if } r \lt i. \end{cases}
(a) 證明 \{u_1, u_2, \dots, u_m\} 是 TT^* 的特徵向量集合,其對應的特徵值為 \lambda_1, \lambda_2, \dots, \lambda_m,其中
\lambda_i = \begin{cases} \sigma_i^2 & \text{if } 1 \le i \le r \\ 0 & \text{if } r \lt i. \end{cases}
(b) 設 A 為實數或複數元素的 m \times n 矩陣。證明 A 的非零奇異值是 AA^* 那些非零特徵值 (包含重數) 的正平方根。
(c) 證明 TT^* 與 T^*T 具有相同的非零特徵值,包含重數。
(d) 敘述並證明矩陣的類似結果,類似於 (c)。
10. 使用 2.5 節的習題 8 來獲得定理 6.27 (矩陣的奇異值分解定理) 的另一個證明。
11. 本習題將一個行為良好的線性算子或矩陣的奇異值與其特徵值聯繫起來。
(a) 設 T 為一個 n 維內積空間上的正常算子,其特徵值為 \lambda_1, \lambda_2, \dots, \lambda_n。證明 T 的奇異值為 |\lambda_1|, |\lambda_2|, \dots, |\lambda_n|。
(b) 敘述並證明矩陣的類似結果,類似於 (a)。
12. 設 A 為一個具有特徵向量之正交規範基底 \beta = \{v_1, v_2, \dots, v_n\} 與對應特徵值 \lambda_1, \lambda_2, \dots, \lambda_n 的正常矩陣。設 V 為以 \beta 中向量為行向量的 n \times n 矩陣。證明對每個 i 存在一個絕對值為 1 的純量 \theta_i,使得如果 U 是以 \theta_i v_i 為第 i 行的 n \times n 矩陣,而 \Sigma 是使得 \Sigma_{ii} = |\lambda_i| 對每個 i 成立的對角矩陣,那麼 U\Sigma V^* 就是 A 的奇異值分解。
13. 證明如果 A 是半正定矩陣,那麼 A 的奇異值與 A 的特徵值相同。
14. 證明如果 A 是正定矩陣且 A = U\Sigma V^* 是 A 的奇異值分解,那麼 U = V。
15. 設 A 為一個具有極分解 A = WP 的方陣。
(a) 證明 A 是正常矩陣若且唯若 WP^2 = P^2W。
(b) 使用 (a) 證明 A 是正常矩陣若且唯若 WP = PW。
16. 設 A 為方陣。證明 A 極分解的另一種形式:存在一個酉矩陣 W 與一個半正定矩陣 P 使得 A = PW。
17. 設 T 與 U 為定義在 R^2 上的線性算子,對所有 (x_1, x_2) \in R^2 定義為
T(x_1, x_2) = (x_1, 0) 且 U(x_1, x_2) = (x_1+x_2, 0)。
(a) 證明 (UT)^\dagger \ne T^\dagger U^\dagger。
(b) 展示出矩陣 A 與 B,使得 AB 有定義,但 (AB)^\dagger \ne B^\dagger A^\dagger。
18. 設 A 為 m \times n 矩陣。證明以下結果。
(a) 對於任何 m \times m 酉矩陣 G,(GA)^\dagger = A^\dagger G^*。
(b) 對於任何 n \times n 酉矩陣 H,(AH)^\dagger = H^* A^\dagger。
19. 設 A 為實數或複數元素的矩陣。證明以下結果。
(a) A 的非零奇異值與 A^* 的非零奇異值相同,也與 A^t 的非零奇異值相同。
(b) (A^\dagger)^* = (A^*)^\dagger。
(c) (A^\dagger)^t = (A^t)^\dagger。
20. 設 A 為使得 A^2 = O 的方陣。證明 (A^\dagger)^2 = O。
21. 設 V 與 W 為有限維內積空間,並設 T: V \rightarrow W 為線性。證明以下結果。
(a) T T^\dagger T = T。
(b) T^\dagger T T^\dagger = T^\dagger。
(c) T^\dagger T 與 T T^\dagger 皆為自伴算子。
(造訪 goo.gl/Dz3WQE 獲取解答。前述三個陳述被稱為潘羅斯條件 Penrose conditions,它們刻劃了線性變換的偽逆矩陣,如習題 22 所示。)
22. 設 V 與 W 為有限維內積空間。設 T: V \rightarrow W 與 U: W \rightarrow V 為線性變換,使得 TUT = T、UTU = U,且 UT 與 TU 皆為自伴算子。證明 U = T^\dagger。
23. 敘述並證明一個類似於習題 21 結果的矩陣版本。
24. 敘述並證明一個類似於習題 22 結果的矩陣版本。
25. 設 V 與 W 為有限維內積空間,並設 T: V \rightarrow W 為線性。證明以下結果。
(a) 如果 T 是一對一的 (one-to-one),那麼 T^*T 是可逆的且 T^\dagger = (T^*T)^{-1}T^*。
(b) 如果 T 是映成的 (onto),那麼 TT^* 是可逆的且 T^\dagger = T^*(TT^*)^{-1}。
26. 設 V 與 W 為具有正交規範基底 \beta 與 \gamma 的有限維內積空間,並設 T: V \rightarrow W 為線性。證明 ([T]_\beta^\gamma)^\dagger = [T^\dagger]_\gamma^\beta。
27. 設 V 與 W 為有限維內積空間,並設 T: V \rightarrow W 為線性變換。證明定理 6.30 中引理的 (b) 部分:TT^\dagger 是 W 在 R(T) 上的正交投影。
6.8* 雙線性型與二次型 (BILINEAR AND QUADRATIC FORMS)
有一類定義在向量空間上、具有兩個變數的純量值函數,在幾何學和多變量微積分等各種不同學科的研究中經常出現。這就是雙線性型 (bilinear forms) 的類別。我們將研究這類函數的基本性質,並特別強調對稱雙線性型 (symmetric bilinear forms),同時探討其在二次曲面和多變量微積分中的一些應用。在本節中,F 表示任何特徵值不為 2 (not of characteristic two) 的體,其定義見第 549 頁。
雙線性型 (Bilinear Forms)
定義。 設 V 為佈於體 F 的向量空間。一個從 V 中向量的有序對集合 V \times V 映射到 F 的函數 H,如果在固定其中一個變數時,對另一個變數是線性的,我們就稱 H 為 V 上的雙線性型 (bilinear form);也就是說,H 是 V 上的一個雙線性型若
(a) H(ax_1 + x_2, y) = aH(x_1, y) + H(x_2, y) 對於所有 x_1, x_2, y \in V 且 a \in F 成立
(b) H(x, ay_1 + y_2) = aH(x, y_1) + H(x, y_2) 對於所有 x, y_1, y_2 \in V 且 a \in F 成立。
我們將 V 上所有雙線性型的集合記為 \mathcal{B}(V)。請注意,如果底層的體是實數體,那麼向量空間上的內積就是雙線性型,但如果底層的體是複數體則不是。
例 1
定義一個函數 H: R^2 \times R^2 \rightarrow R 為
H \left( \begin{pmatrix} a_1 \\ a_2 \end{pmatrix}, \begin{pmatrix} b_1 \\ b_2 \end{pmatrix} \right) = 2a_1b_1 + 3a_1b_2 + 4a_2b_1 - a_2b_2 對於 \begin{pmatrix} a_1 \\ a_2 \end{pmatrix}, \begin{pmatrix} b_1 \\ b_2 \end{pmatrix} \in R^2。
我們可以直接驗證 H 是 R^2 上的一個雙線性型。然而,更有啟發性且較不繁瑣的方法是觀察到,如果
A = \begin{pmatrix} 2 & 3 \\ 4 & -1 \end{pmatrix}, x = \begin{pmatrix} a_1 \\ a_2 \end{pmatrix}, 以及 y = \begin{pmatrix} b_1 \\ b_2 \end{pmatrix},
那麼
H(x,y) = x^t A y。
H 的雙線性性質現在可以直接由矩陣乘法對矩陣加法的分配律推導出來。
前面的雙線性型是下一個例子的特例。
例 2
設 V = F^n,其中的向量被視為行向量。對於任何 A \in M_{n \times n}(F),定義 H: V \times V \rightarrow F 為
H(x,y) = x^t A y 對於 x, y \in V。
請注意,由於 x 和 y 是 n \times 1 矩陣且 A 是 n \times n 矩陣,H(x,y) 是一個 1 \times 1 矩陣。我們將此矩陣與其單一元素等同視之。H 的雙線性性質可如例 1 中推導而出。例如,對於 a \in F 且 x_1, x_2, y \in V,我們有
H(ax_1 + x_2, y) = (ax_1 + x_2)^t Ay = (ax_1^t + x_2^t)Ay
= ax_1^t Ay + x_2^t Ay
= aH(x_1, y) + H(x_2, y)。
我們列出所有雙線性型都具備的幾個性質。它們的證明留給讀者(見習題 2)。
對於體 F 上的向量空間 V 上的任何雙線性型 H,以下性質成立。
- 如果對於任何 x \in V,函數 L_x, R_x: V \rightarrow F 定義為
L_x(y) = H(x,y) 且 R_x(y) = H(y,x) 對於所有 y \in V,
那麼 L_x 和 R_x 都是線性的。 - H(0,x) = H(x,0) = 0 對於所有 x \in V 成立。
- 對於所有 x, y, z, w \in V,
H(x+y, z+w) = H(x,z) + H(x,w) + H(y,z) + H(y,w)。 - 如果 J: V \times V \rightarrow F 定義為 J(x,y) = H(y,x),那麼 J 也是一個雙線性型。
定義。 設 V 為一個向量空間,設 H_1 和 H_2 為 V 上的雙線性型,並設 a 為純量。我們藉由以下方程式定義和 (sum) H_1 + H_2 與純量積 (scalar product) aH_1:
(H_1 + H_2)(x,y) = H_1(x,y) + H_2(x,y)
以及
(aH_1)(x,y) = a(H_1(x,y)) 對於所有 x, y \in V。
下一個定理是這些定義的直接結果。
定理 6.31。 對於任何向量空間 V,兩個雙線性型的和以及純量與雙線性型的乘積,仍然是 V 上的雙線性型。此外,\mathcal{B}(V) 在這些運算下構成一個向量空間。
證明。 習題。
設 \beta = \{v_1, v_2, \dots, v_n\} 為 n 維向量空間 V 的一個有序基底 (ordered basis),並設 H \in \mathcal{B}(V)。我們可以將 H 關聯到一個 n \times n 矩陣 A,其在第 i 列第 j 行的元素定義為
A_{ij} = H(v_i, v_j) 對於 i, j = 1, 2, \dots, n。
定義。 上述矩陣 A 稱為 H 相對於有序基底 \beta 的矩陣表示 (matrix representation),記作 \psi_\beta(H)。
因此,我們可以將 \psi_\beta 視為從 \mathcal{B}(V) 到 M_{n \times n}(F) 的一個映射,其中 F 是 V 的純量體,它將一個雙線性型 H 帶入它的矩陣表示 \psi_\beta(H)。我們先看一個例子,然後證明 \psi_\beta 是一個同構 (isomorphism)。
例 3
考慮例 1 的雙線性型 H,並設
\beta = \left\{ \begin{pmatrix} 1 \\ 1 \end{pmatrix}, \begin{pmatrix} 1 \\ -1 \end{pmatrix} \right\} 且 B = \psi_\beta(H)。
那麼
B_{11} = H \left( \begin{pmatrix} 1 \\ 1 \end{pmatrix}, \begin{pmatrix} 1 \\ 1 \end{pmatrix} \right) = 2 + 3 + 4 - 1 = 8,
B_{12} = H \left( \begin{pmatrix} 1 \\ 1 \end{pmatrix}, \begin{pmatrix} 1 \\ -1 \end{pmatrix} \right) = 2 - 3 + 4 + 1 = 4,
B_{21} = H \left( \begin{pmatrix} 1 \\ -1 \end{pmatrix}, \begin{pmatrix} 1 \\ 1 \end{pmatrix} \right) = 2 + 3 - 4 + 1 = 2,
且
B_{22} = H \left( \begin{pmatrix} 1 \\ -1 \end{pmatrix}, \begin{pmatrix} 1 \\ -1 \end{pmatrix} \right) = 2 - 3 - 4 - 1 = -6。
所以
\psi_\beta(H) = \begin{pmatrix} 8 & 4 \\ 2 & -6 \end{pmatrix}。
如果 \gamma 是 R^2 的標準有序基底,讀者可以驗證
\psi_\gamma(H) = \begin{pmatrix} 2 & 3 \\ 4 & -1 \end{pmatrix}。
定理 6.32。 對於佈於體 F 上的任何 n 維向量空間 V 以及 V 的任何有序基底 \beta,\psi_\beta: \mathcal{B}(V) \rightarrow M_{n \times n}(F) 是一個同構。
證明。 我們把 \psi_\beta 為線性的證明留給讀者。
為了證明 \psi_\beta 是一對一的 (one-to-one),假設 \psi_\beta(H) = O 對於某個 H \in \mathcal{B}(V) 成立。固定 v_i \in \beta,並回想前面定義的映射 L_{v_i}: V \rightarrow F,這根據第 420 頁的性質 1 是線性的。根據假設,L_{v_i}(v_j) = H(v_i, v_j) = 0 對於所有 v_j \in \beta 成立。因此 L_{v_i} 是從 V 到 F 的零變換。所以
H(v_i, x) = L_{v_i}(x) = 0 對於所有 x \in V 且 v_i \in \beta。 (7)
接下來固定任意的 y \in V,並回想第 420 頁中性質 1 定義的線性映射 R_y: V \rightarrow F。藉由 (7),我們有 R_y(v_i) = H(v_i, y) = 0 對於所有 v_i \in \beta 成立,因此 R_y 也是零變換。所以 H(x,y) = R_y(x) = 0 對於所有 x, y \in V 成立。因此 H 是零雙線性型,從而 \psi_\beta 是一對一的。
為了證明 \psi_\beta 是映成的 (onto),考慮任意的 A \in M_{n \times n}(F)。回想在 2.4 節中定義的同構 \phi_\beta: V \rightarrow F^n。對於 x \in V,我們將 \phi_\beta(x) \in F^n 視為行向量。設 H: V \times V \rightarrow F 為下列映射:
H(x,y) = [\phi_\beta(x)]^t A [\phi_\beta(y)] 對於所有 x, y \in V。
可以利用稍微修飾過後的例 2 方法來證明 H \in \mathcal{B}(V)。我們證明 \psi_\beta(H) = A。設 v_i, v_j \in \beta。那麼 \phi_\beta(v_i) = e_i 且 \phi_\beta(v_j) = e_j;因此,對於任何 i 與 j,
H(v_i, v_j) = [\phi_\beta(v_i)]^t A [\phi_\beta(v_j)] = e_i^t A e_j = A_{ij}。
我們得出結論 \psi_\beta(H) = A 且 \psi_\beta 是映成的。
推論 1。 對於任何 n 維向量空間 V,\mathcal{B}(V) 的維度為 n^2。
證明。 習題。
下一個推論可以透過回顧定理 6.32 的證明而輕易建立。
推論 2。 設 V 為佈於 F 上的 n 維向量空間,且具有有序基底 \beta。如果 H \in \mathcal{B}(V) 且 A \in M_{n \times n}(F),那麼 \psi_\beta(H) = A 若且唯若 H(x,y) = [\phi_\beta(x)]^t A [\phi_\beta(y)] 對於所有的 x, y \in V 成立。
下列結果現在是推論 2 的直接推論。
推論 3。 設 F 為一個體,n 為正整數,且 \beta 為 F^n 的標準有序基底。那麼對於任何 H \in \mathcal{B}(F^n),存在唯一的矩陣 A \in M_{n \times n}(F),也就是 A = \psi_\beta(H),使得
H(x,y) = x^t A y 對於所有的 x, y \in F^n。
例 4
定義一個函數 H: R^2 \times R^2 \rightarrow R 為
H \left( \begin{pmatrix} a_1 \\ a_2 \end{pmatrix}, \begin{pmatrix} b_1 \\ b_2 \end{pmatrix} \right) = \det \begin{pmatrix} a_1 & b_1 \\ a_2 & b_2 \end{pmatrix} = a_1b_2 - a_2b_1 對於 \begin{pmatrix} a_1 \\ a_2 \end{pmatrix}, \begin{pmatrix} b_1 \\ b_2 \end{pmatrix} \in R^2。
可以證明 H 是一個雙線性型。我們在推論 3 中找到矩陣 A,使得 H(x,y) = x^t A y 對於所有 x, y \in R^2 成立。
因為 A_{ij} = H(e_i, e_j) 對於所有 i 與 j,我們有
A_{11} = \det \begin{pmatrix} 1 & 1 \\ 0 & 0 \end{pmatrix} = 0, A_{12} = \det \begin{pmatrix} 1 & 0 \\ 0 & 1 \end{pmatrix} = 1,
A_{21} = \det \begin{pmatrix} 0 & 1 \\ 1 & 0 \end{pmatrix} = -1, 且 A_{22} = \det \begin{pmatrix} 0 & 0 \\ 1 & 1 \end{pmatrix} = 0。
因此 A = \begin{pmatrix} 0 & 1 \\ -1 & 0 \end{pmatrix}。
雙線性型與有限維向量空間上的線性算子之間存在著類比,兩者皆與唯一的方陣相關聯,且其對應關係取決於向量空間有序基底的選擇。正如在線性算子的情況,我們可以提出以下問題:當改變有序基底時,對應於固定雙線性型的矩陣會如何改變?如我們所見,線性算子矩陣表示的相應問題引出了方陣上相似關係 (similarity relation) 的定義。在雙線性型的情況下,這個相應的問題引出了另一種方陣上的關係,即同餘關係 (congruence relation)。
定義。 設 A, B \in M_{n \times n}(F)。如果存在一個可逆矩陣 Q \in M_{n \times n}(F) 使得 B = Q^t A Q,那麼我們稱 B 同餘於 (congruent to) A。
觀察同餘關係是一種等價關係 (equivalence relation)(見習題 12)。
下一個定理將同餘關係與雙線性型的矩陣表示連繫起來。
定理 6.33。 設 V 為有限維向量空間,具備有序基底 \beta = \{v_1, v_2, \dots, v_n\} 與 \gamma = \{w_1, w_2, \dots, w_n\},且設 Q 為將 \gamma-座標轉換為 \beta-座標的坐標變換矩陣。那麼,對於任何 H \in \mathcal{B}(V),我們有 \psi_\gamma(H) = Q^t \psi_\beta(H) Q。因此 \psi_\gamma(H) 同餘於 \psi_\beta(H)。
證明。 這個定理本質上有兩種證明方法。一種涉及直接計算,另一種則由巧妙的觀察立即得出。我們在此給出較直接的證明,將另一種證明留在習題中(見習題 13)。
假設 A = \psi_\beta(H) 且 B = \psi_\gamma(H)。那麼對於 1 \le i, j \le n,
w_i = \sum_{k=1}^n Q_{ki}v_k 且 w_j = \sum_{r=1}^n Q_{rj}v_r。
因此
B_{ij} = H(w_i, w_j) = H \left( \sum_{k=1}^n Q_{ki}v_k, w_j \right)
= \sum_{k=1}^n Q_{ki} H(v_k, w_j)
= \sum_{k=1}^n Q_{ki} H \left( v_k, \sum_{r=1}^n Q_{rj}v_r \right)
= \sum_{k=1}^n Q_{ki} \sum_{r=1}^n Q_{rj} H(v_k, v_r)
= \sum_{k=1}^n Q_{ki} \sum_{r=1}^n Q_{rj} A_{kr}
= \sum_{k=1}^n Q_{ki} \sum_{r=1}^n A_{kr} Q_{rj}
= \sum_{k=1}^n Q_{ki} (AQ)_{kj}
= \sum_{k=1}^n Q_{ik}^t (AQ)_{kj} = (Q^t AQ)_{ij}。
因此 B = Q^t A Q。
以下結果是定理 6.33 的逆命題。
推論。 設 V 為具備有序基底 \beta 的 n 維向量空間,且設 H 為 V 上的一個雙線性型。對於任何 n \times n 矩陣 B,如果 B 同餘於 \psi_\beta(H),那麼存在 V 的一個有序基底 \gamma 使得 \psi_\gamma(H) = B。在這種情況下,如果 Q 是滿足 B = Q^t \psi_\beta(H) Q 的矩陣,那麼 Q 是將 \gamma-座標轉換為 \beta-座標的變換矩陣。
證明。 假設 B = Q^t \psi_\beta(H) Q 對於某個可逆矩陣 Q 成立,且 \beta = \{v_1, v_2, \dots, v_n\}。設 \gamma = \{w_1, w_2, \dots, w_n\},其中
w_j = \sum_{i=1}^n Q_{ij} v_i 對於 1 \le j \le n。
因為 Q 是可逆的,\gamma 是 V 的一個有序基底,且 Q 是將 \gamma-座標轉換為 \beta-座標的坐標變換矩陣。因此,由定理 6.33,
B = Q^t \psi_\beta(H) Q = \psi_\gamma(H)。
對稱雙線性型 (Symmetric Bilinear Forms)
就像線性算子的對角化問題一樣,雙線性型也有類似的對角化問題,即決定那些存在對角矩陣表示的雙線性型。如我們所見,可對角化的雙線性型與被稱為對稱 (symmetric) 的雙線性型之間存在著密切的關係。
定義。 定義在向量空間 V 上的一個雙線性型 H 被稱為對稱的 (symmetric),如果對於所有 x, y \in V,都有 H(x,y) = H(y,x) 成立。
如同其名稱所暗示的,對稱雙線性型對應於對稱矩陣。
定理 6.34。 設 H 為有限維向量空間 V 上的雙線性型,且設 \beta 為 V 的有序基底。則 H 是對稱的若且唯若 \psi_\beta(H) 是對稱矩陣。
證明。 設 \beta = \{v_1, v_2, \dots, v_n\} 且 B = \psi_\beta(H)。
首先假設 H 是對稱的。則對於 1 \le i, j \le n,
B_{ij} = H(v_i, v_j) = H(v_j, v_i) = B_{ji},
因此得出 B 是對稱矩陣。
反之,假設 B 是對稱的。設 J: V \times V \rightarrow F,其中 F 是 V 的純量體,為定義成對所有 x, y \in V 皆有 J(x,y) = H(y,x) 的映射。根據第 420 頁的性質 4,J 是一個雙線性型。設 C = \psi_\beta(J)。那麼,對於 1 \le i, j \le n,
C_{ij} = J(v_i, v_j) = H(v_j, v_i) = B_{ji} = B_{ij}。
因此 C = B。因為 \psi_\beta 是一對一的,我們得到 J = H。因此對於所有 x, y \in V,H(y,x) = J(x,y) = H(x,y),故 H 是對稱的。
定義。 定義在有限維向量空間 V 上的雙線性型 H 被稱為可對角化的 (diagonalizable),如果存在 V 的一個有序基底 \beta 使得 \psi_\beta(H) 是一個對角矩陣。
推論。 設 H 為有限維向量空間 V 上的一個可對角化雙線性型。則 H 是對稱的。
證明。 假設 H 是可對角化的。那麼存在 V 的一個有序基底 \beta,使得 \psi_\beta(H) = D 是一個對角矩陣。顯然,D 是一個對稱矩陣,因此,根據定理 6.34,H 是對稱的。
不幸的是,其逆命題並不為真,如下面的例子所示。
例 5
設 F = Z_2,V = F^2,且 H: V \times V \rightarrow F 為定義如下的雙線性型:
H \left( \begin{pmatrix} a_1 \\ a_2 \end{pmatrix}, \begin{pmatrix} b_1 \\ b_2 \end{pmatrix} \right) = a_1b_2 + a_2b_1。
顯然 H 是對稱的。事實上,如果 \beta 是 V 的標準有序基底,那麼
A = \psi_\beta(H) = \begin{pmatrix} 0 & 1 \\ 1 & 0 \end{pmatrix},
一個對稱矩陣。我們證明 H 是不可對角化的。
藉由反證法,假設 H 是可對角化的。那麼存在 V 的一個有序基底 \gamma,使得 B = \psi_\gamma(H) 是一個對角矩陣。所以由定理 6.33,存在一個可逆矩陣 Q 使得 B = Q^t A Q。因為 Q 是可逆的,所以得出 \text{rank}(B) = \text{rank}(A) = 2,因此 B 的對角線元素不為零。因為 F 中唯一的非零純量是 1,
B = \begin{pmatrix} 1 & 0 \\ 0 & 1 \end{pmatrix}。
假設
Q = \begin{pmatrix} a & b \\ c & d \end{pmatrix}。
那麼
\begin{pmatrix} 1 & 0 \\ 0 & 1 \end{pmatrix} = B = Q^t A Q
= \begin{pmatrix} a & c \\ b & d \end{pmatrix} \begin{pmatrix} 0 & 1 \\ 1 & 0 \end{pmatrix} \begin{pmatrix} a & b \\ c & d \end{pmatrix} = \begin{pmatrix} ac+ac & bc+ad \\ bc+ad & bd+bd \end{pmatrix}。
但是對於所有 p \in F,都有 p+p=0;因此 ac+ac=0。所以,比較上述等式矩陣第 1 列、第 1 行的元素,我們得出結論 1=0,這是一個矛盾。因此 H 是不可對角化的。
例 5 中的雙線性型是一個反常的例子。它無法被對角化是因為純量體 Z_2 的特徵值為 2。回想附錄 C 中提到,如果一個體 F 中 1+1=0,則稱該體為特徵值為 2 (of characteristic two) 的體。如果 F 的特徵值不為 2,那麼 1+1=2 具有一個乘法反元素,我們將其記為 1/2。
在證明定理 6.34 推論的逆命題適用於特徵值不為 2 的純量體之前,我們建立以下引理。
引理。 設 H 為佈於特徵值不為 2 的體 F 上的向量空間 V 上的非零對稱雙線性型。那麼 V 中存在一個向量 x 使得 H(x,x) \ne 0。
證明。 因為 H 是非零的,我們可以選擇向量 u, v \in V 使得 H(u,v) \ne 0。如果 H(u,u) \ne 0 或 H(v,v) \ne 0,那就沒什麼好證明的了。否則,令 x = u+v。那麼
H(x,x) = H(u,u) + H(u,v) + H(v,u) + H(v,v) = 2H(u,v) \ne 0
因為 2 \ne 0 且 H(u,v) \ne 0。
定理 6.35。 設 V 為佈於特徵值不為 2 的體 F 上的有限維向量空間。那麼 V 上的每個對稱雙線性型都是可對角化的。
證明。 我們對 n = \dim(V) 使用數學歸納法。如果 n=1,那麼 \mathcal{B}(V) 中的每個元素都是可對角化的。現在假設對於所有維度小於 n (n \gt 1) 的向量空間定理皆成立,並假設 \dim(V) = n。如果 H 是 V 上的零雙線性型,那麼顯然 H 是可對角化的;因此假設 H 是 V 上的非零對稱雙線性型。根據該引理,V 中存在一個非零向量 x 使得 H(x,x) \ne 0。回想對所有 y \in V 定義為 L_x(y) = H(x,y) 的函數 L_x: V \rightarrow F。根據第 420 頁的性質 1,L_x 是線性的。此外,因為 L_x(x) = H(x,x) \ne 0,L_x 是非零的。因此,\text{rank}(L_x) = 1,從而得出 \dim(N(L_x)) = n-1。
限制在 N(L_x) 上的 H 顯然是一個維度為 n-1 向量空間上的對稱雙線性型。因此,根據歸納假設,存在 N(L_x) 的一個有序基底 \{v_1, v_2, \dots, v_{n-1}\} 使得 H(v_i, v_j) = 0 對於 i \ne j (1 \le i, j \le n-1) 成立。令 v_n = x。那麼 v_n \notin N(L_x),所以 \beta = \{v_1, v_2, \dots, v_n\} 是一個 V 的有序基底。此外,H(v_i, v_n) = H(v_n, v_i) = 0 對於 i = 1, 2, \dots, n-1 成立。我們得出結論 \psi_\beta(H) 是一個對角矩陣,因此 H 是可對角化的。
推論。 設 F 為一個特徵值不為 2 的體。如果 A \in M_{n \times n}(F) 是一個對稱矩陣,那麼 A 同餘於一個對角矩陣。
證明。 習題。
對稱矩陣的對角化 (Diagonalization of Symmetric Matrices)
設 A 為元素取自特徵值不為 2 的體 F 的對稱 n \times n 矩陣。根據定理 6.35 的推論,存在矩陣 Q, D \in M_{n \times n}(F) 使得 Q 為可逆矩陣,D 為對角矩陣,且 Q^t A Q = D。我們現在給出一個計算 Q 和 D 的方法。這個方法需要熟悉基本矩陣 (elementary matrices) 及其性質,讀者不妨複習 3.1 節。
如果 E 是一個基本 n \times n 矩陣,那麼 AE 可以藉由對 A 執行基本行運算 (elementary column operation) 而獲得。由習題 21,E^t A 可以藉由對 A 的列而非對它的行執行相同的運算而獲得。因此 E^t AE 可以藉由對 A 的行執行某個基本運算,然後再對 AE 的列執行相同的運算而獲得。(請注意,因為矩陣乘法的結合律,這些運算的順序可以顛倒。)假設 Q 是一個可逆矩陣且 D 是一個對角矩陣使得 Q^t A Q = D。由定理 3.6 的推論 3(第 158 頁),Q 是一些基本矩陣的乘積,比方說 Q = E_1 E_2 \dots E_k。因此
D = Q^t A Q = E_k^t E_{k-1}^t \dots E_1^t A E_1 E_2 \dots E_k。
從前述方程式中,我們得出結論:藉由數個基本行運算以及對應的列運算,A 可以被變換成一個對角矩陣 D。此外,如果 E_1, E_2, \dots, E_k 是對應於這些基本行運算的基本矩陣,並按執行順序加上索引,且如果 Q = E_1 E_2 \dots E_k,那麼 Q^t A Q = D。
例 6
設 A 為定義在 M_{3 \times 3}(R) 中的對稱矩陣
A = \begin{pmatrix} 1 & -1 & 3 \\ -1 & 2 & 1 \\ 3 & 1 & 1 \end{pmatrix}。
我們使用剛剛描述的步驟尋找一個可逆矩陣 Q 與一個對角矩陣 D 使得 Q^t A Q = D。
我們首先消除第一列與第一行中除了第 1 行與第 1 列相交的元素之外所有的非零元素。為此,我們將 A 的第一行加到第二行,在第 1 列第 2 行產生一個零。對應於這個基本行運算的基本矩陣為
E_1 = \begin{pmatrix} 1 & 1 & 0 \\ 0 & 1 & 0 \\ 0 & 0 & 1 \end{pmatrix}。
我們對 AE_1 的列執行對應的基本運算以獲得
E_1^t A E_1 = \begin{pmatrix} 1 & 0 & 3 \\ 0 & 1 & 4 \\ 3 & 4 & 1 \end{pmatrix}。
我們現在利用 E_1^t A E_1 的第一行來消除在第 1 列第 3 行的 3,並接著進行對應的列運算。對應的基本矩陣 E_2 以及基本運算的結果 E_2^t E_1^t A E_1 E_2 分別為:
E_2 = \begin{pmatrix} 1 & 0 & -3 \\ 0 & 1 & 0 \\ 0 & 0 & 1 \end{pmatrix} 以及 E_2^t E_1^t A E_1 E_2 = \begin{pmatrix} 1 & 0 & 0 \\ 0 & 1 & 4 \\ 0 & 4 & -8 \end{pmatrix}。
最後,我們從第三行減去 E_2^t E_1^t A E_1 E_2 的第二行的 4 倍,接著進行對應的列運算。對應的基本矩陣 E_3 以及基本運算的結果 E_3^t E_2^t E_1^t A E_1 E_2 E_3 分別為:
E_3 = \begin{pmatrix} 1 & 0 & 0 \\ 0 & 1 & -4 \\ 0 & 0 & 1 \end{pmatrix} 以及 E_3^t E_2^t E_1^t A E_1 E_2 E_3 = \begin{pmatrix} 1 & 0 & 0 \\ 0 & 1 & 0 \\ 0 & 0 & -24 \end{pmatrix}。
由於我們已獲得一個對角矩陣,該過程完成。所以我們令
Q = E_1 E_2 E_3 = \begin{pmatrix} 1 & 1 & -7 \\ 0 & 1 & -4 \\ 0 & 0 & 1 \end{pmatrix} 以及 D = \begin{pmatrix} 1 & 0 & 0 \\ 0 & 1 & 0 \\ 0 & 0 & -24 \end{pmatrix}
以獲得所需的對角化 Q^t A Q = D。
讀者應自行證明以下不需個別記錄每個基本矩陣來計算 Q 的方法。這個方法的靈感來自於 3.2 節中發展的計算矩陣反矩陣的演算法。我們使用一系列的基本行運算以及對應的列運算,將 n \times 2n 矩陣 (A|I) 變成形式 (D|B),其中 D 為對角矩陣且 B = Q^t。接著可以推導出 D = Q^t A Q。
以先前的範例矩陣 A 開始,這個方法產生以下的矩陣序列:
(A|I) = \begin{pmatrix} 1 & -1 & 3 & 1 & 0 & 0 \\ -1 & 2 & 1 & 0 & 1 & 0 \\ 3 & 1 & 1 & 0 & 0 & 1 \end{pmatrix} \rightarrow \begin{pmatrix} 1 & 0 & 3 & 1 & 0 & 0 \\ -1 & 1 & 1 & 0 & 1 & 0 \\ 3 & 4 & 1 & 0 & 0 & 1 \end{pmatrix}
\rightarrow \begin{pmatrix} 1 & 0 & 3 & 1 & 0 & 0 \\ 0 & 1 & 4 & 1 & 1 & 0 \\ 3 & 4 & 1 & 0 & 0 & 1 \end{pmatrix} \rightarrow \begin{pmatrix} 1 & 0 & 0 & 1 & 0 & 0 \\ 0 & 1 & 4 & 1 & 1 & 0 \\ 3 & 4 & -8 & -3 & 0 & 1 \end{pmatrix}
\rightarrow \begin{pmatrix} 1 & 0 & 0 & 1 & 0 & 0 \\ 0 & 1 & 4 & 1 & 1 & 0 \\ 0 & 4 & -8 & -3 & 0 & 1 \end{pmatrix} \rightarrow \begin{pmatrix} 1 & 0 & 0 & 1 & 0 & 0 \\ 0 & 1 & 0 & 1 & 1 & 0 \\ 0 & 4 & -24 & -7 & -4 & 1 \end{pmatrix}
\rightarrow \begin{pmatrix} 1 & 0 & 0 & 1 & 0 & 0 \\ 0 & 1 & 0 & 1 & 1 & 0 \\ 0 & 0 & -24 & -7 & -4 & 1 \end{pmatrix} = (D|Q^t)。
(註:倒數第三步中,將第一行的 -3 倍加到第三行。但在上一行已經有 3 及 0 變化,此序列展示了行列並用的操作。)
因此
D = \begin{pmatrix} 1 & 0 & 0 \\ 0 & 1 & 0 \\ 0 & 0 & -24 \end{pmatrix}, Q^t = \begin{pmatrix} 1 & 0 & 0 \\ 1 & 1 & 0 \\ -7 & -4 & 1 \end{pmatrix}, 且 Q = \begin{pmatrix} 1 & 1 & -7 \\ 0 & 1 & -4 \\ 0 & 0 & 1 \end{pmatrix}。
二次型 (Quadratic Forms)
與對稱雙線性型關聯的是稱為二次型 (quadratic forms) 的函數。
定義。 設 V 為佈於特徵值不為 2 的體 F 上的向量空間。一個函數 K: V \rightarrow F 稱為 V 上的二次型 (quadratic form),如果存在一個對稱雙線性型 H \in \mathcal{B}(V) 使得
K(x) = H(x,x) 對於所有 x \in V 成立。 (8)
在對稱雙線性型與二次型之間存在著由 (8) 給出的一對一對應關係。事實上,如果 K 是佈於特徵值不為 2 的體 F 上的向量空間 V 上的一個二次型,且對某個 V 上的對稱雙線性型 H 有 K(x) = H(x,x),那麼我們能夠由 K 恢復 H,因為
H(x,y) = \frac{1}{2}[K(x+y) - K(x) - K(y)] (9)
(見習題 16)。
例 7
二次型最典型的例子是多個變數的齊次二次多項式 (homogeneous second-degree polynomial)。給定取值於特徵值不為 2 的體 F 的變數 t_1, t_2, \dots, t_n 以及給定(不一定相異的)純量 a_{ij} (1 \le i \le j \le n),定義多項式
f(t_1, t_2, \dots, t_n) = \sum_{i \le j} a_{ij}t_i t_j。
任何這樣的多項式都是一個二次型。事實上,如果 \beta 是 F^n 的標準有序基底,那麼對應於二次型 f 的對稱雙線性型 H 具有矩陣表示 \psi_\beta(H) = A,其中
A_{ij} = A_{ji} = \begin{cases} a_{ii} & \text{若 } i = j \\ \frac{1}{2}a_{ij} & \text{若 } i \ne j \text{。} \end{cases}
要明白這一點,利用 (9) 從二次型 K 獲得 H(e_i, e_j) = A_{ij},並驗證 f 可以藉由將 K 替換為 f 透過 (8) 從 H 計算而得。
舉例來說,給定具備實係數的多項式
f(t_1, t_2, t_3) = 2t_1^2 - t_2^2 + 6t_1 t_2 - 4t_2 t_3,
令
A = \begin{pmatrix} 2 & 3 & 0 \\ 3 & -1 & -2 \\ 0 & -2 & 0 \end{pmatrix}。
那麼
f(t_1, t_2, t_3) = (t_1, t_2, t_3) A \begin{pmatrix} t_1 \\ t_2 \\ t_3 \end{pmatrix} 對於 \begin{pmatrix} t_1 \\ t_2 \\ t_3 \end{pmatrix} \in R^3。
因為任何二次型都可以從對稱雙線性型而得,所以前面的定理可以直接應用。下一個結果對於任何有限維實內積空間上二次型的研究極為重要。這個定理有時被稱為主軸定理 (Principal Axis Theorem)。
定理 6.36。 設 V 是一個有限維實內積空間,並設 H 為 V 上的一個對稱雙線性型。那麼存在 V 的一個正交規範基底 \beta,使得 \psi_\beta(H) 是一個對角矩陣。
證明。 定義 T: V \rightarrow V 使得對於所有的 x \in V 有 T(x) = y,其中 y 是 V 中唯一的向量使得 H(z,x) = \langle z,y \rangle 對所有 z \in V 成立(見第 448 頁的習題 25)。可以很容易地證明 T 是一個線性算子。因為 H 是對稱的,
\langle z, T(x) \rangle = H(z,x) = H(x,z) = \langle x, T(z) \rangle = \langle T(z), x \rangle 對所有 x, z \in V 成立。
所以 T = T^*;也就是說,T 是自伴的。根據定理 6.17 (第 371 頁),存在 V 的一個由 T 的特徵向量組成的正交規範基底 \beta = \{v_1, v_2, \dots, v_n\}。假設對於 i=1, 2, \dots, n 有 T(v_i) = \lambda_i v_i。那麼
H(v_i, v_j) = \langle v_i, T(v_j) \rangle = \langle v_i, \lambda_j v_j \rangle = \lambda_j \langle v_i, v_j \rangle = \lambda_j \delta_{ij},
其中 \delta_{ij} 是克羅內克 \delta。因此 \psi_\beta(H) 是一個對角矩陣。
推論。 設 K 為有限維實內積空間 V 上的一個二次型。那麼存在一個 V 的正交規範基底 \beta = \{v_1, v_2, \dots, v_n\} 以及純量 \lambda_1, \lambda_2, \dots, \lambda_n 使得如果
x = \sum_{i=1}^n s_i v_i, s_i \in R,
那麼
K(x) = \sum_{i=1}^n \lambda_i s_i^2。
實際上,如果 H 是 K 所決定的對稱雙線性型,那麼 \beta 可以選為 V 的任何一個使得 \psi_\beta(H) 成為對角矩陣的正交規範基底。
證明。 設 H 為使得對所有 x \in V 皆有 K(x) = H(x,x) 的對稱雙線性型。由定理 6.36,存在 V 的一個正交規範基底 \beta = \{v_1, v_2, \dots, v_n\} 使得 \psi_\beta(H) 為對角矩陣
D = \begin{pmatrix} \lambda_1 & 0 & \dots & 0 \\ 0 & \lambda_2 & \dots & 0 \\ \vdots & \vdots & & \vdots \\ 0 & 0 & \dots & \lambda_n \end{pmatrix}。
設 x \in V,並假設 x = \sum_{i=1}^n s_i v_i。那麼
K(x) = H(x,x) = [\phi_\beta(x)]^t D [\phi_\beta(x)]
= (s_1, s_2, \dots, s_n) D \begin{pmatrix} s_1 \\ s_2 \\ \vdots \\ s_n \end{pmatrix} = \sum_{i=1}^n \lambda_i s_i^2。
例 8
對於由以下定義的次數為 2 的齊次實多項式
f(t_1, t_2) = 5t_1^2 + 2t_2^2 + 4t_1 t_2 (10)
我們尋找一個 R^2 的正交規範基底 \gamma = \{x_1, x_2\} 以及純量 \lambda_1 與 \lambda_2 使得如果
\begin{pmatrix} t_1 \\ t_2 \end{pmatrix} \in R^2 且 \begin{pmatrix} t_1 \\ t_2 \end{pmatrix} = s_1 x_1 + s_2 x_2,
那麼 f(t_1, t_2) = \lambda_1 s_1^2 + \lambda_2 s_2^2。我們可以將 s_1 和 s_2 想成 (t_1, t_2) 相對於 \gamma 的坐標。因此多項式 f(t_1, t_2),作為一個涉及相對於 R^2 標準有序基底點坐標的表達式,被變換成了新的多項式 g(s_1, s_2) = \lambda_1 s_1^2 + \lambda_2 s_2^2,被解釋為涉及點相對於新有序基底 \gamma 的坐標的表達式。
設 H 表示對應於 (10) 所定義的二次型的對稱雙線性型,設 \beta 為 R^2 的標準有序基底,並設 A = \psi_\beta(H)。那麼
A = \psi_\beta(H) = \begin{pmatrix} 5 & 2 \\ 2 & 2 \end{pmatrix}。
接著,我們尋找一個正交矩陣 Q 使得 Q^t A Q 是一個對角矩陣。為此,觀察到 \lambda_1 = 6 與 \lambda_2 = 1 是 A 的特徵值,且對應的正交規範特徵向量為
v_1 = \frac{1}{\sqrt{5}} \begin{pmatrix} 2 \\ 1 \end{pmatrix} 以及 v_2 = \frac{1}{\sqrt{5}} \begin{pmatrix} 1 \\ -2 \end{pmatrix}。
設 \gamma = \{v_1, v_2\}。那麼 \gamma 是一個由 A 的特徵向量組成的 R^2 正交規範基底。因此,設定
Q = \frac{1}{\sqrt{5}} \begin{pmatrix} 2 & 1 \\ 1 & -2 \end{pmatrix},
我們看到 Q 是一個正交矩陣,且
Q^t A Q = \begin{pmatrix} 6 & 0 \\ 0 & 1 \end{pmatrix}。
顯然 Q 也是一個坐標變換矩陣。因此,
\psi_\gamma(H) = Q^t \psi_\beta(H) Q = Q^t A Q = \begin{pmatrix} 6 & 0 \\ 0 & 1 \end{pmatrix}。
因此由定理 6.36 的推論,
K(x) = 6s_1^2 + s_2^2
對於任何 x = s_1 v_1 + s_2 v_2 \in R^2 成立。所以 g(s_1, s_2) = 6s_1^2 + s_2^2。
下一個範例說明了如何將二次型的理論應用於描述 R^3 中的二次曲面。
例 9
設 \mathcal{S} 為 R^3 中由以下方程式所定義的曲面
2t_1^2 + 6t_1 t_2 + 5t_2^2 - 2t_2 t_3 + 2t_3^2 + 3t_1 - 2t_2 - t_3 + 14 = 0。 (11)
那麼 (11) 將 \mathcal{S} 中的點以其相對於 R^3 標準有序基底 \beta 的坐標來描述。我們尋找一個 R^3 的正交規範基底 \gamma 使得描述 \mathcal{S} 相對於 \gamma 坐標的方程式比 (11) 簡單。
我們首先觀察到 (11) 左邊的二次項構成一個 R^3 上的二次型 K:
K \begin{pmatrix} t_1 \\ t_2 \\ t_3 \end{pmatrix} = 2t_1^2 + 6t_1 t_2 + 5t_2^2 - 2t_2 t_3 + 2t_3^2。
接下來,我們將 K 對角化。設 H 為對應於 K 的對稱雙線性型,並設 A = \psi_\beta(H)。那麼
A = \begin{pmatrix} 2 & 3 & 0 \\ 3 & 5 & -1 \\ 0 & -1 & 2 \end{pmatrix}。
A 的特徵多項式為 (-1)(t-2)(t-7)t;因此 A 有特徵值 \lambda_1 = 2、\lambda_2 = 7 與 \lambda_3 = 0。對應的單位特徵向量為
v_1 = \frac{1}{\sqrt{10}} \begin{pmatrix} 1 \\ 0 \\ 3 \end{pmatrix}, v_2 = \frac{1}{\sqrt{35}} \begin{pmatrix} 3 \\ 5 \\ -1 \end{pmatrix}, 以及 v_3 = \frac{1}{\sqrt{14}} \begin{pmatrix} -3 \\ 2 \\ 1 \end{pmatrix}。
設定 \gamma = \{v_1, v_2, v_3\} 以及
Q = \begin{pmatrix} \frac{1}{\sqrt{10}} & \frac{3}{\sqrt{35}} & \frac{-3}{\sqrt{14}} \\ 0 & \frac{5}{\sqrt{35}} & \frac{2}{\sqrt{14}} \\ \frac{3}{\sqrt{10}} & \frac{-1}{\sqrt{35}} & \frac{1}{\sqrt{14}} \end{pmatrix}。
如同例 8,Q 是一個將 \gamma-座標轉換為 \beta-座標的坐標變換矩陣,且
\psi_\gamma(H) = Q^t \psi_\beta(H) Q = Q^t A Q = \begin{pmatrix} 2 & 0 & 0 \\ 0 & 7 & 0 \\ 0 & 0 & 0 \end{pmatrix}。
由定理 6.36 的推論,如果 x = s_1 v_1 + s_2 v_2 + s_3 v_3,那麼
K(x) = 2s_1^2 + 7s_2^2。 (12)
我們現在準備將 (11) 轉換成一個涉及相對於 \gamma 坐標的方程式。設 x = (t_1, t_2, t_3) \in R^3,並假設 x = s_1 v_1 + s_2 v_2 + s_3 v_3。那麼,由定理 2.22(第 112 頁),
x = \begin{pmatrix} t_1 \\ t_2 \\ t_3 \end{pmatrix} = Q \begin{pmatrix} s_1 \\ s_2 \\ s_3 \end{pmatrix},
因此
t_1 = \frac{s_1}{\sqrt{10}} + \frac{3s_2}{\sqrt{35}} - \frac{3s_3}{\sqrt{14}},
t_2 = \frac{5s_2}{\sqrt{35}} + \frac{2s_3}{\sqrt{14}},
t_3 = \frac{3s_1}{\sqrt{10}} - \frac{s_2}{\sqrt{35}} + \frac{s_3}{\sqrt{14}}。
因此
3t_1 - 2t_2 - t_3 = -\frac{14s_3}{\sqrt{14}} = -\sqrt{14}s_3。
將 (11)、(12) 以及前面的方程式結合,我們得出:如果 x \in R^3 且 x = s_1 v_1 + s_2 v_2 + s_3 v_3,那麼 x \in \mathcal{S} 若且唯若
2s_1^2 + 7s_2^2 - \sqrt{14}s_3 + 14 = 0 或者 s_3 = \frac{\sqrt{14}}{7}s_1^2 + \frac{\sqrt{14}}{2}s_2^2 + \sqrt{14}。
因此,如果我們在 v_1, v_2 和 v_3 的方向上畫出新的坐標軸 x', y' 和 z',該方程式圖形的形狀改寫為
z' = \frac{\sqrt{14}}{7}(x')^2 + \frac{\sqrt{14}}{2}(y')^2 + \sqrt{14},
這是一個橢圓拋物面(見圖 6.7)。
二變數的二次型在確定實值函數的局部極值(極大值、極小值或鞍點)方面也有應用,因為可以使用二維版本泰勒定理 (Taylor's Theorem) 將二變數實值函數的增量逼近於二次型。
定理 6.37(二階導數測試 The Second Derivative Test)。 設 f(t_1, t_2, \dots, t_n) 為具有 n 個實變數的實值函數,其所有的三階偏導數皆存在且連續。設 p = (p_1, p_2, \dots, p_n) 為 f 的一個臨界點 (critical point),並設 A(p) 為 f 在 p 的海森矩陣 (Hessian matrix)。
(a) 如果 A(p) 的所有特徵值均為正,那麼 f 在 p 具有局部極小值。
(b) 如果 A(p) 的所有特徵值均為負,那麼 f 在 p 具有局部極大值。
(c) 如果 A(p) 至少有一個正特徵值與至少一個負特徵值,那麼 f 在 p 沒有局部極值 (p 被稱為 f 的一個鞍點 (saddle-point))。
(d) 如果 \text{rank}(A(p)) \lt n 且 A(p) 沒有同時具備正特徵值與負特徵值,那麼二階導數測試無法得出結論。
證明。 如果 p \ne 0,我們可以定義一個函數 g: R^n \rightarrow R 為
g(t_1, t_2, \dots, t_n) = f(t_1 + p_1, t_2 + p_2, \dots, p_n + t_n) - f(p)。
可以很容易驗證以下事實:
- 函數 f 在 p 有局部極大 [極小] 值若且唯若 g 在 0 = (0, 0, \dots, 0) 有局部極大 [極小] 值。
- g 在 0 的偏導數等於 f 在 p 的對應偏導數。
- 0 是 g 的一個臨界點。
- A_{ij}(p) = \frac{\partial^2 g(0)}{(\partial t_i)(\partial t_j)} 對於所有的 i 與 j。
基於這些事實,不失一般性地,我們可以假設 p = 0 且 f(p) = 0。
現在我們對 f 應用泰勒定理來得到 f 在 0 附近的一階近似。我們有
f(t_1, t_2, \dots, t_n) = f(0) + \sum_{i=1}^n \frac{\partial f(0)}{\partial t_i} t_i + \frac{1}{2} \sum_{i,j=1}^n \frac{\partial^2 f(0)}{(\partial t_i)(\partial t_j)} t_i t_j + S(t_1, t_2, \dots, t_n)
= \frac{1}{2} \sum_{i,j=1}^n \frac{\partial^2 f(0)}{(\partial t_i)(\partial t_j)} t_i t_j + S(t_1, t_2, \dots, t_n), (13)
其中 S 是 R^n 上的一個實值函數,滿足
\lim_{x \to 0} \frac{S(x)}{||x||^2} = \lim_{(t_1, t_2, \dots, t_n) \to 0} \frac{S(t_1, t_2, \dots, t_n)}{t_1^2 + t_2^2 + \dots + t_n^2} = 0。 (14)
設 K: R^n \rightarrow R 為由以下方程式定義的二次型
K \begin{pmatrix} t_1 \\ t_2 \\ \vdots \\ t_n \end{pmatrix} = \frac{1}{2} \sum_{i,j=1}^n \frac{\partial^2 f(0)}{(\partial t_i)(\partial t_j)} t_i t_j, (15)
H 為對應於 K 的對稱雙線性型,且 \beta 為 R^n 的標準有序基底。很容易驗證 \psi_\beta(H) = \frac{1}{2}A(p)。因為 A(p) 是對稱的,定理 6.20(第 381 頁)暗示存在一個正交矩陣 Q 使得
Q^t A(p) Q = \begin{pmatrix} \lambda_1 & 0 & \dots & 0 \\ 0 & \lambda_2 & \dots & 0 \\ \vdots & \vdots & & \vdots \\ 0 & 0 & \dots & \lambda_n \end{pmatrix}
是一個對角矩陣,其對角線元素為 A(p) 的特徵值。設 \gamma = \{v_1, v_2, \dots, v_n\} 為 R^n 的正交基底,其第 i 個向量為 Q 的第 i 行。那麼 Q 是將 \gamma-座標轉換為 \beta-座標的變換矩陣,並且由定理 6.33
\psi_\gamma(H) = Q^t \psi_\beta(H) Q = \frac{1}{2} Q^t A(p) Q = \begin{pmatrix} \frac{\lambda_1}{2} & 0 & \dots & 0 \\ 0 & \frac{\lambda_2}{2} & \dots & 0 \\ \vdots & \vdots & & \vdots \\ 0 & 0 & \dots & \frac{\lambda_n}{2} \end{pmatrix}。
假設 A(p) 不是零矩陣。那麼 A(p) 有非零特徵值。選擇 \epsilon \gt 0 使得 \epsilon \lt |\lambda_i|/2 對於所有的 \lambda_i \ne 0 成立。由 (14),存在 \delta \gt 0 使得對於任何滿足 0 \lt ||x|| \lt \delta 的 x \in R^n,都有 |S(x)| \lt \epsilon ||x||^2。考慮任何滿足 0 \lt ||x|| \lt \delta 的 x \in R^n。那麼,由 (13) 和 (15),
|f(x) - K(x)| = |S(x)| \lt \epsilon ||x||^2,
因此
K(x) - \epsilon ||x||^2 \lt f(x) \lt K(x) + \epsilon ||x||^2。 (16)
假設 x = \sum_{i=1}^n s_i v_i。那麼
||x||^2 = \sum_{i=1}^n s_i^2 以及 K(x) = \frac{1}{2} \sum_{i=1}^n \lambda_i s_i^2。
將這些方程式結合 (16),我們得到
\sum_{i=1}^n \left( \frac{1}{2}\lambda_i - \epsilon \right) s_i^2 \lt f(x) \lt \sum_{i=1}^n \left( \frac{1}{2}\lambda_i + \epsilon \right) s_i^2。 (17)
現在假設 A(p) 的所有特徵值都是正的。那麼 \frac{1}{2}\lambda_i - \epsilon \gt 0 對所有的 i 成立,因此,根據 (17) 的左側不等式,
f(0) = 0 \le \sum_{i=1}^n \left( \frac{1}{2}\lambda_i - \epsilon \right) s_i^2 \lt f(x)。
因此 f(0) \le f(x) 對於 ||x|| \lt \delta 成立,因此 f 在 0 具有局部極小值。透過使用 (17) 中右側不等式的相似論證,我們可以得出如果 A(p) 的所有特徵值都是負的,那麼 f 在 0 具有局部極大值。這確立了定理的 (a) 與 (b)。
接著,假設 A(p) 同時具備正與負的特徵值,比方說 \lambda_i \gt 0 且 \lambda_j \lt 0 對於某個 i 和 j 成立。那麼 \frac{1}{2}\lambda_i - \epsilon \gt 0 且 \frac{1}{2}\lambda_j + \epsilon \lt 0。設 s 為滿足 0 \lt |s| \lt \delta 的任意實數。將 x = s v_i 和 x = s v_j 分別代入 (17) 的左側不等式與右側不等式中,我們得到
f(0) = 0 \lt \left( \frac{1}{2}\lambda_i - \epsilon \right) s^2 \lt f(s v_i) 以及 f(s v_j) \lt \left( \frac{1}{2}\lambda_j + \epsilon \right) s^2 \lt 0 = f(0)。
因此 f 在任意接近 0 的地方皆能取到正值與負值;所以 f 在 0 既沒有局部極大值也沒有局部極小值。這確立了 (c)。
為了證明二階導數測試在 (d) 所述的條件下無法得出結論,考慮函數
f(t_1, t_2) = t_1^2 - t_2^4 以及 g(t_1, t_2) = t_1^2 + t_2^4
在 p=0。在兩種情況下,函數在 p 都有一個臨界點,並且
A(p) = \begin{pmatrix} 2 & 0 \\ 0 & 0 \end{pmatrix}。
然而,f 在 0 並沒有局部極值,而 g 在 0 卻有一個局部極小值。
席維斯特慣性定律 (Sylvester's Law of Inertia)
任何一個雙線性型的兩個矩陣表示都具有相同的秩 (rank),因為秩在同餘關係下是被保持的。因此我們可以定義一個雙線性型的秩 (rank of a bilinear form) 為其任何一個矩陣表示的秩。如果一個矩陣表示是對角矩陣,那麼其秩等於矩陣中非零對角線元素的數量。
我們將分析侷限於有限維實向量空間上的對稱雙線性型。每一個這樣的型式都有一個對角矩陣表示,其中的對角線元素可能為正、負或零。雖然這些元素並不唯一,但我們證明了為正的元素數量與為負的元素數量是唯一的。也就是說,它們獨立於對角表示的選擇。這個結果稱為席維斯特慣性定律 (Sylvester's law of inertia)。我們證明了這項定律並應用它來描述同餘對稱實矩陣的等價類。
定理 6.38(席維斯特慣性定律 Sylvester's Law of Inertia)。 設 H 為有限維實向量空間 V 上的對稱雙線性型。那麼 H 的任何對角矩陣表示中,正對角線元素的數量以及負對角線元素的數量都是各自獨立於該對角表示的。
證明。 假設 \beta 和 \gamma 為 V 的兩個有序基底,它們決定了 H 的對角表示。不失一般性地,我們可以假設 \beta 和 \gamma 的順序使得每個對角線元素都依照正、負、零的順序排列。只要證明這兩種表示法都具有相同數量的正元素即可,因為非零元素的總數等於秩,而負元素的數量等於秩與正元素數量之間的差值。設 p 與 q 分別為 H 相對於 \beta 和 \gamma 的矩陣表示中正對角線元素的數量。我們假設 p \ne q 並得出一個矛盾。不失一般性地,假設 p \lt q。令
\beta = \{v_1, v_2, \dots, v_p, \dots, v_r, \dots, v_n\} 且 \gamma = \{w_1, w_2, \dots, w_q, \dots, w_r, \dots, w_n\},
其中 r 是 H 的秩且 n = \dim(V)。令 L: V \rightarrow R^{p+r-q} 為由以下定義的映射:
L(x) = (H(x, v_1), H(x, v_2), \dots, H(x, v_p), H(x, w_{q+1}), \dots, H(x, w_r))。
很容易驗證 L 是線性的且 \text{rank}(L) \le p + r - q。因此
\text{nullity}(L) \ge n - (p+r-q) \gt n - r。
所以存在一個非零向量 v_0 使得 v_0 \notin \text{span}(\{v_{r+1}, v_{r+2}, \dots, v_n\}),但 v_0 \in N(L)。因為 v_0 \in N(L),可得出 H(v_0, v_i) = 0 對於 i \le p 且 H(v_0, w_i) = 0 對於 q \lt i \le r 成立。假設
v_0 = \sum_{j=1}^n a_j v_j = \sum_{j=1}^n b_j w_j。
對於任何 i \le p,
H(v_0, v_i) = H \left( \sum_{j=1}^n a_j v_j, v_i \right) = \sum_{j=1}^n a_j H(v_j, v_i) = a_i H(v_i, v_i)。
但對於 i \le p,我們有 H(v_i, v_i) \gt 0 且 H(v_0, v_i) = 0,所以 a_i = 0。同理,b_i = 0 對於 q+1 \le i \le r 成立。因為 v_0 不在 \{v_{r+1}, v_{r+2}, \dots, v_n\} 的生成空間內,所以一定有 a_i \ne 0 對於某個 p \lt i \le r 成立。因此
H(v_0, v_0) = H \left( \sum_{j=1}^n a_j v_j, \sum_{i=1}^n a_i v_i \right) = \sum_{j=1}^n a_j^2 H(v_j, v_j) = \sum_{j=p+1}^r a_j^2 H(v_j, v_j) \lt 0。
此外,
H(v_0, v_0) = H \left( \sum_{j=1}^n b_j w_j, \sum_{i=1}^n b_i w_i \right) = \sum_{j=1}^n b_j^2 H(w_j, w_j) = \sum_{j=1}^q b_j^2 H(w_j, w_j) \ge 0。
所以 H(v_0, v_0) \lt 0 且 H(v_0, v_0) \ge 0,這是一個矛盾。我們得出結論 p = q。
定義。 實向量空間上對稱雙線性型的對角表示中,正對角線元素的數量稱為該形式的指數 (index)。對稱雙線性型對角表示中正對角線元素的數量與負對角線元素的數量之差稱為該形式的符號差 (signature)。這三個名詞:秩 (rank)、指數 (index) 與 符號差 (signature) 被稱為雙線性型的不變量 (invariants),因為它們相對於矩陣表示是不變的。同樣的這些術語也適用於相關的二次型。請注意,這三個不變量中任何兩個的值都可以決定第三個的值。
例 10
對應於例 9 的二次型 K 的雙線性型,有一個 3 \times 3 的對角矩陣表示,其對角線元素為 2, 7 和 0。因此 K 的秩、指數與符號差皆為 2。
例 11
對應於二次型 K(x,y) = x^2 - y^2 (在 R^2 上) 的雙線性型,其相對於標準有序基底的矩陣表示是一個對角線元素為 1 和 -1 的對角矩陣。因此 K 的秩為 2,K 的指數為 1,K 的符號差為 0。
由於同餘關係與雙線性型密切相關,我們可以應用席維斯特慣性定律來研究在實對稱矩陣集合上的這個關係。設 A 為一個 n \times n 實對稱矩陣,並假設 D 和 E 皆為同餘於 A 的對角矩陣。根據推論 3(定理 6.32),A 是由 H(x,y) = x^t Ay 於 R^n 上所定義的雙線性型 H 相對於 R^n 標準有序基底的矩陣表示。因此,慣性定律告訴我們 D 和 E 具有相同數量的正負對角線元素。我們可以將此結果陳述為矩陣版本的席維斯特慣性定律。
推論 1 (矩陣的席維斯特慣性定律)。 設 A 為實對稱矩陣。那麼在任何同餘於 A 的對角矩陣中,正對角線元素的數量以及負對角線元素的數量皆獨立於該對角矩陣的選擇。
定義。 設 A 為實對稱矩陣,且設 D 為同餘於 A 的對角矩陣。D 中正對角線元素的數量稱為 A 的指數 (index)。D 中正對角線元素與負對角線元素的數量差值稱為 A 的符號差 (signature)。如前所述,一個矩陣的秩、指數與符號差被稱為該矩陣的不變量 (invariants),而這些不變量中任何兩個的值決定了第三個的值。
這些不變量中的任何兩個可用來決定同餘實對稱矩陣的等價類。
推論 2。 兩個實對稱 n \times n 矩陣是同餘的若且唯若它們具有相同的不變量。
證明。 如果 A 和 B 為同餘的 n \times n 對稱矩陣,那麼它們都同餘於同一個對角矩陣,因此它們必定具有相同的不變量。
反之,假設 A 和 B 都是具有相同不變量的 n \times n 對稱矩陣。令 D 和 E 為分別同餘於 A 和 B,且選擇使得對角線元素按正、負、零順序排列的對角矩陣。(習題 23 允許我們這樣做。)由於 A 和 B 具有相同的不變量,因此 D 和 E 也一樣。設 p 和 r 分別表示 D 和 E 兩者的指數與秩。令 d_i 表示 D 的第 i 個對角線元素,並令 Q 為第 i 個對角線元素 q_i 如下定義的 n \times n 對角矩陣:
q_i = \begin{cases} \frac{1}{\sqrt{d_i}} & \text{若 } 1 \le i \le p \\ \frac{1}{\sqrt{-d_i}} & \text{若 } p \lt i \le r \\ 1 & \text{若 } r \lt i \text{。} \end{cases}
那麼 Q^t D Q = J_{pr},其中
J_{pr} = \begin{pmatrix} I_p & O & O \\ O & -I_{r-p} & O \\ O & O & O \end{pmatrix}。
因此 A 同餘於 J_{pr}。同理,B 同餘於 J_{pr},因此 A 同餘於 B。
矩陣 J_{pr} 充當了實對稱矩陣理論中的標準型 (canonical form)。下一個包含在推論 2 證明中的推論描述了 J_{pr} 的角色。
推論 3。 一個實對稱 n \times n 矩陣 A 具有指數 p 與秩 r,若且唯若 A 同餘於 J_{pr}(如同剛才的定義)。
例 12
設
A = \begin{pmatrix} 1 & 1 & -3 \\ -1 & 2 & 1 \\ 3 & 1 & 1 \end{pmatrix}, B = \begin{pmatrix} 1 & 2 & 1 \\ 2 & 3 & 2 \\ 1 & 2 & 1 \end{pmatrix}, 且 C = \begin{pmatrix} 1 & 0 & 1 \\ 0 & 1 & 2 \\ 1 & 2 & 1 \end{pmatrix}。
我們應用推論 2 來判斷矩陣 A, B 和 C 的哪幾對是同餘的。
矩陣 A 是例 6 中的 3 \times 3 矩陣,在那裡顯示了 A 同餘於對角線元素為 1, 1 和 -24 的對角矩陣。因此 A 秩為 3 且指數為 2。使用例 6 的方法(不需計算 Q),可以證明 B 和 C 分別同餘於對角矩陣
\begin{pmatrix} 1 & 0 & 0 \\ 0 & -1 & 0 \\ 0 & 0 & -1 \end{pmatrix} 以及 \begin{pmatrix} 1 & 0 & 0 \\ 0 & 1 & 0 \\ 0 & 0 & -4 \end{pmatrix}。
因此,A 和 C 的秩都是 3 且指數為 2,而 B 的秩是 3 且指數為 1。我們得出結論,A 和 C 是同餘的,但 B 與 A 及 C 皆不同餘。
習題 6.8 (EXERCISES)
1. 將下列敘述標示為真 (True) 或假 (False)。
(a) 每一個二次型都是雙線性型。(False)
(b) 如果兩個矩陣同餘,它們具有相同的特徵值。(False)
(c) 對稱雙線性型具有對稱矩陣表示。(True)
(d) 任何對稱矩陣皆同餘於一個對角矩陣。(False) (譯註:若體之特徵值不為2才成立)
(e) 兩個對稱雙線性型的和是對稱雙線性型。(True)
(f) 若在特徵值不為 2 的體上兩個對稱矩陣具有相同的特徵多項式,則它們是同一雙線性型的矩陣表示。(False)
(g) 存在一個雙線性型 H 使得對所有的 x 和 y 皆有 H(x,y) \ne 0。(False)
(h) 如果 V 是一個維度為 n 的向量空間,那麼 \dim(\mathcal{B}(V)) = 2n。(False)
(i) 設 H 為有限維向量空間 V 上的雙線性型,其中 \dim(V) \gt 1。對任何 x \in V,存在 y \in V 使得 y \ne 0 但 H(x,y) = 0。(True)
(j) 如果 H 是有限維實內積空間 V 上的任何雙線性型,那麼存在 V 的一個有序基底 \beta 使得 \psi_\beta(H) 是一個對角矩陣。(False)
2. 證明在第 420 頁的性質 1, 2, 3 與 4。
3. (a) 證明兩個雙線性型的和是一個雙線性型。
(b) 證明純量與雙線性型的乘積是一個雙線性型。
(c) 證明定理 6.31。
4. 判斷下列哪些映射是雙線性型。證明你的答案。
(a) 設 V = C 為閉區間 $$ 上連續實值函數的空間。對於 f,g \in V,定義
H(f,g) = \int_0^1 f(t)g(t) dt。
(b) 設 V 為佈於 F 的向量空間,並設 J \in \mathcal{B}(V) 為非零。定義 H: V \times V \rightarrow F 為
H(x,y) = [J(x,y)]^2 對於所有 x,y \in V 成立。
(c) 定義 H: R \times R \rightarrow R 為 H(t_1, t_2) = t_1 + 2t_2。
(d) 將 R^2 的向量視為行向量,並設 H: R^2 \times R^2 \rightarrow R 為由 H(x,y) = \det(x,y) 定義的函數,即以 x 和 y 為行之 2 \times 2 矩陣的行列式。
(e) 設 V 為一實內積空間,並設 H: V \times V \rightarrow R 為定義成 H(x,y) = \langle x,y \rangle 對於 x,y \in V 成立的函數。
(f) 設 V 為一複內積空間,並設 H: V \times V \rightarrow C 為定義成 H(x,y) = \langle x,y \rangle 對於 x,y \in V 成立的函數。
5. 驗證給定的每個映射都是雙線性型。然後計算其相對於給定有序基底 \beta 的矩陣表示。
(a) H: R^3 \times R^3 \rightarrow R,其中
H \left( \begin{pmatrix} a_1 \\ a_2 \\ a_3 \end{pmatrix}, \begin{pmatrix} b_1 \\ b_2 \\ b_3 \end{pmatrix} \right) = a_1 b_1 - 2a_1 b_2 + a_2 b_1 - a_3 b_3
且
\beta = \left\{ \begin{pmatrix} 1 \\ 0 \\ 1 \end{pmatrix}, \begin{pmatrix} 1 \\ 0 \\ -1 \end{pmatrix}, \begin{pmatrix} 0 \\ 1 \\ 0 \end{pmatrix} \right\}。
(b) 設 V = M_{2 \times 2}(R) 且
\beta = \left\{ \begin{pmatrix} 1 & 0 \\ 0 & 0 \end{pmatrix}, \begin{pmatrix} 0 & 1 \\ 0 & 0 \end{pmatrix}, \begin{pmatrix} 0 & 0 \\ 1 & 0 \end{pmatrix}, \begin{pmatrix} 0 & 0 \\ 0 & 1 \end{pmatrix} \right\}。
定義 H: V \times V \rightarrow R 為 H(A,B) = \text{tr}(A) \cdot \text{tr}(B)。
(c) 設 \beta = \{\cos t, \sin t, \cos 2t, \sin 2t\}。那麼 \beta 是 V = \text{span}(\beta) 的一個有序基底,V 是 R 上所有連續函數空間的一個四維子空間。設 H: V \times V \rightarrow R 為定義成 H(f,g) = f'(0) \cdot g''(0) 的函數。
6. 設 H: R^2 \times R^2 \rightarrow R 為由下式定義的函數:
H \left( \begin{pmatrix} a_1 \\ a_2 \end{pmatrix}, \begin{pmatrix} b_1 \\ b_2 \end{pmatrix} \right) = a_1 b_2 + a_2 b_1 對於 \begin{pmatrix} a_1 \\ a_2 \end{pmatrix}, \begin{pmatrix} b_1 \\ b_2 \end{pmatrix} \in R^2 成立。
(a) 證明 H 是一個雙線性型。
(b) 找出 2 \times 2 矩陣 A 使得對所有的 x,y \in R^2 都有 H(x,y) = x^t A y。
7. 設 V 和 W 為佈於相同體上的向量空間,並設 T: V \rightarrow W 為一線性變換。對於任何 H \in \mathcal{B}(W),定義 \widehat{T}(H): V \times V \rightarrow F 為 \widehat{T}(H)(x,y) = H(T(x), T(y)) 對所有的 x, y \in V 成立。證明以下結果。
(a) 如果 H \in \mathcal{B}(W),那麼 \widehat{T}(H) \in \mathcal{B}(V)。
(b) \widehat{T}: \mathcal{B}(W) \rightarrow \mathcal{B}(V) 是一個線性變換。
(c) 如果 T 是同構的,那麼 \widehat{T} 也是。
8. 沿用定理 6.32 的符號。
(a) 證明對於任何有序基底 \beta,\psi_\beta 是線性的。
(b) 設 \beta 為佈於 F 上的 n 維空間 V 的一個有序基底,並設 \phi_\beta: V \rightarrow F^n 為 V 相對於 \beta 的標準表示。對於 A \in M_{n \times n}(F),定義 H: V \times V \rightarrow F 為 H(x,y) = [\phi_\beta(x)]^t A [\phi_\beta(y)]。證明 H \in \mathcal{B}(V)。你能否將此建立為習題 7 的推論?
(c) 證明 (b) 的逆命題:設 H 為 V 上的一個雙線性型。如果 A = \psi_\beta(H),那麼 H(x,y) = [\phi_\beta(x)]^t A [\phi_\beta(y)]。
9. (a) 證明定理 6.32 的推論 1。
(b) 對於有限維向量空間 V,描述一種找出 \mathcal{B}(V) 的有序基底的方法。
10. 證明定理 6.32 的推論 2。
11. 證明定理 6.32 的推論 3。
12. 證明同餘關係是一個等價關係。
13. 利用定理 6.32 的推論 2 與定理 2.22(b) 來獲得定理 6.33 的另一個證明。
14. 設 V 為有限維向量空間且 H \in \mathcal{B}(V)。證明,對於 V 的任何有序基底 \beta 和 \gamma,\text{rank}(\psi_\beta(H)) = \text{rank}(\psi_\gamma(H))。
15. 證明以下結果。
(a) 任何方陣的對角矩陣都是對稱的。
(b) 任何同餘於對角矩陣的矩陣都是對稱的。
(c) 定理 6.35 的推論。
16. 設 V 為特徵值不為 2 的體 F 上的向量空間,並設 H 為 V 上的對稱雙線性型。證明如果 K(x) = H(x,x) 是與 H 關聯的二次型,那麼,對於所有的 x, y \in V,
H(x,y) = \frac{1}{2}[K(x+y) - K(x) - K(y)]。
17. 對於每個給定在實內積空間 V 上的二次型 K,找出一個對稱雙線性型 H 使得對所有的 x \in V,K(x) = H(x,x)。然後找出 V 的一個正交規範基底 \beta,使得 \psi_\beta(H) 是一個對角矩陣。
(a) K: R^2 \rightarrow R 定義為 K\binom{t_1}{t_2} = -2t_1^2 + 4t_1t_2 + t_2^2
(b) K: R^2 \rightarrow R 定義為 K\binom{t_1}{t_2} = 7t_1^2 - 8t_1t_2 + t_2^2
(c) K: R^3 \rightarrow R 定義為 K\begin{pmatrix} t_1 \\ t_2 \\ t_3 \end{pmatrix} = 3t_1^2 + 3t_2^2 + 3t_3^2 - 2t_1t_3
18. 設 S 為所有滿足以下條件之 (t_1, t_2, t_3) \in R^3 的集合
3t_1^2 + 3t_2^2 + 3t_3^2 - 2t_1t_3 + 2\sqrt{2}(t_1 + t_3) + 1 = 0。
尋找一個 R^3 的正交規範基底 \beta,使得 S 上的點相對於 \beta 的坐標所關聯的方程式變得更簡單。以幾何方式描述 S。
19. 證明定理 6.37(d) 的下列細部改進。
(a) 如果 0 \lt \text{rank}(A) \lt n 且 A 沒有負的特徵值,那麼 f 在 p 沒有局部極大值。
(b) 如果 0 \lt \text{rank}(A) \lt n 且 A 沒有正的特徵值,那麼 f 在 p 沒有局部極小值。
20. 證明二階導數測試的以下變形(適用於 n=2 的情況):定義
D = \left[ \frac{\partial^2 f(p)}{\partial t_1^2} \right] \left[ \frac{\partial^2 f(p)}{\partial t_2^2} \right] - \left[ \frac{\partial^2 f(p)}{\partial t_1 \partial t_2} \right]^2。
(a) 如果 D \gt 0 且 \partial^2 f(p) / \partial t_1^2 \gt 0,那麼 f 在 p 具有局部極小值。
(b) 如果 D \gt 0 且 \partial^2 f(p) / \partial t_1^2 \lt 0,那麼 f 在 p 具有局部極大值。
(c) 如果 D \lt 0,那麼 f 在 p 沒有局部極值。
(d) 如果 D = 0,那麼該測試無法得出結論。
提示:觀察到,如同在定理 6.37 中一樣,D = \det(A) = \lambda_1 \lambda_2,其中 \lambda_1 和 \lambda_2 是 A 的特徵值。
21. 設 A 和 E 都在 M_{n \times n}(F) 中,且 E 是一個基本矩陣。在 3.1 節中,證明了 AE 可以藉由對 A 執行基本行運算來獲得。證明 E^t A 可以藉由對 A 的列而非對 A 的行執行相同基本運算來獲得。提示:注意 E^t A = (A^t E)^t。
22. 對於每個取自 R 且為對稱矩陣的 A,尋找一個對角矩陣 D 與一個可逆矩陣 Q 使得 Q^t A Q = D。
(a) \begin{pmatrix} 1 & 3 \\ 3 & 2 \end{pmatrix}
(b) \begin{pmatrix} 0 & 1 \\ 1 & 0 \end{pmatrix}
(c) \begin{pmatrix} 3 & 1 & 2 \\ 1 & 4 & 0 \\ 2 & 0 & -1 \end{pmatrix}
(b) 的提示:使用除了交換行以外的其他基本運算。
23. 證明如果一個對角矩陣的對角線元素被重新排列 (permuted),那麼所得到的對角矩陣同餘於原來的對角矩陣。
24. 設 T 為實內積空間 V 上的一個線性算子,並定義 H: V \times V \rightarrow R 為 H(x,y) = \langle x, T(y) \rangle 對所有 x,y \in V 成立。
(a) 證明 H 是一個雙線性型。
(b) 證明 H 是對稱的若且唯若 T 是自伴的。
(c) 為了使 H 成為 V 上的內積,T 必須具備什麼性質?
(d) 解釋如果 V 是一個複內積空間,為何 H 可能無法成為一個雙線性型。
25. 證明習題 24(a) 的逆命題:設 V 是一個有限維實內積空間,且設 H 為 V 上的一個雙線性型。那麼存在唯一的一個線性算子 T 在 V 上使得對所有 x,y \in V 皆有 H(x,y) = \langle x, T(y) \rangle 成立。提示:選擇 V 的一個正交規範基底 \beta,設 A = \psi_\beta(H),並令 T 為 V 上使得 [T]_\beta = A 的線性算子。造訪 goo.gl/bGAfSy 以獲得解答。
26. 證明 n \times n 實對稱矩陣中不同餘的等價類數量為 \frac{(n+1)(n+2)}{2}。
6.9* 愛因斯坦的狹義相對論 (EINSTEIN'S SPECIAL THEORY OF RELATIVITY)
作為十九世紀後半葉進行的物理實驗(最著名的是 1887 年的邁克生-莫立實驗)的結果,物理學家得出一個結論:測量光速 c 所得的結果與用來測量的儀器速度無關。例如,假設一位實驗者在地球上測量從太陽發出的光速,發現它是每秒 186,000 英里。現在假設實驗者將測量設備放置在一艘以每秒 100,000 英里的速度背離太陽行駛的太空船中。從太空船上重複相同的實驗會得出相同的結果:光相對於太空船的傳播速度是每秒 186,000 英里,而不是人們預期的每秒 86,000 英里!
這個啟示導致了一種關聯用於定位時空事件的座標系的新方法。其結果就是阿爾伯特·愛因斯坦的狹義相對論 (special theory of relativity)。在本節中,我們透過線性代數的觀點來發展愛因斯坦理論的本質。
基本問題是比較兩個不同的慣性(非加速)座標系 S 和 S',這兩個座標系在以下假設下相對於彼此運動:在任一系統中測量到的光速是相同的。我們假設 S' 相對於 S 以等速度運動(從 S 測量)。
為了簡化問題,我們假設這兩個座標系具有平行的座標軸並共用同一個 x 軸,而且 S' 相對於 S 的運動是沿著這個公共軸進行的。(見圖 6.8。)
我們還假設在空間中放置了兩個時鐘 C 和 C',使得 C 相對於 S 是靜止的,而 C' 相對於 S' 是靜止的。這些時鐘給出的讀數是單位為秒的實數。它們被校準為:在 S 和 S' 的原點重合的瞬間,兩者給出的讀數皆為 0。
給定任何事件 p(其發生的位置與時間可以被描述的某件事),我們可以為它指定一組時空座標 (space-time coordinates)。例如,如果 p 是一個相對於 S 發生在位置 (x, y, z) 且在時鐘 C 讀數為 t 時的事件,我們可以為 p 指定座標集
\begin{pmatrix} x \\ y \\ z \\ t \end{pmatrix}。
這個有序四元組被稱為 p 相對於 S 和 C 的時空座標。同樣地,p 有一組相對於 S' 和 C' 的時空座標
\begin{pmatrix} x' \\ y' \\ z' \\ t' \end{pmatrix}。
因為運動是沿著共同的 x 軸進行的,而 x 軸位於共同的 xy 平面內,所以 p 的時空座標的第三個分量總是零。因此我們只考慮 p 的第一、第二和第四個座標,並分別寫成
\begin{pmatrix} x \\ y \\ t \end{pmatrix} 與 \begin{pmatrix} x' \\ y' \\ t' \end{pmatrix}
來表示事件 p 分別相對於 S 和 S' 的時空座標。
正如我們所提到的,我們的時間單位是秒。我們對物體速度 v 的測量,是它(以每秒英里數表示的)速度與以相同單位表示的光速(大約每秒 186,000 英里)的比值。例如,如果 S' 相對於 S 以每秒 18,600 英里的速度移動,且光速 c 是每秒 186,000 英里,那麼 S' 相對於 S 的速度 v 的值將會是 v = 0.1。基於這個原因,光速 c 的值為 1。
對於一個固定的速度 v,令 T_v: R^3 \rightarrow R^3 為由下式定義的映射:
T_v \begin{pmatrix} x \\ y \\ t \end{pmatrix} = \begin{pmatrix} x' \\ y' \\ t' \end{pmatrix},
其中
\begin{pmatrix} x \\ y \\ t \end{pmatrix} 與 \begin{pmatrix} x' \\ y' \\ t' \end{pmatrix}
分別是同一個事件相對於 S 與 C,以及相對於 S' 與 C' 的時空座標。
在接下來的內容中,我們提出四個假設:
- S' 的原點沿著共同的 x 軸正方向,以等速度 v \gt 0 相對於 S 移動。
- S 的原點沿著共同的 x' 軸負方向,以等速度 -v \lt 0 相對於 S' 移動。
- T_v 是一個線性同構 (linear isomorphism)。
- 任何光束的速度,當使用 S 中的時鐘 C 和 S' 中的時鐘 C' 在 S 或 S' 中測量時,永遠都是 c = 1。
由於運動嚴格沿著 x 軸進行,且我們假設 y 軸不受影響,我們得到對於任何 x, y 和 t,存在 x' 和 t' 使得
T_v \begin{pmatrix} x \\ y \\ t \end{pmatrix} = \begin{pmatrix} x' \\ y \\ t' \end{pmatrix} 且 T_v \begin{pmatrix} 0 \\ y \\ 0 \end{pmatrix} = \begin{pmatrix} 0 \\ y \\ 0 \end{pmatrix}。
我們本節的目標是計算 T_v 相對於 R^3 標準基底的矩陣表示。
定理 6.39。 考慮 R^3 的標準有序基底 \{e_1, e_2, e_3\}。那麼
(a) T_v(e_2) = e_2。
(b) T_v 將 \text{span}(\{e_1, e_3\}) 映射到其自身。
(c) T_v^* 將 \text{span}(\{e_1, e_3\}) 映射到其自身。
證明。 (a) 和 (b) 部分可立即從前面的方程式得出。
對於 i = 1 與 i = 3,
\langle T_v^*(e_i), e_2 \rangle = \langle e_i, T_v(e_2) \rangle = \langle e_i, e_2 \rangle = 0,
因此得出 (c)。
假設,在 S 和 S' 的原點重合的瞬間,從它們共同的原點發出了一道閃光。這道閃光的事件當相對於 S 和 C 或相對於 S' 和 C' 測量時,具有時空座標
\begin{pmatrix} 0 \\ 0 \\ 0 \end{pmatrix}。
令 P 為 xy 平面上所有事件的集合,這些事件的時空座標
\begin{pmatrix} x \\ y \\ t \end{pmatrix}
相對於 S 和 C 滿足:閃光在 t 時刻(如 C 所測量)在共同 xy 平面上的點 (x, y)(相對於 S 所測量)是可被觀察到的。我們用 x, y 與 t 來刻劃 P。因為光速為 1,在任何時間 t \ge 0,從平面上任何距離 S 的原點(如在 S 上測量)為 t \cdot 1 = t 的點都可以觀察到閃光。這些正好是 xy 平面上滿足 x^2 + y^2 = t^2 或 x^2 + y^2 - t^2 = 0 的點。因此,一個事件位於 P 若且唯若它相對於 S 和 C 的時空座標
\begin{pmatrix} x \\ y \\ t \end{pmatrix} \quad (t \ge 0)
滿足方程式 x^2 + y^2 - t^2 = 0。因為在任一座標系中測量到的光速都是相同的,我們可以類似地用相對於 S' 和 C' 的時空座標來刻劃 P:一個事件位於 P 若且唯若,相對於 S' 和 C',其時空座標
\begin{pmatrix} x' \\ y \\ t' \end{pmatrix} \quad (t' \ge 0)
滿足方程式 (x')^2 + y^2 - (t')^2 = 0。
令
A = \begin{pmatrix} 1 & 0 & 0 \\ 0 & 1 & 0 \\ 0 & 0 & -1 \end{pmatrix}。
定理 6.40。 如果 \langle L_A(w), w \rangle = 0 對於某個 w \in R^3 成立,那麼
\langle T_v^* L_A T_v(w), w \rangle = 0。
證明。 令
w = \begin{pmatrix} x \\ y \\ t \end{pmatrix} \in R^3,
並假設 \langle L_A(w), w \rangle = 0。
情況 1. t \ge 0。因為 \langle L_A(w), w \rangle = x^2 + y^2 - t^2,w 向量給出了 P 中某事件相對於 S 和 C 的座標。因為
\begin{pmatrix} x' \\ y \\ t' \end{pmatrix}
是同一個事件相對於 S' 和 C' 的時空座標,定理 6.40 前面的討論得出
(x')^2 + y^2 - (t')^2 = 0。
因此 \langle T_v^* L_A T_v(w), w \rangle = \langle L_A T_v(w), T_v(w) \rangle = (x')^2 + y^2 - (t')^2 = 0,結論成立。
情況 2. t \lt 0。此證明可藉由對 -w 應用情況 1 來得出。
我們現在繼續推導關於 T_v 的資訊。令
w_1 = \begin{pmatrix} 1 \\ 0 \\ 1 \end{pmatrix} 以及 w_2 = \begin{pmatrix} 1 \\ 0 \\ -1 \end{pmatrix}。
顯然 \{w_1, w_2\} 是 \text{span}(\{e_1, e_3\}) 的一個正交基底。下一個結果告訴我們更多資訊。
定理 6.41。 存在一個非零純量 a 使得 T_v^* L_A T_v(w_1) = aw_2 以及 T_v^* L_A T_v(w_2) = aw_1。
證明。 因為 \langle L_A(w_1), w_1 \rangle = 0,由定理 6.40 可知 \langle T_v^* L_A T_v(w_1), w_1 \rangle = 0。因此 T_v^* L_A T_v(w_1) 正交於 w_1。因為 \{w_1, w_2\} 是 \text{span}(\{e_1, e_3\}) 的正交基底,而且 T_v^*、L_A 與 T_v 各自都將這個生成空間映射到其自身,由此推得 T_v^* L_A T_v(w_1) 必定是 w_2 的某個倍數,也就是說,對於某個純量 a 有 T_v^* L_A T_v(w_1) = aw_2。因為 T_v 與 A 是可逆的,所以 T_v^* L_A T_v 也是可逆的。因此 a \ne 0。
同理,存在一個非零純量 b 使得 T_v^* L_A T_v(w_2) = bw_1。
最後,我們證明 a = b。因為 T_v^* L_A T_v(w_1) = aw_2,我們有
2a = \langle T_v^* L_A T_v(w_1), w_2 \rangle = \langle w_1, T_v^* L_A T_v(w_2) \rangle = \langle w_1, bw_1 \rangle = 2b。
所以 a = b。
實際上,a = b = 1,正如我們在下一個結果中所見。
在本節的其餘部分,令 B_v = [T_v]_\beta,其中 \beta 是 R^3 的標準有序基底。
定理 6.42。 給定 B_v = [T_v]_\beta,如上所定義,
(a) B_v^* A B_v = A。
(b) T_v^* L_A T_v = L_A。
證明。 因為
e_1 = \frac{1}{2}(w_1 + w_2) 且 e_3 = \frac{1}{2}(w_1 - w_2),
從定理 6.41 可推導出
T_v^* L_A T_v(e_1) = ae_1 且 T_v^* L_A T_v(e_3) = -ae_3。
此外,T_v^* L_A T_v(e_2) = e_2,因此
B_v^* A B_v = \begin{pmatrix} a & 0 & 0 \\ 0 & 1 & 0 \\ 0 & 0 & -a \end{pmatrix}。
令
w = \begin{pmatrix} 0 \\ 1 \\ 1 \end{pmatrix}。
那麼 \langle L_A(w), w \rangle = 0,因此由定理 6.40
0 = \langle T_v^* L_A T_v(w), w \rangle = \langle B_v^* A B_v w, w \rangle = 1 - a。
因此 a = 1。作為其結果,B_v^* A B_v = A。這證明了 (a)。(b) 部分也隨之得出。
現在考慮在 S 和 S' 的原點重合之後 1 秒鐘(如時鐘 C 所測量)的情況。因為 S' 的原點正沿著 x 軸以在 S 中測得的速度 v 移動,它相對於 S 和 C 的時空座標為
\begin{pmatrix} v \\ 0 \\ 1 \end{pmatrix}。
同樣地,S' 原點相對於 S' 和 C' 的時空座標必定是
\begin{pmatrix} 0 \\ 0 \\ t' \end{pmatrix}
對於某個 t' \gt 0。因此我們有
T_v \begin{pmatrix} v \\ 0 \\ 1 \end{pmatrix} = \begin{pmatrix} 0 \\ 0 \\ t' \end{pmatrix} 對於某個 t' \gt 0。 (18)
由定理 6.42
\langle T_v^* L_A T_v \begin{pmatrix} v \\ 0 \\ 1 \end{pmatrix}, \begin{pmatrix} v \\ 0 \\ 1 \end{pmatrix} \rangle = \langle L_A \begin{pmatrix} v \\ 0 \\ 1 \end{pmatrix}, \begin{pmatrix} v \\ 0 \\ 1 \end{pmatrix} \rangle = v^2 - 1。 (19)
但同時
\langle T_v^* L_A T_v \begin{pmatrix} v \\ 0 \\ 1 \end{pmatrix}, \begin{pmatrix} v \\ 0 \\ 1 \end{pmatrix} \rangle = \langle L_A T_v \begin{pmatrix} v \\ 0 \\ 1 \end{pmatrix}, T_v \begin{pmatrix} v \\ 0 \\ 1 \end{pmatrix} \rangle
= \langle L_A \begin{pmatrix} 0 \\ 0 \\ t' \end{pmatrix}, \begin{pmatrix} 0 \\ 0 \\ t' \end{pmatrix} \rangle = -(t')^2。 (20)
結合 (19) 和 (20),我們得出結論 v^2 - 1 = -(t')^2,或
t' = \sqrt{1 - v^2}。 (21)
因此,由 (18) 和 (21),我們獲得
T_v \begin{pmatrix} v \\ 0 \\ 1 \end{pmatrix} = \begin{pmatrix} 0 \\ 0 \\ \sqrt{1 - v^2} \end{pmatrix}。 (22)
接著,回想 S 的原點在 S' 測量下,沿著 S' 的 x' 軸負方向以等速度 -v \lt 0 移動。因此,在 S 和 S' 的原點重合後(以時鐘 C 測量)的 1 秒鐘,存在一個時間 t'' \gt 0(以時鐘 C' 測量)使得
T_v \begin{pmatrix} 0 \\ 0 \\ 1 \end{pmatrix} = \begin{pmatrix} -vt'' \\ 0 \\ t'' \end{pmatrix}。 (23)
從 (23) 中,透過類似 (22) 推導的方式,可推得出
t'' = \frac{1}{\sqrt{1 - v^2}}。 (24)
因此,由 (23) 與 (24),
T_v \begin{pmatrix} 0 \\ 0 \\ 1 \end{pmatrix} = \begin{pmatrix} \frac{-v}{\sqrt{1 - v^2}} \\ 0 \\ \frac{1}{\sqrt{1 - v^2}} \end{pmatrix}。 (25)
利用 (22)、(25) 以及定理 6.39,現在很容易證明以下結果。
定理 6.43。 令 \beta 為 R^3 的標準有序基底。則
[T_v]_\beta = B_v = \begin{pmatrix} \frac{1}{\sqrt{1 - v^2}} & 0 & \frac{-v}{\sqrt{1 - v^2}} \\ 0 & 1 & 0 \\ \frac{-v}{\sqrt{1 - v^2}} & 0 & \frac{1}{\sqrt{1 - v^2}} \end{pmatrix}。
時間收縮 (Time Contraction)
如果我們接受愛因斯坦的理論,就會得出一個非常奇特且自相矛盾的結論。假設一位太空人乘坐太空船離開我們的太陽系,以固定的速度 v(相對於我們的太陽系測量)行駛。從愛因斯坦的理論可以推導出,當在地球上測量經過了時間 t 結束時,太空船上經過的時間只有 t\sqrt{1 - v^2}。為了建立這個結果,請考慮我們一直在研究的座標系 S 和 S' 以及時鐘 C 和 C'。假設 S' 的原點與太空船重合,而 S 的原點與太陽系中的一個點重合(相對於太陽靜止),使得在太空人踏上旅程的那一刻,S 和 S' 的原點重合,並且時鐘 C 和 C' 讀數為零。
從 S 觀察,在任何時間 t \gt 0(由 C 測量),太空船的時空座標為
\begin{pmatrix} vt \\ 0 \\ t \end{pmatrix},
然而,從 S' 觀察,在任何時間 t' \gt 0(由 C' 測量),太空船的時空座標為
\begin{pmatrix} 0 \\ 0 \\ t' \end{pmatrix}。
但是如果兩組時空座標
\begin{pmatrix} vt \\ 0 \\ t \end{pmatrix} 與 \begin{pmatrix} 0 \\ 0 \\ t' \end{pmatrix}
是要用來描述同一個事件,那麼必然有
T_v \begin{pmatrix} vt \\ 0 \\ t \end{pmatrix} = \begin{pmatrix} 0 \\ 0 \\ t' \end{pmatrix}。
因此
\begin{pmatrix} \frac{1}{\sqrt{1 - v^2}} & 0 & \frac{-v}{\sqrt{1 - v^2}} \\ 0 & 1 & 0 \\ \frac{-v}{\sqrt{1 - v^2}} & 0 & \frac{1}{\sqrt{1 - v^2}} \end{pmatrix} \begin{pmatrix} vt \\ 0 \\ t \end{pmatrix} = \begin{pmatrix} 0 \\ 0 \\ t' \end{pmatrix}。
從前面的方程式,我們得到 \frac{-v^2 t}{\sqrt{1 - v^2}} + \frac{t}{\sqrt{1 - v^2}} = t',或
t' = t\sqrt{1 - v^2}。 (26)
這就是我們期望的結果。
時間收縮的一個戲劇性後果是距離沿著運動線被收縮了(見習題 7)。
我們再補充一點。假設我們選擇運動研究中常用的距離和時間單位,例如英里、公里和秒。回想一下我們一直使用的速度 v 實際上是使用這些單位的速度與以相同單位表示的光速 c 的比值。基於這個原因,我們可以在本節給出的任何方程式中將 v 替換為比率 v/c,其中 v 和 c 使用相同的測量單位給出。因此,例如,給定一組距離和時間的單位,(26) 變為
t' = t\sqrt{1 - \frac{v^2}{c^2}}。
習題 6.9
1. 完整證明定理 6.40 中 t \lt 0 的情況。
2. 對於
w_1 = \begin{pmatrix} 1 \\ 0 \\ 1 \end{pmatrix} 以及 w_2 = \begin{pmatrix} 1 \\ 0 \\ -1 \end{pmatrix},
證明
(a) \{w_1, w_2\} 是 \text{span}(\{e_1, e_3\}) 的一個正交基底;
(b) \text{span}(\{e_1, e_3\}) 是 T_v^* L_A T_v-不變的。
3. 推導 (24),並證明
T_v \begin{pmatrix} 0 \\ 0 \\ 1 \end{pmatrix} = \begin{pmatrix} \frac{-v}{\sqrt{1 - v^2}} \\ 0 \\ \frac{1}{\sqrt{1 - v^2}} \end{pmatrix}。 (25)
提示:使用類似於推導 (22) 的技巧。
4. 考慮三個座標系 S, S' 與 S'',其對應的軸 (x, x', x'' ; y, y', y'' ; \text{ 以及 } z, z', z'') 互相平行,且 x-、x'- 與 x''- 軸重合。假設 S' 正以速度 v_1 \gt 0(在 S 上測量)掠過 S,S'' 正以速度 v_2 \gt 0(在 S' 上測量)掠過 S',且 S'' 正以速度 v_3 \gt 0(在 S 上測量)掠過 S,並且存在三個時鐘 C, C' 與 C'',使得 C 相對於 S 是靜止的,C' 相對於 S' 是靜止的,C'' 相對於 S'' 是靜止的。假設在三個時鐘的任何一個上的測量,所有 S, S' 與 S'' 的原點都在時間 0 時重合。假設 T_{v_3} = T_{v_2}T_{v_1}(亦即,B_{v_3} = B_{v_2}B_{v_1}),證明
v_3 = \frac{v_1 + v_2}{1 + v_1 v_2}。
請注意,將 v_2 = 1 代入此方程式會得出 v_3 = 1。這告訴我們,在 S 或 S' 中測量的光速是相同的。如果情況不是這樣,我們為什麼會感到驚訝?
5. 計算 (B_v)^{-1}。證明 (B_v)^{-1} = B_{(-v)}。由此得出結論:如果 S' 相對於 S 以負速度 v 運動,那麼 [T_v]_\beta = B_v,其中 B_v 具有定理 6.43 中給出的形式。(造訪 goo.gl/9gWNYu 獲取解答。)
6. 假設一位太空人在 2000 年離開地球,並以 99% 的光速行駛到距地球 99 光年的一顆恆星,並且在到達該恆星後立即掉頭以相同速度返回地球。假設愛因斯坦的狹義相對論成立,證明如果該太空人在出發時是 20 歲,那麼他或她將會在 2200 年以 48.2 歲的年齡返回地球。解釋習題 4 在解決這個問題中的用途。
7. 回顧在時間收縮研究中考慮的移動太空船。假設太空船正駛向一顆固定恆星,該恆星位於 S 的 x 軸上,距離 S 的原點 b 個單位。如果太空船以速度 v 駛向該恆星,地球人(相對於 S 保持「幾乎」靜止)計算出太空船到達恆星所需的時間為 t = b/v。由於時間收縮的現象,太空人感知到的時間跨度為 t' = t\sqrt{1 - v^2} = (b/v)\sqrt{1 - v^2}。這裡出現了一個悖論,即太空人感知到的時間跨度與距離 b 和速度 v 不一致。藉由觀察到由太空人所測量從太陽系到恆星的距離小於 b,可以解決這個悖論。
假設座標系 S 與 S' 以及時鐘 C 與 C' 與時間收縮的討論中相同,證明以下結果。
(a) 在時間 t(由 C 測量),恆星相對於 S 和 C 的時空座標為 \begin{pmatrix} b \\ 0 \\ t \end{pmatrix}。
(b) 在時間 t(由 C 測量),恆星相對於 S' 和 C' 的時空座標為 \begin{pmatrix} \frac{b - vt}{\sqrt{1 - v^2}} \\ 0 \\ \frac{t - bv}{\sqrt{1 - v^2}} \end{pmatrix}。
(c) 對於 x' = \frac{b - tv}{\sqrt{1 - v^2}} 以及 t' = \frac{t - bv}{\sqrt{1 - v^2}},
我們有 x' = b\sqrt{1 - v^2} - t'v。
這個結果可以解釋為:在由太空人測量的時間 t',太空人與恆星之間的距離(由太空人所測量,見圖 6.9)為 b\sqrt{1 - v^2} - t'v。
(d) 從前面的方程式得出結論:
(1) 由太空人測量之太空船相對於恆星的速度為 v;
(2) 由太空人測量之從地球到恆星的距離為 b\sqrt{1 - v^2}。
因此,沿著太空船運動線的距離似乎縮小了 \sqrt{1 - v^2} 的因子。
6.10* 條件數與瑞利商 (CONDITIONING AND THE RAYLEIGH QUOTIENT)
在 3.4 節中,我們學習了用來解形式為 Ax=b 之線性方程組的特定技巧,其中 A 是一個 m \times n 矩陣,而 b 是一個 m \times 1 向量。這樣的系統經常出現在對現實世界的應用中。系統中的係數通常是從實驗數據中獲得的,而且在許多情況下,m 和 n 都非常大,以至於必須使用計算機來計算解。因此,我們必須考慮兩種類型的誤差。第一,由於沒有任何儀器能提供完全準確的測量,因此在收集數據時會產生實驗誤差。第二,計算機會引入捨入誤差 (roundoff errors)。人們可能會直覺地認為,系統係數的微小相對改變,只會導致解的微小相對誤差。具有這種性質的系統被稱為條件良好的 (well-conditioned);否則,該系統被稱為條件不良的 (ill-conditioned)。
例 1
例如,考慮以下系統
x_1 + x_2 = 5
x_1 - x_2 = 1
其解為 \begin{pmatrix} 3 \\ 2 \end{pmatrix}。假設將第二個方程式的常數項增加了一個微小的誤差 h,我們得到:
x_1 + x_2 = 5
x_1 - x_2 = 1 + h
解這個系統,我們得到新的解為
\begin{pmatrix} 3 + h/2 \\ 2 - h/2 \end{pmatrix}。
例如,當 h = 10^{-4} 時,這個解變為
\begin{pmatrix} 3.00005 \\ 1.99995 \end{pmatrix}。
我們可以看到,在一個係數上產生 10^{-4} 的改變,會導致新解的每個坐標產生小於 10^{-4} 的改變。
從上面的例子可知,b 的微小改變會在解中引入微小的改變。當然,我們真正感興趣的是相對改變 (relative changes),因為假設解改變了 10,如果原來的解是 10^{-2} 的數量級,這會被認為是巨大的改變;但如果原來的解是 10^6 的數量級,這會被認為是微小的改變。
我們使用符號 \delta b 來表示向量 b' - b,其中 b 是原系統中的向量,而 b' 是修改後系統中的向量。因此我們有
\delta b = \begin{pmatrix} 5 \\ 1+h \end{pmatrix} - \begin{pmatrix} 5 \\ 1 \end{pmatrix} = \begin{pmatrix} 0 \\ h \end{pmatrix}。
我們現在定義 b 的相對改變 (relative change) 為純量 ||\delta b|| / ||b||,其中 ||\cdot|| 表示 C^n (或 R^n) 上的標準範數 (standard norm);也就是說,||b|| = \sqrt{\langle b,b \rangle}。不過,接下來的大部分內容對於任何範數都是成立的。對於 x 的相對改變,也有類似的定義。在這個例子中,
\frac{||\delta b||}{||b||} = \frac{|h|}{\sqrt{26}} 且 \frac{||\delta x||}{||x||} = \frac{||\begin{pmatrix} 3+h/2 \\ 2-h/2 \end{pmatrix} - \begin{pmatrix} 3 \\ 2 \end{pmatrix}||}{||\begin{pmatrix} 3 \\ 2 \end{pmatrix}||} = \frac{|h|}{\sqrt{26}}。
因此,x 的相對改變剛好(巧合地)等於 b 的相對改變;所以這個系統是條件良好的。
例 2
考慮系統
x_1 + x_2 = 3
x_1 + 1.00001 x_2 = 3.00001
其解為
\begin{pmatrix} 2 \\ 1 \end{pmatrix}。
其相關聯系統
x_1 + x_2 = 3
x_1 + 1.00001 x_2 = 3.00001 + h
的解為
\begin{pmatrix} 2 - (10^5)h \\ 1 + (10^5)h \end{pmatrix}。
因此,
\frac{||\delta x||}{||x||} = 10^5 \sqrt{2/5} |h| \ge 10^4 |h|,
然而
\frac{||\delta b||}{||b||} \approx \frac{|h|}{3\sqrt{2}}。
因此,x 的相對改變至少是 b 的相對改變的 10^4 倍!這個系統是非常條件不良的。觀察到這兩個方程式所定義的直線幾乎是重合的。所以任何一條直線的微小改變都能大幅地改變交點,也就是系統的解。
為了將自伴矩陣 (self-adjoint matrices) 理論的全部力量應用於條件數 (conditioning) 的研究,我們需要矩陣範數 (norm of a matrix) 的概念。(有關範數的進一步結果,請參見 6.1 節的習題 26-30。)
定義。 設 A 為一個複數(或實數)n \times n 矩陣。定義 A 的範數 (norm) 為
||A||_E = \max_{x \ne 0} \frac{||Ax||}{||x||},
其中 x \in C^n 或是 x \in R^n。
直觀上來說,||A||_E 代表矩陣 A 對一個向量的最大放大倍率。關於這個最大值是否存在,以及如何計算它的問題,可以透過使用所謂的瑞利商 (Rayleigh quotient) 來解答。
定義。 設 B 為一個 n \times n 自伴矩陣。對於 x \ne 0,瑞利商 (Rayleigh quotient) 定義為純量 R(x) = \frac{\langle Bx, x \rangle}{||x||^2}。
下一個結果刻劃了自伴矩陣的瑞利商的極值。
定理 6.44。 對於自伴矩陣 B \in M_{n \times n}(F),我們有 \max_{x \ne 0} R(x) 是 B 的最大特徵值,而 \min_{x \ne 0} R(x) 是 B 的最小特徵值。
證明。 根據定理 6.19 (第 381 頁) 和 6.20 (第 381 頁),我們可以選擇一個由 B 的特徵向量組成的正交規範基底 \{v_1, v_2, \dots, v_n\} 使得 Bv_i = \lambda_i v_i (1 \le i \le n),其中 \lambda_1 \ge \lambda_2 \ge \dots \ge \lambda_n。(回想定理 6.17 的引理,第 370 頁,B 的特徵值都是實數。)現在,對於 x \in F^n,存在純量 a_1, a_2, \dots, a_n 使得
x = \sum_{i=1}^n a_i v_i。
因此
R(x) = \frac{\langle Bx, x \rangle}{||x||^2} = \frac{\langle \sum_{i=1}^n a_i \lambda_i v_i, \sum_{j=1}^n a_j v_j \rangle}{||x||^2}
= \frac{\sum_{i=1}^n \lambda_i |a_i|^2}{||x||^2} \le \frac{\lambda_1 \sum_{i=1}^n |a_i|^2}{||x||^2} = \frac{\lambda_1 ||x||^2}{||x||^2} = \lambda_1。
很容易可以看出 R(v_1) = \lambda_1,所以我們已經證明了定理的前半部。後半部的證明也是類似的。
推論 1。 對於任何方陣 A,||A||_E 是有限的,且實際上等於 \sqrt{\lambda},其中 \lambda 是 A^*A 的最大特徵值。
證明。 設 B 為自伴矩陣 A^*A,並設 \lambda 為 B 的最大特徵值。因為,對於 x \ne 0,
0 \le \frac{||Ax||^2}{||x||^2} = \frac{\langle Ax, Ax \rangle}{||x||^2} = \frac{\langle A^*Ax, x \rangle}{||x||^2} = \frac{\langle Bx, x \rangle}{||x||^2} = R(x),
從定理 6.44 可以推導出 ||A||_E^2 = \lambda。
觀察到推論 1 的證明顯示了 A^*A 的所有特徵值都是非負的。為了得到下一個結果,我們需要以下的引理。
引理。 對於任何方陣 A,\lambda 是 A^*A 的特徵值若且唯若 \lambda 是 AA^* 的特徵值。
證明。 設 \lambda 為 A^*A 的特徵值。如果 \lambda = 0,那麼 A^*A 是不可逆的。因此 A 和 A^* 都是不可逆的,所以 \lambda 也是 AA^* 的特徵值。反方向的證明也是類似的。
現在假設 \lambda \ne 0。那麼存在 x \ne 0 使得 A^*Ax = \lambda x。對兩邊應用 A 得到 (AA^*)(Ax) = \lambda(Ax)。因為 Ax \ne 0 (否則 \lambda x = 0),我們得出 \lambda 是 AA^* 的一個特徵值。反方向的證明留作習題。
推論 2。 設 A 為一個可逆矩陣。那麼 ||A^{-1}||_E = 1/\sqrt{\lambda},其中 \lambda 是 A^*A 的最小特徵值。
證明。 回想一下,\lambda 是一個可逆矩陣的特徵值,若且唯若 \lambda^{-1} 是其反矩陣的特徵值。
現在設 \lambda_1 \ge \lambda_2 \ge \dots \ge \lambda_n 為 A^*A 的特徵值,由引理可知它們也是 AA^* 的特徵值。那麼 ||A^{-1}||_E^2 等於 (A^{-1})^*A^{-1} = (AA^*)^{-1} 的最大特徵值,也就是 1/\lambda_n。
在許多應用中,只有最大和最小的特徵值才是令人感興趣的。例如,在振動問題中,最小的特徵值代表能發生振動的最低頻率。我們將在條件數的研究中看到這兩個特徵值的作用。
例 3
設
A = \begin{pmatrix} 1 & 0 & 1 \\ -1 & 1 & 0 \\ 0 & 1 & 1 \end{pmatrix}。
那麼
B = A^*A = \begin{pmatrix} 2 & -1 & 1 \\ -1 & 2 & 1 \\ 1 & 1 & 2 \end{pmatrix}。
B 的特徵值為 3, 3 和 0。因此 ||A||_E = \sqrt{3}。對於任何
x = \begin{pmatrix} a \\ b \\ c \end{pmatrix} \ne 0,
我們可以將矩陣 B 的 R(x) 計算為
3 \ge R(x) = \frac{\langle Bx, x \rangle}{||x||^2} = \frac{2(a^2 + b^2 + c^2 - ab + ac + bc)}{a^2 + b^2 + c^2}。
既然我們知道對於每個方陣 A,||A||_E 都存在,我們就可以利用對每個 x 都成立的不等式 ||Ax|| \le ||A||_E \cdot ||x||。
在接下來的內容中,假設 A 是可逆的,b \ne 0,且 Ax = b。對於給定的 \delta b,設 \delta x 為滿足 A(x + \delta x) = b + \delta b 的向量。那麼 A(\delta x) = \delta b,所以 \delta x = A^{-1}(\delta b)。因此
||b|| = ||Ax|| \le ||A||_E \cdot ||x|| 且 ||\delta x|| = ||A^{-1}(\delta b)|| \le ||A^{-1}||_E \cdot ||\delta b||。
因此
\frac{||\delta x||}{||x||} \le \frac{||A^{-1}||_E \cdot ||\delta b||}{||b|| / ||A||_E} = ||A||_E \cdot ||A^{-1}||_E \cdot \left( \frac{||\delta b||}{||b||} \right)。
同理 (見習題 9),
\frac{1}{||A||_E \cdot ||A^{-1}||_E} \left( \frac{||\delta b||}{||b||} \right) \le \frac{||\delta x||}{||x||}。
數字 ||A||_E \cdot ||A^{-1}||_E 稱為 A 的條件數 (condition number),記為 cond(A)。我們將這些結果總結在以下定理中。
定理 6.45。 對於系統 Ax = b,其中 A 是可逆的且 b \ne 0,以下敘述為真。
(a) 我們有
\frac{1}{\text{cond}(A)} \frac{||\delta b||}{||b||} \le \frac{||\delta x||}{||x||} \le \text{cond}(A) \frac{||\delta b||}{||b||}。
(b) 如果 \lambda_1 和 \lambda_n 分別是 A^*A 的最大和最小特徵值,那麼 \text{cond}(A) = \sqrt{\lambda_1/\lambda_n}。
證明。 敘述 (a) 承接自前面的不等式,而 (b) 承接自定理 6.44 的推論 1 和 2。
必須注意的是,cond(A) 的定義取決於 A 的範數是如何定義的。有許多合理的方法來定義矩陣的範數。事實上,建立定理 6.45(a) 及其前方的兩個不等式所需的唯一屬性是,對於所有 x 都有 ||Ax|| \le ||A||_E \cdot ||x||。
從定理 6.45(a) 很明顯可以看出 \text{cond}(A) \ge 1。證明 \text{cond}(A) = 1 若且唯若 A 是酉矩陣或正交矩陣的純量倍數,這留作習題。此外,只要稍微花點力氣,就可以證明透過適當地選擇 b 和 \delta b,(a) 中的等號是可以成立的。
我們可以從 (a) 立刻看出,如果 cond(A) 接近 1,那麼 b 中的一個微小相對誤差就會導致 x 中產生微小的相對誤差。然而,如果 cond(A) 很大,那麼即使 b 的相對誤差很大,x 的相對誤差也可能很小;或者即使 b 的相對誤差很小,x 的相對誤差也可能很大!簡而言之,cond(A) 僅僅指出了發生巨大相對誤差的潛在可能性。
到目前為止,我們只考慮了向量 b 中的誤差。如果系統 Ax = b 的係數矩陣中存在一個誤差 \delta A,情況就會變得更複雜。例如,A + \delta A 可能會變成不可逆的。但在適當的假設下,可以證明 x 的相對誤差的界限可以用 cond(A) 來表示。例如,Charles Cullen (Charles G. Cullen, An Introduction to Numerical Linear Algebra, PWS Publishing Co., Boston 1994, p. 60) 指出,如果 A + \delta A 是可逆的,那麼
\frac{||\delta x||}{||x + \delta x||} \le \text{cond}(A) \frac{||\delta A||_E}{||A||_E}。
必須提到的是,在實務上,我們從不透過定義來計算 cond(A),因為僅僅為了確定 A 的範數而計算 A^{-1} 是不必要地浪費時間。事實上,如果使用計算機來尋找 A^{-1},計算出的 A 的反矩陣十之八九只是 A^{-1} 的近似值,而計算出的反矩陣中的誤差又會受到 cond(A) 大小的影響。所以我們陷入了一個惡性循環!然而,在某些情況下可以找到 cond(A) 的可用近似值。因此,在大多數情況下,對 x 相對誤差的估計是基於對 cond(A) 的估計。
習題 6.10 (EXERCISES)
1. 將下列敘述標示為真 (True) 或假 (False)。
(a) 如果 Ax = b 是條件良好的,那麼 cond(A) 很小。
(b) 如果 cond(A) 很大,那麼 Ax = b 是條件不良的。
(c) 如果 cond(A) 很小,那麼 Ax = b 是條件良好的。
(d) A 的範數等於瑞利商。
(e) A 的範數總是等於 A 的最大特徵值。
2. 計算下列矩陣的範數。
(a) \begin{pmatrix} 4 & 0 \\ 1 & 3 \end{pmatrix}
(b) \begin{pmatrix} 5 & 3 \\ -3 & 3 \end{pmatrix}
(c) \begin{pmatrix} 1 & \frac{-2}{\sqrt{3}} & 0 \\ 0 & \frac{-2}{\sqrt{3}} & 1 \\ 0 & \frac{2}{\sqrt{3}} & 1 \end{pmatrix}
3. 證明如果 B 是對稱矩陣,那麼 ||B||_E 是 B 的最大特徵值。
4. 設 A 和 A^{-1} 如下:
A = \begin{pmatrix} 6 & 13 & -17 \\ 13 & 29 & -38 \\ -17 & -38 & 50 \end{pmatrix} 且 A^{-1} = \begin{pmatrix} 6 & -4 & 1 \\ -4 & 11 & 7 \\ -1 & 7 & 5 \end{pmatrix}。
A 的特徵值大約為 84.74, 0.2007, 和 0.0588。
(a) 估計 ||A||_E、||A^{-1}||_E 以及 \text{cond}(A)。(注意習題 3。)
(b) 假設我們有向量 x 和 \tilde{x} 使得 Ax = b 且 ||b - A\tilde{x}|| \le 0.001。利用 (a) 來求出 ||\tilde{x} - A^{-1}b||(絕對誤差)和 ||\tilde{x} - A^{-1}b|| / ||A^{-1}b||(相對誤差)的上界。
5. 假設 x 是 Ax = b 的實際解,而計算機得出了一個近似解 \tilde{x}。如果 \text{cond}(A) = 100,||b|| = 1,且 ||b - A\tilde{x}|| = 0.1,求出 ||x - \tilde{x}|| / ||x|| 的上界與下界。
6. 設
B = \begin{pmatrix} 2 & 1 & 1 \\ 1 & 2 & 1 \\ 1 & 1 & 2 \end{pmatrix}。
計算
R\begin{pmatrix} 1 \\ -2 \\ 3 \end{pmatrix}、||B||_E,以及 \text{cond}(B)。
7. 設 B 為對稱矩陣。證明 \min_{x \ne 0} R(x) 等於 B 的最小特徵值。
8. 證明如果 \lambda 是 AA^* 的特徵值,那麼 \lambda 也是 A^*A 的特徵值。這完成了定理 6.44 之推論 2 前方的引理證明。
9. 證明如果 A 是一個可逆矩陣且 Ax = b,那麼
\frac{1}{||A||_E \cdot ||A^{-1}||_E} \left( \frac{||\delta b||}{||b||} \right) \le \frac{||\delta x||}{||x||}。
10. 證明定理 6.45 中 (a) 的左側不等式。
11. 證明 \text{cond}(A) = 1 若且唯若 A 是一個酉矩陣或正交矩陣的純量倍數。
12.
(a) 設 A 和 B 為酉等價 (unitarily equivalent) 的方陣。證明 ||A||_E = ||B||_E。
(b) 設 T 為有限維內積空間 V 上的線性算子。定義
||T||_E = \max_{x \ne 0} \frac{||T(x)||}{||x||}。
證明 ||T||_E = ||[T]_\beta||_E,其中 \beta 是 V 的任何正交規範基底。
(c) 設 V 為具有正交規範基底 \{v_1, v_2, \dots\} 的無限維內積空間。設 T 為 V 上的線性算子,使得 T(v_k) = kv_k。證明 ||T||_E(如 (b) 中所定義)不存在。
前往 goo.gl/B8Uw33 獲取解答。
接下來的習題假設了奇異值 (singular value) 與偽逆矩陣 (pseudoinverse) 的定義以及 6.7 節的結果。
13. 設 A 為一個秩為 r 的 n \times n 矩陣,其非零奇異值為 \sigma_1 \ge \sigma_2 \ge \dots \ge \sigma_r。證明下列每個結果。
(a) ||A||_E = \sigma_1。
(b) ||A^\dagger||_E = \frac{1}{\sigma_r}。
(c) 如果 A 是可逆的(因此 r = n),那麼 \text{cond}(A) = \frac{\sigma_1}{\sigma_n}。
6.11* 正交算子的幾何學 (THE GEOMETRY OF ORTHOGONAL OPERATORS)
根據定理 6.22(第 383 頁),在有限維實數內積空間上的任何剛體運動 (rigid motion) 都是一個正交算子與一個平移的複合變換。因此,為了徹底理解剛體運動的幾何學,我們必須分析正交算子的結構。在本節中,我們將證明有限維實數內積空間上的任何正交算子都可以用旋轉 (rotations) 與鏡射 (reflections) 來描述。
本教材假設讀者熟悉 5.2 節末尾發展出來的關於直和 (direct sums) 的結果,以及 5.1 節中給出的線性算子行列式之定義,還有 5.1 節習題 8 中行列式的基本性質。
我們現在將我們早先對 R^2 上旋轉與鏡射的定義推廣到所有的二維實數內積空間。
定義。 設 T 為二維實數內積空間 V 上的線性算子。
如果存在 V 的一個正交規範基底 \beta = \{x_1, x_2\} 以及一個實數 \theta 使得
T(x_1) = (\cos \theta)x_1 + (\sin \theta)x_2 且 T(x_2) = (-\sin \theta)x_1 + (\cos \theta)x_2,
我們稱 T 為一個旋轉 (rotation)。
如果存在 V 的一個一維子空間 W 使得對所有 x \in W 皆有 T(x) = -x,且對所有 y \in W^\perp 皆有 T(y) = y,我們稱 T 為一個鏡射 (reflection)。在這種情況下,T 被稱為 V 關於 W^\perp 的鏡射 (reflection of V about W^\perp)。
為了方便起見,我們也在一維內積空間上定義旋轉與鏡射。
定義。 一維內積空間 V 上的線性算子 T,如果 T 是恆等算子 (identity),則稱為旋轉 (rotation);如果對於所有 x \in V 皆有 T(x) = -x,則稱為鏡射 (reflection)。
顯然,一維內積空間上的旋轉與鏡射都是正交算子。值得注意的是,二維實數內積空間上的旋轉與鏡射(或它們的複合變換)也是正交算子(見習題 2)。
例 1
一些典型的鏡射 (Some Typical Reflections)
(a) 定義 T: R^2 \rightarrow R^2 為 T(a,b) = (-a,b),並設 W = \text{span}(\{e_1\})。那麼對於所有 x \in W 都有 T(x) = -x,且對於所有 y \in W^\perp 都有 T(y) = y。因此 T 是 R^2 關於 W^\perp = \text{span}(\{e_2\})(即 y 軸)的鏡射。
(b) 定義 T: R^2 \rightarrow R^2 為 T(a,b) = (b,a),並設 W = \text{span}(\{(1,1)\})。顯然對於所有 w \in W 都有 T(w) = w。設 (a,b) \in W^\perp。那麼 (a,b) 正交於 (1,1),因此 a+b=0。所以 b=-a。因此 W^\perp = \text{span}(\{(1,-1)\})。由此可知 T(a,b) = (a,-a) = -(-a,a) = -(b,a)。因此 T 是 R^2 關於 W 的鏡射。
下一個定理刻劃了二維實數內積空間 V 上所有的正交算子。該證明由定理 6.23(第 384 頁)推導而來,因為所有二維實數內積空間在結構上都是相同的。如需嚴格的證明,可應用定理 2.21(第 105 頁),其中 \beta 是 V 的正交規範基底。根據 6.2 節的習題 15,由此產生的同構 \phi_\beta: V \rightarrow R^2 保持了內積。(見習題 8。)
定理 6.46。 設 T 為二維實數內積空間 V 上的正交算子。則 T 要麼是一個旋轉,要麼是一個鏡射。此外,T 是一個旋轉若且唯若 \det(T) = 1,且 T 是一個鏡射若且唯若 \det(T) = -1。
關於 R^2 上的鏡射之完整描述,請參見 6.5 節。
推論。 設 V 為二維實數內積空間。
(a) V 上一個鏡射與一個旋轉的複合變換是 V 上的一個鏡射。
(b) V 上兩個鏡射的複合變換是 V 上的一個旋轉。
(c) V 上兩個旋轉的複合變換是 V 上的一個旋轉。
證明。 留作習題。(見習題 10。)
現在,讓我們考慮一般有限維的情況。
引理。 設 T 為有限維實數內積空間 V 上的正交算子。那麼 V 包含一個 T-不變子空間 W,使得 1 \le \dim(W) \le 2。
證明。 選擇 V 的一個正交規範基底 \beta,並設 A = [T]_\beta。如圖 6.10 所示的交換圖 (commutative diagram) 成立。
text
T
V ───────> V
│ │
│ │
φ_β│ │φ_β
↓ ↓
R^n ─────> R^n
L_A
圖 6.10 (Figure 6.10)
矩陣 A 可以被視為一個佈於複數 C 的 n \times n 矩陣,且正因如此,可以用來定義 C^n 上的一個線性算子 U,其定義為 U(v) = Av。因為 U 是一個在佈於 C 之有限維向量空間上的線性算子,它具有一個特徵值 \lambda \in C。設 x \in C^n 為對應於 \lambda 的特徵向量。我們可以寫成 \lambda = \lambda_1 + i\lambda_2,其中 \lambda_1 與 \lambda_2 為實數,且
x = \begin{pmatrix} a_1 + ib_1 \\ a_2 + ib_2 \\ \vdots \\ a_n + ib_n \end{pmatrix}。
設 v = (a_1, a_2, \dots, a_n)^t 且 w = (b_1, b_2, \dots, b_n)^t。那麼 x = v + iw。因為 Ax = \lambda x,我們有 A(v + iw) = (\lambda_1 + i\lambda_2)(v + iw),這意味著
Av + iAw = (\lambda_1 v - \lambda_2 w) + i(\lambda_2 v + \lambda_1 w)。
比較實部與虛部,我們得到 Av = \lambda_1 v - \lambda_2 w 且 Aw = \lambda_2 v + \lambda_1 w。
設 Z = \text{span}(\{v, w\})。那麼 Z 是 R^n 的一個 L_A-不變子空間,且 1 \le \dim(Z) \le 2。設 W = \phi_\beta^{-1}(Z)。那麼 W 是 V 的一個 T-不變子空間,且 1 \le \dim(W) \le 2。
定理 6.47。 設 T 為有限維實數內積空間 V 上的正交算子。那麼存在一個由 V 的兩兩正交之 T-不變子空間組成的集合 \{W_1, W_2, \dots, W_m\},使得
(a) 1 \le \dim(W_i) \le 2 對於 i = 1, 2, \dots, m 成立。
(b) V = W_1 \oplus W_2 \oplus \dots \oplus W_m。
證明。 這個證明對 \dim(V) 進行數學歸納法。如果 \dim(V)=1,結果是顯然的。所以假設對於所有 \dim(V) \lt n(其中 n \gt 1 為固定整數)的空間該結果皆成立。
假設 \dim(V)=n。根據引理,存在 V 的一個 T-不變子空間 W_1 使得 1 \le \dim(W_1) \le 2。如果 W_1 = V,則結果得證。否則,W_1^\perp \ne \{0\}。由習題 13,W_1^\perp 是 T-不變的,且 T 限制在 W_1^\perp 上也是正交的。因為 \dim(W_1^\perp) \lt n,我們可以將歸納假設應用於 T_{W_1^\perp},並得出結論:存在一個由 W_1^\perp 的兩兩正交之 T-不變子空間組成的集合 \{W_2, W_3, \dots, W_m\},使得對於 i=2, 3, \dots, m 皆有 1 \le \dim(W_i) \le 2,並且
W_1^\perp = W_2 \oplus W_3 \oplus \dots \oplus W_m。
因此 \{W_1, W_2, \dots, W_m\} 是兩兩正交的,且由 6.2 節的習題 13(d),
V = W_1 \oplus W_1^\perp = W_1 \oplus W_2 \oplus \dots \oplus W_m。
在定理 6.47 的脈絡中應用定理 6.46,我們得出結論:對於每個 i = 1, 2, \dots, m,T 限制在 W_i 上要麼是一個旋轉,要麼是一個鏡射。因此,在某種意義上,T 是由旋轉與鏡射所組成的。不幸的是,關於定理 6.47 中 V 的分解的唯一性,我們能說的很少。例如,子空間 W_i、數量 m,以及使得 T_{W_i} 為鏡射的 W_i 數量,這些都不是唯一的。
儘管使得 T_{W_i} 為鏡射的 W_i 數量不是唯一的,但這個數量是偶數還是奇數則是 T 的一個固有性質 (intrinsic property)。此外,我們總是可以如定理 6.47 那樣對 V 進行分解,使得至多只有一個 W_i 滿足 T_{W_i} 是一個鏡射。這些事實建立在下一個結果中。
定理 6.48。 設 T, V, W_1, \dots, W_m 如同定理 6.47 中所述。
(a) 使得 T_{W_i} 為鏡射的 W_i 數量是偶數或奇數,取決於 \det(T) = 1 或 \det(T) = -1。
(b) 我們總是可以如同定理 6.47 那樣對 V 進行分解,使得滿足 T_{W_i} 為鏡射的 W_i 數量為零或一,這取決於 \det(T) = 1 或 \det(T) = -1。此外,如果 T_{W_i} 是一個鏡射,那麼 \dim(W_i) = 1。
證明。 (a) 設 r 表示分解中使得 T_{W_i} 為鏡射的 W_i 數量。那麼,由習題 14,
\det(T) = \det(T_{W_1}) \cdot \det(T_{W_2}) \dots \det(T_{W_m}) = (-1)^r,
這證明了 (a)。
(b) 設 E = \{x \in V: T(x) = -x\};那麼 E 是 V 的一個 T-不變子空間 (T-invariant subspace)。設 W = E^\perp;那麼 W 也是 T-不變的。所以藉由將定理 6.47 應用於 T_W,我們獲得 W 的一個兩兩正交之 T-不變子空間集合 \{W_1, W_2, \dots, W_k\} 使得 W = W_1 \oplus W_2 \oplus \dots \oplus W_k,且對於 1 \le i \le k,每個 W_i 的維度為 1 或 2。觀察到,對於每個 i = 1, 2, \dots, k,T_{W_i} 是一個旋轉。否則,如果 T_{W_i} 是一個鏡射,則存在一個非零的 x \in W_i 使得 T(x) = -x。但那樣的話,x \in W_i \cap E \subseteq E^\perp \cap E = \{0\},產生矛盾。如果 E = \{0\},則結果成立。否則,為 E 選擇一個包含 p 個向量 (p \gt 0) 的正交規範基底 \beta。我們可以將 \beta 分解為兩兩不相交的聯集 \beta = \beta_1 \cup \beta_2 \cup \dots \cup \beta_r,使得對於 i \lt r,每個 \beta_i 恰好包含兩個向量;而如果 p 是偶數,\beta_r 包含兩個向量,如果 p 是奇數,則 \beta_r 包含一個向量。對於每個 i = 1, 2, \dots, r,令 W_{k+i} = \text{span}(\beta_i)。那麼,很明顯地,\{W_1, W_2, \dots, W_k, \dots, W_{k+r}\} 是兩兩正交的,且
V = W_1 \oplus W_2 \oplus \dots \oplus W_k \oplus \dots \oplus W_{k+r} (27)
此外,如果任何 \beta_i 包含兩個向量,那麼
\det(T_{W_{k+i}}) = \det([T_{W_{k+i}}]_{\beta_i}) = \det \begin{pmatrix} -1 & 0 \\ 0 & -1 \end{pmatrix} = 1。
所以 T_{W_{k+i}} 是一個旋轉,因此對於 j \lt k+r,T_{W_j} 皆為旋轉。如果 \beta_r 僅由一個向量組成,那麼 \dim(W_{k+r}) = 1 且 T(x) = -x 對於 x \in \beta_r 成立,因此 T_{W_{k+r}} 是一個鏡射。因此恰好有一個 W_i (當 p 為奇數時) 使得 T_{W_i} 是鏡射,或者有零個這樣的 W_i (當 p 為偶數時)。由 (a) 可知,當 \det(T) = -1 時 p 是奇數,當 \det(T) = 1 時 p 是偶數。這完成了證明。
習題 6.11 (EXERCISES)
1. 將下列敘述標示為真 (True) 或假 (False)。假設底層向量空間皆為一維或二維的實數內積空間。
(a) 任何正交算子要麼是旋轉,要麼是鏡射。(True)
(b) 任何兩個旋轉的複合變換都是旋轉。(True)
(c) 恆等算子是一個旋轉。(True)
(d) 兩個鏡射的複合變換是一個鏡射。(False)
(e) 任何正交算子都是旋轉的複合變換。(False)
(f) 對於任何正交算子 T,如果 \det(T) = -1,那麼 T 是一個鏡射。(True)
(g) 鏡射總是具有特徵值。(True)
(h) 旋轉總是具有特徵值。(False)
(i) 如果 T 是二維空間 V 上的一個算子,且 W 是一個維度為 1 的子空間,使得 T 是 V 關於 W^\perp 的鏡射,那麼 W 是 T 對應於特徵值 \lambda = -1 的特徵空間。(True)
(j) 一個正交算子與一個平移的複合變換是一個正交算子。(False)
2. 證明旋轉、鏡射,以及旋轉與鏡射的複合變換都是正交算子。
3. 設
A = \begin{pmatrix} \frac{1}{2} & \frac{\sqrt{3}}{2} \\ \frac{\sqrt{3}}{2} & -\frac{1}{2} \end{pmatrix} 且 B = \begin{pmatrix} 1 & 0 \\ 0 & -1 \end{pmatrix}
(a) 證明 L_A 是一個鏡射。
(b) 找出 R^2 中 L_A 作用如同恆等算子的子空間。
(c) 證明 L_{AB} 和 L_{BA} 都是旋轉。
4. 對於任何實數 \phi,設
A = \begin{pmatrix} \cos \phi & \sin \phi \\ \sin \phi & -\cos \phi \end{pmatrix}
(a) 證明 L_A 是一個鏡射。
(b) 找出 R^2 中 L_A 所關於的鏡射對稱軸。
5. 對於任何實數 \phi,定義 T_\phi = L_A,其中
A = \begin{pmatrix} \cos \phi & -\sin \phi \\ \sin \phi & \cos \phi \end{pmatrix}
(a) 證明 R^2 上的任何旋轉都具有 T_\phi 的形式,其中 \phi 為某個角度。
(b) 證明對於任何 \phi, \psi \in R 皆有 T_\phi T_\psi = T_{(\phi+\psi)}。
(c) 由此推導出 R^2 上的任何兩個旋轉都是可交換的 (commute)。
6. 證明如果 T 是二維內積空間上的一個旋轉,那麼 T 也是一個旋轉。(譯註:原文印作「T is also a rotation」,依據上下文與代數性質推測,原意應為探討「其伴隨算子 T^* 也是一個旋轉」)。
7. 證明如果 T 是二維內積空間上的一個鏡射,那麼 T^2 是恆等算子 (identity operator)。
8. 使用定理 6.46 敘述前面的提示來證明定理 6.46。
9. 證明沒有任何正交算子可以同時是旋轉和鏡射。
10. 證明如果 V 是一個二維實數內積空間,那麼 V 上兩個鏡射的複合變換是 V 上的一個旋轉。
11. 設 V 為一個一維或二維的實數內積空間。定義 T: V \rightarrow V 為 T(x) = -x。證明 T 是一個旋轉若且唯若 \dim(V) = 2。
12. 藉由證明 W = \phi_\beta^{-1}(Z) 滿足所需的條件,來完成定理 6.47 之引理的證明。
13. 設 T 為有限維實數 [複數] 內積空間 V 上的一個正交 [酉] 算子。如果 W 是 V 的一個 T-不變子空間,證明下列結果:
(a) T_W 是 W 上的一個正交 [酉] 算子。
(b) W^\perp 是 V 的一個 T-不變子空間。
(c) T_{W^\perp} 是 W^\perp 上的一個正交 [酉] 算子。
14. 設 T 為有限維向量空間 V 上的線性算子,並假設 V 是 T-不變子空間 W_1, W_2, \dots, W_k 的直和。證明 \det(T) = \det(T_{W_1}) \det(T_{W_2}) \dots \det(T_{W_k})。
15. 完成定理 6.48 推論的證明。
16. 設 V 為一個維度為 2 的實數內積空間。對於任何滿足 x \ne y 且 ||x|| = ||y|| = 1 的 x,y \in V,證明存在 V 上唯一的旋轉 T 使得 T(x) = y。造訪 goo.gl/ahQT67 獲取解答。
沒有留言:
張貼留言