线性变换（Linear Transformation）

经历半年多的线性代数学习后，令我印象最深的无疑是线性变换了，我个人认为线性变换算得上是线性代数的一个精华之处，数学的许多美妙在这里得到了体现，之前学的线性方程组、行列式、矩阵、线性空间和多项式也都是为这个而打基础。同时线性代数也是和机器学习密切相关的一门学科，例如应用范围很广的奇异值分解（Singular Value Decomposition, SVD）。这里就对我近期学习的线性变换作一些带有个人理解的总结，欢迎指出错误。

主要参考：

3Blue1Brown, Essense of Linear Algebra
李尚志, 《线性代数》
周梦, 课堂教学

摘录一句我比较赞同的话：

"There is hardly any theory which is more elementary than linear algebra, in spite of the fact that generations of professors and textbook writers have obscured its simplicity by preposterous calculations with matrices.——Jean Dieudonné" “鲜有比线性代数更为初等的理论，然而一批教授和教科书编者用关于矩阵的荒唐至极的计算内容掩盖了它的简明性。——让 · 迪厄多内”

再摘录一句经典：~~要想学好线性代数，得先学会搞基。~~

下面开始正文：

首先说一些预备知识：映射，这是我们在高中就学过的知识，简单阐述一下：在集合 A 和 B 的元素之间有一个对应$$f:A\to B\quad\forall a \in A, \exists b \in B, b=f(a)$$ 称为集合 A 到集合 B 的一个映射。若当 $a_1 \neq a_2$ 时，$f(a_1) \neq f(a_2)$ ，称为单射；若对 $\forall b \in B, \exists a \in A, f(a)=b$，称为满射；若即为单射又为满射，称为双射（一一对应）。

Def.1.1

设 U 和 V 是数域 F 上线性空间，且 $\mathscr{A}:U \to V$ 是映射。如果映射 $\mathscr{A}:U \to V$ 满足： LM(1) 对 $\forall \alpha_1, \alpha_2 \in U, \mathscr{A}(\alpha_1+\alpha_2)=\mathscr{A}(\alpha_1)+\mathscr{A}(\alpha_2)$； LM(2) 对 $\forall \alpha \in U, \lambda \in F, \mathscr{A}(\lambda\alpha)=\lambda\mathscr{A}(\alpha)$；则映射 $\mathscr{A}$ 称为线性空间 U 到 V 的线性映射（linear mapping），当 U=V 时，线性映射 $\mathscr{A}:V \to V$ 称为 V 的线性变换（linear transformation）。

所有概念都是建立在“线性”的基础之上，即保持加法和数乘，均定义在线性空间内。从章节标题来看，线性变换应该属于重点内容，虽然它的情况更为特殊，但也更加常见。

下面再讨论几种特殊情况和一些其他定义：

线性映射必为单射，若为满射（双射），则线性变换可逆，即存在线性映射 $\mathscr{B}$，与 $\mathscr{A}$ 互为逆映射。
同构和同态都是线性映射；线性映射都是同态，其中可逆的线性映射是同构。
对数域 F 上任意线性空间 U，V，定义 $\mathscr{O}:U \to V, \alpha \mapsto \vec{0}$ 将 U 中所有的向量都映到 $\vec{0}$。则 $\mathscr{O}$ 是线性映射，称为零映射。
对数域 F 上任意线性空间 V 和给定的数 $\lambda \in F$，定义$\mathscr{A}:V \to V, \alpha \mapsto \lambda\alpha$。则 $\mathscr{A}$ 是 V 的线性变换，称为由 λ 决定的标量变换（scalar transformation）。当 λ=1 时的标量变换 $V \to V, \alpha \mapsto \alpha$ 将 V 中每个向量变到自己，这个变换称为 V 中的恒等变换（identity transformation）或单位变换（unit transformation），记作 $\mathscr{I}$，也记作 $1_V$。由 λ决定的标量变换则记作 $\lambda\mathscr{I}$ 或 $\lambda1_V$，看作恒等变换的 λ 倍。
设 V=F[x] 是系数在数域 F 中以 x 为字幕的多项式的全体组成的 F 上线性空间。定义 $\mathscr{D}:V \to V$ 将每个多项式 $f(x)=a_0+a_1x+a_2x^2+\cdots+a_nx^n$ 映射到它的微商 $f'(x)=a_1+2a_2x+\cdots+na_nx^{n-1}$，称为微商映射，则 $\mathscr{D}$ 是 V 的线性变换。
设 $U=F^n$， $V=F^m$，$n \gt m$。则 $\pi:U \to V, (x_1, \cdots, x_m, \cdots, x_n)\mapsto(x_1, \cdots, x_m)$ 是线性映射，称为 U 在 V 上的投影（projection）。$\mathscr{A}:V \to U, (x_1, \cdots, x_m)\mapsto(x_1, \cdots, x_m, 0, \cdots, 0)$ 也是线性映射，称为 V 在 U 中的嵌入（embedding）。

线性映射还有一些简单性质：设 $\mathscr{A}:U \to V$ 是线性映射。则：

$\mathscr{A}$ 将零向量 $\vec{0_U} \in U$ 变到零向量 $\vec{0_v} \in V$，将 $\alpha$ 的负向量 $-\alpha$ 变到 $\mathscr{A}(\alpha)$ 的负向量： $$\mathscr{A}(\vec{0_U})=\vec{0_V}, \mathscr{A}(-\alpha)=-\mathscr{A}(\alpha)$$
$\mathscr{A}$ 保持线性组合关系式不变： $$\mathscr{A}(\lambda_1\alpha_1+\cdots+\lambda_k\alpha_k)=\lambda_1\mathscr{A}(\alpha_1)+\cdots+\lambda_k\mathscr{A}(\alpha_k)$$
如果 $\alpha_1, \cdots, \alpha_k$ 线性相关，则 $\mathscr{A}(\alpha_1), \cdots, \mathscr{A}(\alpha_k)$ 线性相关。逆命题不成立。
如果 $\mathscr{A}(\alpha_1), \cdots, \mathscr{A}(\alpha_k)$ 线性无关，则 $\alpha_1, \cdots, \alpha_k$ 线性无关。（即逆否命题成立）

每个线性映射都对应一个变换矩阵：设 U，V 分别是数域 F 上的 m，n 维线性空间。 $$\forall\alpha=\begin{pmatrix} x_1 \\ \vdots \\ x_m \end{pmatrix} \in U, \mathscr{A}(\alpha)=\begin{pmatrix} y_1 \\ \vdots \\ y_m \end{pmatrix}=\begin{pmatrix} a_{11} & \cdots & a_{1m} \\ \vdots & \ddots & \vdots \\ a_{n1} & \cdots & a_{nm} \end{pmatrix}\begin{pmatrix} x_1 \\ \vdots \\ x_m \end{pmatrix}$$ 即 $\mathscr{A}(\alpha)$ 由矩阵 $\mathbf{A}$ 给出，$\mathbf{A}$ 是数域 F 上给定一个的 n*m 矩阵，$\mathscr{A}$ 是一个线性变换。

Def.1.2

设 U，V 是数域 F 上有限维线性空间，分别取 U 的基 $M_1=\{\alpha_1, \cdots, \alpha_n\}$ 和 V 的基 $M_2=\{\beta_1, \cdots, \beta_m\}$。对每个 1≤j≤n，设 U 的基向量 $\alpha_j$ 在 $\mathscr{A}$ 下的像 $\mathscr{A}(\alpha_j)$ 在基 $M_2$ 下的坐标为 $$\mathbf{A}_j=\begin{pmatrix} a_{1j} \\ a_{2j} \\ \vdots \\ a_{mj} \end{pmatrix} \in F^{m \times 1}$$ $\mathbf{A}$ 是依次以 $\mathbf{A}_1, \mathbf{A}_2, \cdots, \mathbf{A}_n$ 为各列组成的矩阵，也就是说 $$\mathscr{A}(\alpha_1, \cdots, \alpha_n)=(\beta_1, \cdots, \beta_m)\mathbf{A}\tag{1}\label{1}$$ 则 A 称为 $\mathscr{A}$ 在基 $M_1$ 和 $M_2$ 下的矩阵（matrix of $\mathscr{A}$ with respect to bases $M_1, M_2$）。当 U=V 时我们取 $M_1=M_2=\{\alpha_1, \cdots, \alpha_n\}$，此时称满足条件 $$\mathscr{A}(\alpha_1, \cdots, \alpha_n)=(\alpha_1, \cdots, \alpha_n)A\tag{2}\label{2}$$ 的矩阵 $\mathbf{A}$ 为线性变换 $\mathscr{A}$ 在基 $M_1$ 下的矩阵（matrix of $\mathscr{A}$ with respect to bases $M_1$）。

对于 $\eqref{1}$ 式，$\mathbf{A}$ 的第 j 列是 $f(\alpha_j)$ 在 $\beta_1, \cdots, \beta_m$ 下的坐标。

将 U 中的每个向量 α 用它在基 $M_1$ 下的坐标 $\sigma_1(\alpha)=\mathbf{X}$ 代表，将 V 中每个向量 β 用它在基 $M_2$ 下的坐标 $\sigma_2(\beta)=\mathbf{Y}$ 代表，这样就将 U 用 $F^{n \times 1}$ 代表、将 V 用 $F^{m \times 1}$ 代表，则 $\mathscr{A}$ 被表示为： $$\mathscr{A}:F^{n \times 1} \to F^{m \times 1}, \mathbf{X} \mapsto \mathbf{AX}\tag{3}\label{3}$$ $\mathscr{A}$ 的作用通过它的矩阵 $\mathbf{A}$ 的左乘来实现。我们将 $\mathbf{X} \mapsto \mathbf{AX}$ 称为 $\mathscr{A}$ 在基 $M_1$，$M_2$ 下的坐标表示（coordinate representation）。

Thm.1.1

设 $\mathscr{A}:U \to V$ 是数域 F 上有限维线性空间的映射。取 U 的基 $M_1$ 将 U 的向量用坐标表示，取 V 的基 $M_2$ 将 V 的向量用坐标表示。如果 $\mathscr{A}$ 所引起的坐标之间的映射可通过某个矩阵 $\mathbf{A}$ 的左乘来实现： $$\mathscr{A}:\mathbf{X} \mapsto \mathbf{AX}$$ 则 $\mathscr{A}$ 是线性映射，$\mathbf{A}$ 是 $\mathscr{A}$ 在基$M_1$，$M_2$ 下的矩阵。特别地，列向量空间之间由矩阵的左乘定义的映射 $\mathscr{A}:F^{n \times 1} \to F^{m \times 1}$ ，$\mathbf{X} \mapsto \mathbf{AX}$ 是线性映射，$\mathbf{A}$ 就是 $\mathscr{A}$ 在 $F^{n \times 1}$ 和 $F^{m \times 1}$ 的自然基下的矩阵。

若给定 U 和 V 的基 $\alpha_1, \cdots, \alpha_n$ 和 $\beta_1, \cdots, \beta_m$ 后，$U \to V$ 的任一个线性映射必对应一个 m*n 矩阵，反之任给一个 m*n 矩阵，可由 $\eqref{1}$ 式给出一个 U 到 V 的线性映射 $\mathscr{A}$。

若 $\mathscr{A}$ 在 U 的基 $\alpha_1, \cdots, \alpha_n$ 上的像 $f(\alpha_1), \cdots, f(\alpha_n)$ 给定，则任一个 $f(\alpha)$ 也给出，因为任一个 α： $$\begin{align}\alpha & = (\alpha_1, \cdots, \alpha_n)\begin{pmatrix} x_1 \\ \vdots \\ x_n \end{pmatrix} \\ & = (\alpha_1, \cdots, \alpha_n)\mathbf{X} \\ \Rightarrow f(\alpha) & = f(\alpha_1, \cdots, \alpha_n)\mathbf{X}\\ & = (\beta_1, \cdots, \beta_m)\mathbf{AX} \end{align}$$
α 在基 $\alpha_1, \cdots, \alpha_n$ 下坐标为 $\mathbf{X}$，则 f(α) 在 $\beta_1, \cdots, \beta_m$ 下坐标为 $\mathbf{AX}$。（$\mathbf{A}$ 由 $\eqref{1}$ 式给出）
当 $\mathscr{A}$ 为 U 上的线性变换时： $$\mathscr{A}(\alpha_1, \cdots, \alpha_n)=(\alpha_1, \cdots, \alpha_n)\mathbf{A}$$

Thm.1.2

设 $M=\{\alpha_1, \cdots, \alpha_n\}$ 是 F 上 n 维线性空间的一组基， $\beta_1, \cdots, \beta_m$ 是 F 上线性空间 V 的任意 n 个向量，则存在唯一的线性映射 $\mathscr{A}:U \to V$ 将 $\alpha_1, \cdots, \alpha_n$ 分别映到 $\beta_1, \cdots, \beta_m$。

若将由 U 到 V 的全体线性映射组成的集合记作 $\mathscr{L}(U, V)$，数域 F 上全体 m*n 矩阵记作 $\mathbf{M}_{m \times n}(F)$。$\mathscr{L}(U, V)$ 与数域 F 上矩阵 $\mathbf{M}_{m \times n}(F)$ 之间的一一对应给出：每个 $U \to V$ 的线性映射对应唯一的一个 m*n 阵。反之，任一个 m*n 阵决定一个线性映射，且 $\mathscr{A}+\mathscr{B}$ 的矩阵为 $\mathbf{A}+\mathbf{B}$，$\lambda\mathscr{A}$ 的矩阵为 $\lambda\mathbf{A}$。特别地，$\mathscr{L}(U)$ 与 $\mathbf{M}_{n \times n}(F)$ 的对应还保持乘法，$\mathscr{AB}$ 的矩阵为 $\mathbf{AB}$。（逆变换对应逆矩阵）故$\mathscr{L}(U, V)$ 也是线性空间，且 $\mathscr{L}(U, V) \cong \mathbf{M}_{m \times n}(F)$。

Def.1.3

设 V 是 F 上有限维线性空间，则线性映射 $f:V \to F$ 称为 V 上的线性函数（linear function），它满足条件： LM(1) 对 $\forall \alpha_1, \alpha_2 \in V, f(\alpha_1+\alpha_2)=f(\alpha_1)+f(\alpha_2)$； LM(2) 对 $\forall \alpha \in V, \lambda \in F, f(\lambda\alpha)=\lambda f(\alpha)$；

Def.1.4

V 上全体线性函数组成的集合，也就是 L(V, F)，是 F 上的 n 维线性空间。L(V, F) 称为 V 的对偶空间（dual space），记作 V*。设 $M=\{\alpha_1, \cdots, \alpha_n\}$ 是 V 的任意一组基，将每个 $f \in V^*=L(V, F)$ 在基 M 下的矩阵 $\mathbf{A} \in F^{1 \times n}$ 记作 $\sigma(f)$，则 $V^* \to F^{1 \times n}$ 是 V* 到 n 维行向量空间 $F^{1 \times n}$ 是同构映射。对每个 1≤i≤n 定义线性函数 $$\alpha_i^*:V \to F, x_1\alpha_1+\cdots+x_n\alpha_n \mapsto x_i$$ 从而 $$\alpha_i^*(\alpha_i)=1, \alpha_j^*(\alpha_j)=0, \forall j \neq i$$ 则 $\{\alpha_1^*, \cdots, \alpha_n^*\}$ 是 V* 的一组基，称为 V 的基 $\{\alpha_1, \cdots, \alpha_n\}$ 的对偶基（dual basis）。

设 $f:U \to V$ 线性映射已给定，取 U 和 V 的基 $M_1=(\alpha_1, \cdots, \alpha_n)$ 和 $M_2=(\beta_1, \cdots, \beta_m)$，则 f 在 $M_1$ 及 $M_2$ 下矩阵为 $\mathbf{A}$，即$\mathscr{A}(\alpha_1, \cdots, \alpha_n)=(\beta_1, \cdots, \beta_m)\mathbf{A}$。取 U 和 V 的另两组基 $M_1'=(\alpha_1', \cdots, \alpha_n')$ 和 $M_2'=(\beta_1', \cdots, \beta_m')$。设 $(\alpha_1', \cdots, \alpha_n')=(\alpha_1, \cdots, \alpha_n)\mathbf{P}$，$(\beta_1', \cdots, \beta_m')=(\beta_1, \cdots, \beta_m)\mathbf{Q}$，即 $\alpha_j'$ 在 $\alpha_1, \cdots, \alpha_n$ 下坐标为 $\mathbf{P}$ 的第 j 列，$\beta_j'$ 在 $\beta_1, \cdots, \beta_m$ 下坐标为 $\mathbf{Q}$ 的第 j 列。称 $\mathbf{P}$ 为基 $M_1$ 到 $M_1'$ 的过渡矩阵（transition matrix）。它可以由等式 $$(\alpha_1', \cdots, \alpha_n')=(\alpha_1, \cdots, \alpha_n)\mathbf{P}\tag{4}\label{4}$$ 定义。等式 $\eqref{4}$ 称为基变换公式（basis transformation formula）。同理，$\mathbf{Q}$ 为基 $M_2$ 到 $M_2'$ 的过渡矩阵。

Thm.2.1

有限维线性空间的两组基之间的过渡方阵是可逆方阵。

hiyouga / hiyouga-blog-project

线性变换（Linear Transformation） #34

Def.1.1

Def.1.2

Thm.1.1

Thm.1.2

Def.1.3

Def.1.4

Thm.2.1