Inverse matrix

Inverse matrix#

Квадратная матрица \(\boldsymbol A \in \mathbb R^{n\times n}\) называется обратимой, или невырожденной, если существует такая матрица \(\boldsymbol B \in \mathbb R^{n\times n}\), что \(\boldsymbol{AB} = \boldsymbol{BA} = \boldsymbol I\). Если такая матрица \(\boldsymbol B\) существует, то она называется обратной к матрице \(\boldsymbol A\) и обозначается \(\boldsymbol A^{-1}\); если же нет, то матрица \(\boldsymbol A\) называется вырожденной (или сингулярной).

Всякая система линейных уравнений \(\boldsymbol{Ax} = \boldsymbol b\) с обратимой матрицей имеет единственное решение, которое может быть получено домножением на \(\boldsymbol A^{-1}\) слева:

\[ \boldsymbol{Ax} = \boldsymbol b \iff \underbrace{\boldsymbol A^{-1}\boldsymbol A}_{\boldsymbol I} \boldsymbol x = \boldsymbol A^{-1}\boldsymbol b \iff \boldsymbol x = \boldsymbol A^{-1}\boldsymbol b. \]

В частности, однородная система уравнений \(\boldsymbol{Ax} = \boldsymbol 0\) с невырожденной матрицей имеет только нулевое решение \(\boldsymbol A^{-1} \boldsymbol 0 = \boldsymbol 0\).

Examples#

Обратную матрицу к матрице размера \(2\times 2\) можно вычислить по явной формуле

\[\begin{split} \begin{pmatrix} a & b \\ c & d \\ \end{pmatrix}^{-1} =\frac1{ad -bc} \begin{pmatrix} d & -b \\ -c & a \\ \end{pmatrix}. \end{split}\]

Такая матрица обратима тогда и только тогда, когда \(ad\ne bc\).
Если \(\boldsymbol \Lambda = \mathrm{diag}\{\lambda_1, \ldots, \lambda_n\}\), то \(\boldsymbol \Lambda^{-1} = \mathrm{diag}\big\{\frac 1{\lambda_1}, \ldots, \frac 1{\lambda_n}\big\}\) при условии, что \(\lambda_k\ne 0\) при всех \(k=1,\ldots, n\); диагональная матрица обратима тогда и только тогда, когда все её диагональные элементы не равны нулю.
Матрица перестановки двух строк \(\boldsymbol P_{ij}\) обратна самой себе, поскольку повторный обмен строк возвращает всё на место, т.е. \(\boldsymbol P_{ij}^2 = \boldsymbol I\).
Элементарная матрица \(\boldsymbol E_{ij}^\lambda = \boldsymbol I - \lambda \boldsymbol \delta_{ij}\) вычитает из строки номер \(j\) строку номер \(j\), умноженную на \(\lambda\); чтобы обратить это элементарное преобразование, необходимо выполнить сложение вместо вычитания. Таким образом,

\[ \big(\boldsymbol E_{ij}^\lambda\big)^{-1} = \boldsymbol E_{ij}^{-\lambda} = \boldsymbol I + \lambda \boldsymbol \delta_{ij}. \]
Если матрица \(\boldsymbol Q\) ортогональна, то \(\boldsymbol Q^{-1} = \boldsymbol Q^\top\); действительно, поскольку её столбцы \(\boldsymbol q_1, \ldots, \boldsymbol q_n\) ортонормированы, получаем \((\boldsymbol Q^\top\boldsymbol Q)_{ij} = \boldsymbol q_i^\top\boldsymbol q_j = \delta_{ij}\), т.е. \(\boldsymbol Q^\top\boldsymbol Q = \boldsymbol I\).
В частности, \(\boldsymbol P^{-1} = \boldsymbol P^\top\) для любой матрицы перестановки \(\boldsymbol P\), ведь любая такая матрица ортогональна.

In NumPy the inversed matrix can be found via np.linalg.inv:

import numpy as np
A = np.diag(np.linspace(0.2, 1, num=5))
np.linalg.inv(A)

array([[5.        , 0.        , 0.        , 0.        , 0.        ],
       [0.        , 2.5       , 0.        , 0.        , 0.        ],
       [0.        , 0.        , 1.66666667, 0.        , 0.        ],
       [0.        , 0.        , 0.        , 1.25      , 0.        ],
       [0.        , 0.        , 0.        , 0.        , 1.        ]])

Properties of inverse matrices#

Если обратная матрица существует, то она единственна.

Proof

Пусть \(\boldsymbol{AB} = \boldsymbol{CA} = \boldsymbol I\), тогда

\[ \boldsymbol C(\boldsymbol{AB}) = (\boldsymbol{CA})\boldsymbol B \iff \boldsymbol{CI} = \boldsymbol {IB} \iff \boldsymbol C = \boldsymbol B. \]

Таким образом, для обратимой матрицы \(\boldsymbol A\) её правая обратная матрица \(\boldsymbol B\) и левая обратная матрица \(\boldsymbol C\) совпадают.
Если матрица \(\boldsymbol A\) обратима, то \((\lambda \boldsymbol A)^{-1} = \frac 1\lambda \boldsymbol A^{-1}\) при \(\lambda \ne 0\).
Если \(\boldsymbol A\) и \(\boldsymbol B\) — две обратимые матрицы одинакового размера, то

\[ (\boldsymbol{AB})^{-1} = \boldsymbol B^{-1} \boldsymbol A^{-1}. \]

Proof

Пользуясь ассоциативностью матричного умножения, получаем

\[ \boldsymbol{AB}\boldsymbol B^{-1} \boldsymbol A^{-1} = \boldsymbol A(\boldsymbol{BB}^{-1}) \boldsymbol A^{-1} = \boldsymbol A \boldsymbol A^{-1} = \boldsymbol I. \]

Аналогично проверяется, что \(\boldsymbol B^{-1} \boldsymbol A^{-1} \boldsymbol{AB} = \boldsymbol I\).
Обращение блочной матрицы: если матрицы \(\boldsymbol A\in\mathbb R^{m\times m}\) и \(\boldsymbol B\in\mathbb R^{n\times n}\) обратимы, то

\[\begin{split} \begin{pmatrix} \boldsymbol A & \boldsymbol 0_{m\times n} \\ \boldsymbol 0_{n\times m} & \boldsymbol B \end{pmatrix}^{-1} = \begin{pmatrix} \boldsymbol A^{-1} & \boldsymbol 0_{m\times n} \\ \boldsymbol 0_{n\times m} & \boldsymbol B^{-1} \end{pmatrix}. \end{split}\]
Обратная матрица к верхней (нижней) треугольной матрице с ненулевыми диагональными элементами \(d_1, \ldots, d_n\) также является верхней (нижней) треугольной с элементами \(\frac 1{d_1}, \ldots, \frac 1{d_n}\) на главной диагонали.

Proof

Пусть \(\boldsymbol U\) — верхняя треугольная матрицы размера \(n\times n\). При \(n=1\) утверждение тривиально, при \(n=2\) оно следует из явной формулы для обратной матрицы размера \(2\times 2\). Далее воспользуемся индукцией и запишем матрицу \(\boldsymbol U\) в блочном виде

\[\begin{split} \boldsymbol U = \begin{pmatrix} d_1 & \boldsymbol u^\top \\ \boldsymbol 0 & \boldsymbol U_{n-1} \end{pmatrix}, \end{split}\]

где \(\boldsymbol u \in \mathbb R^{n-1}\), верхняя треугольная матрица \(\boldsymbol U_{n-1}\) имеет размер \((n-1)\times(n-1)\), а её обратная матрица \( \boldsymbol U_{n-1}^{-1}\) тоже верхняя треугольная с элементами \(\frac 1{d_2}, \ldots, \frac 1{d_n}\) на главной диагонали. Поищем обратную матрицу \(\boldsymbol U^{-1}\) в таком же виде:

(30)#\[\begin{split} \boldsymbol U^{-1} = \begin{pmatrix} \frac 1{d_{1}} & \boldsymbol v^\top \\ \boldsymbol 0 & \boldsymbol U_{n-1}^{-1} \end{pmatrix}. \end{split}\]

По правилу перемножения блочных матриц получаем

\[\begin{split} \boldsymbol U \boldsymbol U^{-1} = \begin{pmatrix} 1 & d_{1} \boldsymbol v^\top + \boldsymbol u^\top \boldsymbol U_{n-1}^{-1} \\ \boldsymbol 0 & \boldsymbol I_{n-1} \end{pmatrix}. \end{split}\]

Таким образом, полагая \(\boldsymbol v^\top = -\frac 1{d_1} \boldsymbol u^\top \boldsymbol U_{n-1}^{-1}\), убеждаемся, что верхняя треугольная матрица (30) действительно является обратной к матрице \(\boldsymbol U\). Для нижних треугольных матриц доказательство аналогично.
Если матрица обратима, то транспонированная к ней матрица также обратима, причём

\[ \big(\boldsymbol A^\top\big)^{-1} = \big(\boldsymbol A^{-1}\big)^\top. \]

Таким образом, операции транспонирония и взятия обратной матрицы коммутируют; применение подряд (в любом порядке) этих двух операций к матрице \(\boldsymbol A\) обозначают через \(\boldsymbol A^{-\top}\).

Proof

Транспонируя равенства \(\boldsymbol{AA}^{-1} = \boldsymbol{A}^{-1} \boldsymbol A = \boldsymbol I\), получаем

\[ (\boldsymbol{A}^{-1})^\top \boldsymbol A^\top = \boldsymbol A^\top (\boldsymbol{A}^{-1})^\top = \boldsymbol I, \]

откуда следует, то \((\boldsymbol A^\top)^{-1} = (\boldsymbol A^{-1})^\top\).
Если симметричная матрица обратима, то обратная к ней также симметрична.

Gauss—Jordan method#

Чтобы обратить невырожденную матрицу \(\boldsymbol A \in \mathbb R^{n\times n}\), нужно решить \(n\) систем линейных уравнений

(31)#\[ \boldsymbol{Ax}_1 = \boldsymbol e_1, \ldots, \boldsymbol{Ax}_n = \boldsymbol e_n,\]

и тогда \(\boldsymbol A^{-1} = [\boldsymbol x_1 \ldots \boldsymbol x_n]\).

Решение СЛАУ размера \(n\times n\) методом Гаусса требует \(O(n^3)\) арифметических операций. Если решать каждую систему из (31) по отдельности, то суммарная сложность составит \(O(n^4)\). Однако метод Гаусса—Жордана позволяет решить все СЛАУ (31) одновременно за \(O(n^3)\) операций. Для этого составляют блочную матрицу

(32)#\[(\;\boldsymbol A \;\vert\;\boldsymbol I\;)\]

и проводят с ней следующие шаги:

методом Гаусса превращают матрицу \(\boldsymbol A\) в вернюю треугольную матрицу \(\boldsymbol U\);
обратным ходом метода Гаусса из матрицы \(\boldsymbol U\) получают диагональную матрицу \(\boldsymbol D\);
после деления на диагональные элементы \(\boldsymbol D\) становится единичной.

Шаги 1—3 применяются также и правому блоку матрицы (32), и после завершения работы метода Гаусса—Жордана на месте единичной матрицы оказывается обратная матрица \(\boldsymbol A^{-1}\).

Exercises#

Sherman—Morrison formula

Let \(\boldsymbol A \in \mathbb R^{n\times n}\) be an invertible matrix and \(\boldsymbol u, \boldsymbol v \in \mathbb R^n\). Prove that

\[ (\boldsymbol A + \boldsymbol u \boldsymbol v^\top)^{-1} = \boldsymbol A^{-1} - \frac{\boldsymbol A^{-1} \boldsymbol u \boldsymbol v^\top \boldsymbol A^{-1}}{1 + \boldsymbol v^\top\boldsymbol A^{-1} \boldsymbol u }. \]