72 O polinômio minimal de um operador e o Teorema de Cayley-Hamilton

72.1 O polinômio mínimo

Nesta página, \(V\) é um espaço vetorial sobre um corpo \(\F\) de dimensão \(n\) (finita) e \(t\) é uma incôgnita sobre \(\F\).

Note que \(\mbox{End}(V)=\mbox{Hom}(V,V)\cong M_{n\times n}(\F)\) é um espaço de dimensão \(n^2\) (finita). Além disso, no espaço \(\mbox{End}(V)\) temos que os elementos (endomorfismos) podem ser somados, multiplicados por escalar e também compostos. Se \(f,g\in \mbox{End}(V)\), então \(fg=f\circ g\) e \(f^k=f\circ\cdots\circ f\) (\(k\) vezes). Dizemos que \(\mbox{End}(V)\) é uma álgebra.

Se \(f\in\mbox{End}(V)\), então a sequência infinita, \(f^0=\mbox{id}_V,f,f^2,f^3,\ldots\) é L.D. Assuma que \(m\geq 0\) é tal que a seqência \(f^0,f,f^2,\ldots,f^m\) é linearmente dependente. Então existem coeficientes \(\alpha_0,\alpha_1,\ldots,\alpha_m\in\F\) tais que eles não são todos iguais a zero e \[ \alpha_0 f^0+\alpha_1 f+\cdots+\alpha_m f^m=0 \] onde \(0\) denota o operador \(0\in\mbox{End}(V)\). Defina \[ p(t)=\alpha_0+\alpha_1t+\cdots+\alpha_{m-1}t^{m-1}+\alpha_mt^m\in\F[t]. \] Então temos que \(p(t)\in\F[t]\) é um polinômio não nulo e \(p(f)=0\); ou seja \(f\) é raíz de \(p(t)\).

Lema 72.1 Seja \[ I_f=\{p(t)\in\F[t]\mid p(f)=0\}\subseteq \F[t]. \] Então \(I_f\) contem um único polinômio mônico não nulo \(m_f(t)\in I_f\) de menor grau e \[ I_f=\F[t]m_f(t)=\{q(t)m_f(t)\mid q(t)\in\F[t]\}. \] (Ou seja, \(I_f\) é o conjunto de múltiplos de \(m_f(t)\)).

Comprovação. O argumento antes do lema mostra que existe polinômio não nulo em \(I_f\). Seja \(m_f(t)\) um polinômio de menor grau e assuma (por dividir pelo coeficiente líder de \(m_f(t)\)) que \(m_f(t)\) é mônico. Se \(q(t)\in\F[t]\), então \[ (qm_f)(f)=q(f)m_f(f)=0; \] ou seja, \(q(t)m_f(t)\in I_f\) e \(F[x]m_f(t)\subseteq I_f\). Para provar a outra inclusão, seja \(p(t)\in I_f\) arbitrário. Pelo Teorema de Divisão de Euclides (Teorema 36.1), temos que \[ p(t)=q(t)m_f(t)+r(t) \] onde \(r(t)=0\) ou o grau de \(r(t)\) é menor que o grau de \(m_f(t)\). Por outro lado \[ r(f)=p(f)-q(f)m_f(f)=0 \] e \(r(t)\in I_f\). Pela minimalidade do grau de \(m_f(t)\), temos que \(r(t)=0\); ou seja, \(p(t)=q(t)m_f(t)\). Portanto \(I_f\subseteq \F[t]m_f(t)\) e \(I_f=\F[t]m_f(t)\). Finalmente, se \(p(t)\in I_f\) mônico com o mesmo grau que \(m_f(t)\), então \(p(t)=q(t)\cdot m_f(t)\). Mas neste caso, como \(\mbox{grau}(p(t))=\mbox{grau}(m_f(t))\), \(\mbox{grau}(q(t))=1\) (Lema 35.1) e \(q(t)\) é constante. Como \(p(t)\) e \(m_f(t)\) são mônicos, temos que \(q(t)=1\) e \(p(t)=m_f(t)\). Logo, vale a unicidade de \(m_f(t)\).

Definição 72.1 O polinômio \(m_f(t)\in\F[t]\) no lema anterior e chamado do polinômio mínimo do endomorfismo \(f\).

Exemplo 72.1 Seja \(f:\F^3\to\F^3\) definido como \(f(x,y,z)=(0,x,y+z)\). A matriz de \(f\) na base canônica é \[ \begin{pmatrix} 0 & 0 & 0\\ 1 & 0 & 0 \\ 0 & 1 & 1\end{pmatrix}, \] enquanto as matrizes de \(f^2\) e \(f^3\) são \[ \begin{pmatrix} 0 & 0 & 0\\ 0 & 0 & 0 \\ 1 & 1 & 1\end{pmatrix}\quad\mbox{e}\quad \begin{pmatrix} 0 & 0 & 0\\ 0 & 0 & 0 \\ 1 & 1 & 1\end{pmatrix}. \] Logo \(f^2=f^3\) ou seja \(f^3-f^2=0\). Como (as matrizes de ) \(f^0\), \(f\), \(f^2\) são L.I., temos que \(m_f(t)=t^3-t^2\).

Note, neste caso, que \(m_f(t)=\mbox{pcar}_f(t)\), mas esta igualdade não é necessária. Por exemplo, se \[ f:\F^4\to \F^4,\quad f(x,y,z,v)=(x+y,y,z+v,v) \] então \(m_f(t)=(t-1)^2\) e \(\mbox{pcar}_f(t)=(t-1)^4\). Mas observe que \(m_f(t)\mid \mbox{pcar}_f(t)\) e isso val valer de maneira geral pelo Teorema de Cayley-Hamilton.

Antes do lema seguinte, relembre de Fundamentos de Álgebra que \(\lambda\in\F\) é raiz de um polinômio \(f(t)\in\F[t]\) se e somente se \(t-\lambda\) é um divisor de \(f(t)\) (Lema 38.1). Em símbolos, \[ f(\lambda)=0\quad \mbox{se e somente se}\quad (t-\lambda)\mid f(t). \]

Lema 72.2 Se \(\lambda\) for um autovalor de \(f:V\to V\), então \(m_f(\lambda)=0\), ou equivalentemente, \((t-\lambda)\mid m_f(t)\). Em particular, se \(\mbox{Spec}(f)=\{\lambda_1,\ldots,\lambda_k\}\), então \[ (t-\lambda_1)\cdots (t-\lambda_k)\mid m_f(t) \] e \(\deg m_f(t)\geq k\).

Comprovação. Primeiro, escreva, usando o Teorema de Divisão de Euclides (Teorema 36.1), que \[ m_f(t)=q(t)(t-\lambda)+\alpha \] onde \(\alpha\in\F\). Substituindo \(f\), obtemos \[ 0=m_f(f)=q(f)(f-\lambda\mbox{id}_V)+\alpha\mbox{id}_V. \] Assuma que \(v\in V_\lambda\) não nulo. Ora \[ 0=m_f(f)(v)=(q(f)(f-\lambda\mbox{id}_V)+\alpha\mbox{id}_V)v=\alpha v. \] Como, \(v\neq 0\), temos que \(\alpha=0\), ou seja, \(m_f(t)=q(t)(t-\lambda)\).

A segunda afirmação segue do fato que os polinômios \(t-\lambda_i\) são primos entre si dois a dois (Definição 37.2), do Exercício 37.1 e do Exercício 37.1.

72.2 O Teorema de Cayley-Hamilton

Teorema 72.1 (Cayley-Hamilton) Seja \(f:V\to V\) um endomorfismo com \(\dim V=n\) (finita). Então \(\mbox{pcar}_f(f)=0\). Em particular, \(m_f(t)\mid \mbox{pcar}_f(t)\).

Existem várias demonstrações do Teorema (veja a página da Wikipédia refenciada em cima), e todas têm as suas vantagens e desvantagens. Algumas demonstrações são mais elementares, mas as computações são mais complicadas, algumas são computacionalmente mais simples, mas usam teoria mais profunda, outras funcionam apenas sobre corpo algebricamente fechado (tal como \(\C\)). Aqui, eu escolhi uma demonstração um pouco mais abstrata, mas tecnicamente mais fácil. O leitor está encorajado consultar as notas do John e Rodney para demonstrações alternativas e decidir qual gosta mais.

Antes da demonstração, nós precisamos de algumas ferramentas. Seja \(R\) um anel comutativo (Definição 33.1) e assuma que \(A\in M_{n\times n}(R)\). Denote por \(A_{i,j}\) a matriz \((n-1)\times (n-1)\) que obtemos por apagar a \(i\)-ésima linha e \(j\)-ésima coluna de \(A\). Denote por \(\mbox{adj}(A)=(b_{i,j})\) a matriz com entradas \(b_{i,j}=(-1)^{i+j}\det A_{j,i}\). A matriz \(\mbox{adj}(A)\) é a adjunta de \(A\).

Teorema 72.2 (A regra de Cramer) Temos que \[ \mbox{adj}(A)A=(\det A)I_n. \] Em particular, se \(\det A\) é invertível em \(R\), então \(A^{-1}=(\det A)^{-1}\mbox{adj}(A)\).

Comprovação. Este teorema está frequentemente mencionado, ou inclusive provado, nas disciplinas anteriores. Se isso for o caso, revisar a demonstração; caso contrário, exercício.

Seja \(f\) como no Teorema de Cayley-Hamilton e seja \(R\) o anel formado pelas combinações lineares das potências \(f^0=\mbox{id}_V,f,f^2,f^3,\ldots\) dentro de \(\mbox{End}(V)\). É fácil verificar que esta estrutura é de fato um anel comutativo (mesmo que \(\mbox{End}(V)\) não seja comutativo). Seja \(A=(a_{i,j})\) uma matriz \(n\times n\) em \(M_{n\times n}(R)\). Isso quer dizer que as entradas de \(A\) são endomorfismos de \(V\) que pertencem a \(R\). Se \(v=(v_1,\ldots,v_n)^t\in V^n\) é um vetor coluna com entradas em \(V\), então pode escrever \[ Av=\begin{pmatrix} a_{1,1} & a_{1,2} & \cdots & a_{1,n} \\ a_{2,1} & a_{2,2} & \cdots & a_{2,n} \\ \vdots & \vdots & \ddots & \vdots \\ a_{n,1} & a_{n,2} & \cdots & a_{n,n} \end{pmatrix} \begin{pmatrix} v_1 \\ v_2 \\ \vdots \\ v_n \end{pmatrix}= \begin{pmatrix} a_{1,1}(v_1) + a_{1,2}(v_2) + \cdots + a_{1,n}(v_n) \\ a_{2,1}(v_1) + a_{2,2}(v_2) + \cdots + a_{2,n}(v_n) \\ \vdots \\ a_{n,1}(v_1) + a_{n,2}(v_2) + \cdots + a_{n,n}(v_n) \end{pmatrix}. \] Além disso, se \(A\) e \(B\) são matrizes em \(M_{n\times n}(R)\), então temos que \[ A(Bv)=(AB)v. \tag{72.1}\] Esta última equação o leitor pode verificar.

Comprovação. (A demonstração do Teorema de Cayley-Hamilton) Suponhamos que \(B=\{b_1,\ldots,b_n\}\) é uma base de \(V\) e seja \(A=(a_{i,j})=[f]_B^B\). Considere a matriz \[ X = \begin{pmatrix} f-a_{1,1}\mbox{id}_V & -a_{1,2}\mbox{id}_V & \cdots & -a_{1,n-1}\mbox{id}_V & -a_{1,n}\mbox{id}_V\\ -a_{2,1}\mbox{id}_V & f-a_{2,2}\mbox{id}_V & \cdots & -a_{2,n-1}\mbox{id}_V & -a_{2,n}\mbox{id}_V\\ \vdots & \vdots & \ddots & \vdots & \vdots\\ -a_{n-1,1}\mbox{id}_V & -a_{n-1,2}\mbox{id}_V & \cdots & f-a_{n-1,n-1}\mbox{id}_V & -a_{n-1,n}\mbox{id}_V\\ -a_{n,1}\mbox{id}_V & -a_{n,2}\mbox{id}_V & \cdots & -a_{n,n-1}\mbox{id}_V & f-a_{n,n}\mbox{id}_V\\ \end{pmatrix} \] A matriz \(X\) é um elemento de \(M_{n\times n}(R)\). A matriz \(X\) pode ser vista como o resultado de substituir \(f\) na matriz \(t\cdot I-A\). De fato, nós substituímos \(f\) no lugar da incôgnita \(t\), e \(a_{i,j}\cdot f^0=a_{i,j}\cdot \mbox{id}_V\) no lugar dos escalares \(a_{i,j}\). Lembre que \(\mbox{pcar}_f(t)=\det (t\cdot I-A)\) e \(\mbox{pcar}_f(t)\) é um polinômio em \(t\).

A substituição \(\mbox{pcar}_f(f)\) de \(f\) em \(\mbox{pcar}_f(t)\) pode ser feita em duas maneiras distintas:

primeiro calcular \(\mbox{pcar}_f(t)=\det(t\cdot I-A)\) e substituir \(f\) no lugar de \(t\); ou
primeiro substituir \(f\) em \(t\cdot I-A\) como no parágrafo anterior e calcular o determinante da matriz obtida desta forma.

Deixamos para o leitor verificar que estas duas maneiras de calcular \(\mbox{pcar}_f(f)\) dão o mesmo resultado. Mas, como foi notado em cima, a matriz \(X\) é exatamente o resultado da substituição de \(f\) em \(t\cdot I-A\) e assim
\(\det X =\mbox{pcar}_f(f)\). Pondo \(b=(b_1,\ldots,b_n)^t\) (vetor coluna), temos que \(X^tb=0\). Por outro lado, por Equação 72.1 e por Teorema 72.2, \[ 0=\mbox{adj}(X^t)(X^tb)=(\mbox{adj}(X^t)X^t)b=(\det X^t)I_nb=(\det X)I_nb=(\det X)b=\mbox{pcar}_f(f)b. \] Logo \(\mbox{pcar}_f(f)b_i=0\) para todo \(i\). Ou seja, \(\mbox{pcar}_f(f)\) é um endomorfismo de \(V\) que leva \(b_i\) para zero para todo \(i\). Como os \(b_i\) formam uma base de \(V\), obtemos que \(\mbox{pcar}_f(f)=0\).

O fato que \(m_f(t)\mid \mbox{pcar}_f(t)\) segue do Lema 72.1 e da Definição 72.1.