Tópico: Cadeias de Markov

Um exemplo de como usar núcleos de transição é a construção de Cadeias de Markov. Esse tipo de processo é bastante útil em diversas aplicações, desde a biologia até a computação.

Considere um espaço mensurável canônico fixo (E,𝒜)(E,\mathcal{A}) e seja KK um núcleo de EE nele mesmo. Seria bastante intuitivo agora iterar KK (já que ele está no mesmo espaço) e obter uma medida em Ω=E\Omega=E^{\mathbb{N}} com a σ\sigma-álgebra canônica.

Para começar esse procedimento, seja μ0\mu_{0} uma medida inicial em (E,𝒜)(E,\mathcal{A}). Podemos então definir μ1=μ0K\mu_{1}=\mu_{0}\star K o que é o primeiro passo da nossa construção, porém observe que não podemos escrever “μ2=μ1K\mu_{2}=\mu_{1}\star K”, pois μ1K\mu_{1}\star K é uma medida em (E2,𝒜2)(E^{2},\mathcal{A}^{\otimes 2}). Vamos com calma então.

Observe que

μ1(A0×A1)=A0A1K(x0,x1)μ0(x0),\mu_{1}(A_{0}\times A_{1})=\int_{A_{0}}\int_{A_{1}}K(x_{0},\d{x}_{1})\mu_{0}(% \d{x}_{0}), (2.115)

ou em outras palavras o valor de x0x_{0} determina a distribuição de x1x_{1}. Gostaríamos agora que x1x_{1} determinasse a distribuição de x2x_{2} via KK, como por exemplo assim

μ2(A0×A1×A2)=A0A1A2K(x1,x2)K(x0,x1)μ0(x0).\mu_{2}(A_{0}\times A_{1}\times A_{2})=\int_{A_{0}}\int_{A_{1}}\int_{A_{2}}K(x% _{1},\d{x}_{2})K(x_{0},\d{x}_{1})\mu_{0}(\d{x}_{0}). (2.116)

Mas essa notação fica bastante carregada à medida que iteramos.

Para tornar essa notação mais simples, definimos a projeção ϕn:EnE\phi_{n}:E^{n}\to E por ϕn(x0,,xn1)=xn1\phi_{n}(x_{0},\dots,x_{n-1})=x_{n-1}. Também precisamos de Kn:En×𝒜[0,1]K_{n}:E^{n}\times\mathcal{A}\to[0,1] dado por

Kn(x,A)=K(ϕn(x),A)(=K(xn1,A)).K_{n}(\vec{x},A)=K\big{(}\phi_{n}(\vec{x}),A\big{)}\quad\big{(}=K(x_{n-1},A)% \big{)}. (2.117)

O fato de KnK_{n} ser um núcleo de transição segue imediatamente dessa propriedade para KK.

Note que, nessa notação, estamos dizendo que para irmos de EnE^{n} para En+1E^{n+1} iremos olhar apenas para a última coordenada, na qual aplicaremos o núcleo KK. Isso é o ponto mais importante que caracteriza uma Cadeia de Markov: a distribuição do estado futuro da cadeia depende apenas do estado atual e não do passado. Em alguns contextos essa propriedade é chamada de ausência de memória.

Podemos finalmente definir

μn+1=μnKn, para todo n1.\mu_{n+1}=\mu_{n}\star K_{n},\text{ para todo $n\geq 1$}. (2.118)

Mas resta a questão sobre a existência de uma μ\mu^{\infty} que será respondida com ajuda do próximo resultado.

{lemma}

As probabilidades μn\mu_{n} definidas em (2.118) são compatíveis, mais precisamente μn+1(A×E)=μn(A)\mu_{n+1}(A\times E)=\mu_{n}(A) para todo A𝒜nA\in\mathcal{A}^{\otimes n}.

Demonstração.

Basta observar que

μn+1(A×E)=μnK(A×E)=AKn(x,E)1μn(x)=μn(A),\mu_{n+1}(A\times E)=\mu_{n}\star K(A\times E)=\int_{A}\underbrace{K_{n}(\vec{% x},E)}_{1}\mu_{n}(\d{\vec{}}{x})=\mu_{n}(A), (2.119)

provando o lema. ∎

Logo, o Teorema da Extensão de Kolmogorov (lembre que (E,𝒜)(E,\mathcal{A}) foi suposto canônico) nos fornece uma única PP em (Ω,)(\Omega,\mathcal{F}) tal que

P(X0,,Xn)=μn, para todo n0.P_{(X_{0},\dots,X_{n})}=\mu_{n},\text{ para todo $n\geq 0$}. (2.120)

Lembramos que XiX_{i} denotam as projeções canônicas em Ω=i=1E\Omega=\prod_{i=1}^{\infty}E.

Chamamos o processo X1,X2,X_{1},X_{2},\dots sob a lei PP da Cadeia de Markov com distribuição inicial μ0\mu_{0} e núcleo de transição KK.

{example}

Suponha que EE seja enumerável. Nesse caso recordamos do Exemplo 2.9 que o núcleo pode ser representado por uma matriz (p(x,y))x,yE\big{(}p(x,y)\big{)}_{x,y\in E} que nos retorna a probabilidade de saltar de xx a yy. Além disso, a distribuição inicial μ0\mu_{0} é determinada por P({x})=p0(x)P(\{x\})=p_{0}(x), para alguma sequência (p0(x))xE\big{(}p_{0}(x)\big{)}_{x\in E}.

{exercise}

Mostre que no exemplo acima temos

P(X0=x0,,Xn=xn)=p0(x0)p(x0,x1)p(xn1,xn).P(X_{0}=x_{0},\dots,X_{n}=x_{n})=p_{0}(x_{0})p(x_{0},x_{1})\dots p(x_{n-1},x_{% n}). (2.121)
{exercise}

Defina K:2×(2)[0,1]K:\mathbb{R}^{2}\times\mathcal{B}(\mathbb{R}^{2})\to[0,1] dada por

K(x,A)=US1(Ax).K(x,A)=U_{S^{1}}(A-x). (2.122)

Nesse contexto,

  1.  a)

    mostre que KK é um núcleo de transição e,

  2.  b)

    considerando a cadeia com distribuição inicial μ0=δ0\mu_{0}=\delta_{0} em 2\mathbb{R}^{2} e núcleo KK, mostre que X2X_{2} tem distribuição absolutamente contínua com respeito a Lebesgue e calcule sua densidade.

{exercise}

Mostre que para qualquer núcleo de transição KK entre EE e EE, existe um núcleo de transição \widebarK\widebar{K} entre EE e Ω=E\Omega=E^{\mathbb{N}}, tal que para toda medida inicial μ0\mu_{0}, temos que μ0K\mu_{0}\star K é a distribuição de uma Cadeia de Markov começando de μ0\mu_{0} e com transição dada por KK. Esse núcleo é útil se quisermos mudar a distribuição inicial μ0\mu_{0} e uma notação bastante comum para esse núcleo é Px()=\widebarK(x,)P_{x}(\cdot)=\widebar{K}(x,\cdot).

Vamos terminar essa seção dando uma interpretação bastante interessante para os núcleos de transição em analogia à álgebra linear. Fixe um núcleo de transição KK entre EE e EE, uma medida inicial μ\mu e uma função limitada f:Ef:E\to\mathbb{R}. Relembre a notação em (2.102) e defina Kf:EKf:E\to\mathbb{R} dada por

Kf(x):=f(y)K(x,y),Kf(x):=\int f(y)K(x,\d{y}), (2.123)

que é obviamente limitada e já vimos ser mensurável no Teorema de Fubini.

Então temos dois operadores definidos para núcleos, a multiplicação à esquerda por uma medida em EE (μK\mu K que também é uma medida em EE) e a multiplicação à direita por uma função limitada e mensurável (KfKf que também é uma função limitada e mensurável). Podemos pensar em ff como um vetor coluna e μ\mu como um vetor linha, nesse caso KK faria o papel de uma matriz. Essa analogia é real se EE for um espaço enumerável.

{exercise}

No contexto de cadeias de Markov,

  1.  a)

    mostre a relação de associatividade μ(Kf)=(μK)f\mu(Kf)=(\mu K)f,

  2.  b)

    defina para todo nn o núcleo K(n)K^{(n)} iterado (de EE em EE), de forma que μK(n)f\mu K^{(n)}f ainda seja associativa.

  3.  c)

    Mostre que a medida μK(n)\mu K^{(n)} é a distribuição de XnX_{n} se começamos de μ\mu,

  4.  d)

    que a função K(n)f()K^{(n)}f(\cdot) é o valor esperado de ff no tempo nn se começamos no zero do ponto \cdot e finalmente que

  5.  e)

    o número real μK(n)f\mu K^{(n)}f é a esperança de ff no tempo nn se começamos de μ\mu.

Vamos agora dar um exemplo simples de Cadeia de Markov que poderemos analisar em detalhes.

Seja E=E=\mathbb{Z} e considere K:×𝒫()[0,1]K:\mathbb{Z}\times\mathcal{P}(\mathbb{Z})\to[0,1] dado por

K(x,)=δx1+δx+12,K(x,\cdot)=\frac{\delta_{x-1}+\delta_{x+1}}{2}, (2.124)

que obviamente define um núcleo pois toda função em \mathbb{Z} é mensurável na σ\sigma-álgebra das partes.

Podemos portanto construir PP em \mathbb{Z}^{\mathbb{N}} que nos fornece a lei de uma Cadeia de Markov em \mathbb{Z} com distribuição inicial δ0\delta_{0} e núcleo de transição KK. Chamamos esse processo de passeio aleatório simples simétrico.

Poderíamos estar interessados em várias perguntas sobre esse processo, como por exemplo quão longe esperamos que o passeio aleatório pode ir depois de um determinado tempo? Para responder essa e várias outras questões, iremos mostrar outra construção do passeio simples simétrico através de uma soma de variáveis aleatórias.

Introduzimos um espaço de probabilidade P~\tilde{P}, variáveis Y1,Y2,Y_{1},Y_{2},\dots \iidcom distribuição (δ1+δ1)/2(\delta_{-1}+\delta_{1})/2 e definimos S0=0S_{0}=0 e Sn=Y1++YnS_{n}=Y_{1}+\dots+Y_{n}.

{lemma}

A distribuição da sequência infinita (X0,X1,)(X_{0},X_{1},\dots) sob a lei PP do passeio aleatório simples e simétrico é igual à distribuição de (S0,S1,)(S_{0},S_{1},\dots) sob P~\tilde{P}.

Demonstração.

Observamos primeiramente que basta mostrar a igualdade de distribuições para cilindros do tipo {x1}××{xn}×\{x_{1}\}\times\dots\times\{x_{n}\}\times\mathbb{Z}^{\mathbb{N}}, pois tais eventos compõem um π\pi-sistema que gera a σ\sigma-álgebra produto em \mathbb{Z}^{\mathbb{N}}. Calculamos portanto

P[X1=x1,,Xn=xn]pela definição de Cadeia de Markov (via extensão de Kolmogorov),=μn[X1=x1,,Xn=xn]=μn1Kn[X1=x1,,Xn=xn]por Fubini para núcleos (Teorema 2.9),=μn1[X1=x1,,Xn1=xn1]Kn((x1,,xn1),{xn})=μn1[X1=x1,,Xn1=xn1]K(xn1,{xn})=12μn1[X1=x1,,Xn1=xn1]\1{|xn1xn|=1}==2ni=1n\1{|xi1xi|=1}.\begin{split}\qquad P&[X_{1}=x_{1},\dots,X_{n}=x_{n}]\intertext{pela defini\c{% c}\~{a}o de Cadeia de Markov (via extens\~{a}o de Kolmogorov),}&=\mu_{n}[X_{1}% =x_{1},\dots,X_{n}=x_{n}]\\ &=\mu_{n-1}\star K_{n}[X_{1}=x_{1},\dots,X_{n}=x_{n}]\intertext{por Fubini % para n\'{u}cleos (Teorema\leavevmode\nobreak\ \ref{t:fubini}),}&=\mu_{n-1}[X_{% 1}=x_{1},\dots,X_{n-1}=x_{n-1}]K_{n}\big{(}(x_{1},\dots,x_{n-1}),\{x_{n}\}\big% {)}\\ &=\mu_{n-1}[X_{1}=x_{1},\dots,X_{n-1}=x_{n-1}]K\big{(}x_{n-1},\{x_{n}\}\big{)}% \\ &=\frac{1}{2}\mu_{n-1}[X_{1}=x_{1},\dots,X_{n-1}=x_{n-1}]\1_{\{|x_{n-1}-x_{n}|% =1\}}\\ &=\dots=2^{-n}\prod_{i=1}^{n}\1_{\{|x_{i-1}-x_{i}|=1\}}.\end{split}

Faremos agora esse cálculo para a distribuição de SiS_{i}’s:

P~[S1=x1,,Sn=xn]=μn[Y1=x1x0,Y2=x2x1,Yn=xnxn1]=i=1nP~[Yi=xixi1]=2ni=1n\1{|xi1xi|=1}.\begin{split}\qquad\tilde{P}&[S_{1}=x_{1},\dots,S_{n}=x_{n}]\\ &=\mu_{n}[Y_{1}=x_{1}-x_{0},Y_{2}=x_{2}-x_{1}\dots,Y_{n}=x_{n}-x_{n-1}]\\ &=\prod_{i=1}^{n}\tilde{P}[Y_{i}=x_{i}-x_{i-1}]=2^{-n}\prod_{i=1}^{n}\1_{\{|x_% {i-1}-x_{i}|=1\}}.\end{split}

Isso mostra o enunciado do lemma. ∎

Podemos agora por exemplo estimar

P[|Xn|εn]=P~[|Sn|εn]2exp{ψ(δ1+δ1)/2(ε)n},P[|X_{n}|\geq\varepsilon n]=\tilde{P}[|S_{n}|\geq\varepsilon n]\leq 2\exp\{-% \psi_{(\delta_{-1}+\delta_{1})/2}(\varepsilon)n\}, (2.125)

que responde nossa pergunta sobre a probabilidade de um passeio aleatório se distanciar muito da origem.