Filtrado generalizado

El filtrado generalizado es un esquema de filtrado bayesiano genérico para modelos de espacio de estado no lineales.^[1] Se basa en un principio variacional de mínima acción, formulado en coordenadas generalizadas.^[2] Tenga en cuenta que el concepto de "coordenadas generalizadas" como se usa aquí difiere del concepto de coordenadas generalizadas de movimiento como se usa en el análisis de sistemas dinámicos (multicuerpo). El filtrado generalizado proporciona densidades posteriores sobre estados ocultos (y parámetros) que generan datos observados utilizando un descenso de gradiente generalizado en energía libre variacional, bajo el supuesto de Laplace . A diferencia del filtrado clásico (p. ej. Kalman-Bucy o de partículas), el filtrado generalizado evita las suposiciones markovianas sobre fluctuaciones aleatorias. Además, opera en línea, asimilando datos para aproximar la densidad posterior sobre cantidades desconocidas, sin la necesidad de pasos hacia atrás. Los casos especiales incluyen filtrado variacional,^[3] maximización dinámica de expectativas^[4] y codificación predictiva generalizada.

Definición[editar]

Definición : el filtrado generalizado se basa en la tupla $(\Omega ,U,X,S,p,q)$ :

Un espacio muestral $\Omega$ desde el cual se dibujan las fluctuaciones aleatorias $\omega \in \Omega$
Estados de control $U\in \mathbb {R}$ - que actúan como causas externas, entradas o términos forzados
Estados ocultos $X:X\times U\times \Omega \to \mathbb {R}$ - que causan estados del sensor y dependen de los estados de control
Estados del sensor $S:X\times U\times \Omega \to \mathbb {R}$ - un mapeo probabilístico de estados ocultos y de control
Densidad generativa $p({\tilde {s}},{\tilde {x}},{\tilde {u}}\mid m)$ - sobre estados sensoriales, ocultos y de control bajo un modelo generativo $m$
Densidad de variación $q({\tilde {x}},{\tilde {u}}\mid {\tilde {\mu }})$ - sobre estados ocultos y de control con media ${\tilde {\mu }}\in \mathbb {R}$

Aquí ~ denota una variable en coordenadas generalizadas de movimiento: ${\tilde {u}}=[u,u',u'',\ldots ]^{T}$

Filtrado generalizado[editar]

El objetivo es aproximar la densidad posterior sobre los estados ocultos y de control, dados los estados del sensor y un modelo generativo, y estimar la (ruta integral de la) evidencia del modelo $p({\tilde {s}}(t)\vert m)$ para comparar diferentes modelos. Esto generalmente implica una marginación intratable sobre estados ocultos, por lo que la evidencia del modelo (o probabilidad marginal) se reemplaza con un límite de energía libre variacional.^[5] Dadas las siguientes definiciones:

{\tilde {\mu }}(t)={\underset {\tilde {\mu }}{\operatorname {arg\,min} }}\{F({\tilde {s}}(t),{\tilde {\mu }})\}

G({\tilde {s}},{\tilde {x}},{\tilde {u}})=-\ln p({\tilde {s}},{\tilde {x}},{\tilde {u}}\vert m)

Denota la entropía de Shannon de la densidad $q$ por $H[q]=E_{q}[-\log(q)]$ . Entonces podemos escribir la energía libre variacional de dos maneras:

F({\tilde {s}},{\tilde {\mu }})=E_{q}[G({\tilde {s}},{\tilde {x}},{\tilde {u}})]-H[q({\tilde {x}},{\tilde {u}}\vert {\tilde {\mu }})]=-\ln p({\tilde {s}}\vert m)+D_{KL}[q({\tilde {x}},{\tilde {u}}\vert {\tilde {\mu }})\vert \vert p({\tilde {x}},{\tilde {u}}\vert {\tilde {s}},m)]

La segunda igualdad muestra que minimizar la energía libre variacional (i) minimiza la divergencia Kullback-Leibler entre la densidad posterior variable y verdadera y (ii) hace que la energía libre variacional sea la (aproximación ligada a la) evidencia logarítmica negativa (porque la divergencia nunca puede ser menor que cero).^[6] Bajo el supuesto de Laplace $q({\tilde {x}},{\tilde {u}}\mid {\tilde {\mu }})={\mathcal {N}}({\tilde {\mu }},C)$ la densidad variacional es gaussiana y la precisión que minimiza la energía libre es $C^{-1}=\Pi =\partial _{{\tilde {\mu }}{\tilde {\mu }}}G({\tilde {\mu }})$ . Esto significa que la energía libre puede expresarse en términos de la media variacional^[7] (omitiendo constantes):

F=G({\tilde {\mu }})+\textstyle {1 \over 2}\ln \vert \partial _{{\tilde {\mu }}{\tilde {\mu }}}G({\tilde {\mu }})\vert

Las medias variacionales que minimizan la (integral de ruta) de energía libre ahora se pueden recuperar resolviendo el filtro generalizado:

{\dot {\tilde {\mu }}}=D{\tilde {\mu }}-\partial _{\tilde {\mu }}F({\tilde {s}},{\tilde {\mu }})

dónde $D$ es un operador derivada de matrices de identidad de manera que $D{\tilde {u}}=[u',u'',\ldots ]^{T}$

Base variacional[editar]

El filtrado generalizado se basa en el siguiente lema: la solución autoconsistente para ${\dot {\tilde {\mu }}}=D{\tilde {\mu }}-\partial _{\tilde {\mu }}F(s,{\tilde {\mu }})$ satisface el principio variacional de la acción estacionaria, donde la acción es la integral de ruta de la energía libre variacional

S=\int dt\,F({\tilde {s}}(t),{\tilde {\mu }}(t))

Prueba : la autoconsistencia requiere que el movimiento de la media sea la media del movimiento y (por el lema fundamental del cálculo variacional )

{\dot {\tilde {\mu }}}=D{\tilde {\mu }}\Leftrightarrow \partial _{\tilde {\mu }}F({\tilde {s}},{\tilde {\mu }})=0\Leftrightarrow \delta _{\tilde {\mu }}S=0

En pocas palabras, las pequeñas perturbaciones en el camino de la media no cambian la energía libre variacional y tienen la menor acción de todos los caminos (locales) posibles.

Observaciones: heurísticamente, el filtrado generalizado realiza un descenso de gradiente en energía libre variacional en un marco de referencia móvil: ${\dot {\tilde {\mu }}}-D{\tilde {\mu }}=-\partial _{\tilde {\mu }}F(s,{\tilde {\mu }})$ , donde el marco en sí minimiza la energía libre variacional. Para un ejemplo relacionado en física estadística, vea Kerr y Graham^[8] quienes usan la dinámica de conjunto en coordenadas generalizadas para proporcionar una versión generalizada de fase-espacio de Langevin y las ecuaciones de Fokker-Planck asociadas.

En la práctica, el filtrado generalizado utiliza linealización local^[9] en intervalos $\Delta t$ para recuperar actualizaciones discretas

{\begin{aligned}\Delta {\tilde {\mu }}&=(\exp(\Delta t\cdot J)-I)J^{-1}{\dot {\tilde {\mu }}}\\J&=\partial _{\tilde {\mu }}{\dot {\tilde {\mu }}}=D-\partial _{{\tilde {\mu }}{\tilde {\mu }}}F({\tilde {s}},{\tilde {\mu }})\end{aligned}}

Esto actualiza las medias de las variables ocultas en cada intervalo (generalmente el intervalo entre observaciones).

Referencias[editar]

↑ K Friston, K Stephan, B Li, and J. Daunizeau, "Generalised Filtering," Mathematical Problems in Engineering, vol. vol., 2010, p. 621670, 2010.
↑ B Balaji and K Friston, "Bayesian state estimation using generalized coordinates," Proc. SPIE, p. 80501Y, 2011
↑ K J Friston, "Variational filtering," Neuroimage, vol. 41, no. 3, pp. 747-66, 2008.
↑ K J Friston, N Trujillo-Barreto, and J Daunizeau, "DEM: A variational treatment of dynamic systems," Neuroimage, vol. 41, no. 3, pp. 849-85, 2008
↑ R P Feynman, Statistical mechanics. Reading MA: Benjamin, 1972
↑ M J Beal, "Variational Algorithms for Approximate Bayesian Inference," PhD. Thesis, University College London, 2003.
↑ K Friston, J Mattout, N Trujillo-Barreto, J Ashburner, and W Penny, "Variational free energy and the Laplace approximation," NeuroImage, vol. 34, no. 1, pp. 220-34, 2007
↑ W C Kerr and A J Graham, "Generalised phase space version of Langevin equations and associated Fokker-Planck equations," Eur. Phys. J. B., vol. 15, pp. 305-11, 2000.
↑ T Ozaki, "A bridge between nonlinear time-series models and nonlinear stochastic dynamical systems: A local linearization approach," Statistica Sin., vol. 2, pp. 113-135, 1992

Datos: Q17090669

[1] K Friston, K Stephan, B Li, and J. Daunizeau, "Generalised Filtering," Mathematical Problems in Engineering, vol. vol., 2010, p. 621670, 2010.

[2] B Balaji and K Friston, "Bayesian state estimation using generalized coordinates," Proc. SPIE, p. 80501Y, 2011

[:0-3] K J Friston, "Variational filtering," Neuroimage, vol. 41, no. 3, pp. 747-66, 2008.

[:1-4] K J Friston, N Trujillo-Barreto, and J Daunizeau, "DEM: A variational treatment of dynamic systems," Neuroimage, vol. 41, no. 3, pp. 849-85, 2008

[5] R P Feynman, Statistical mechanics. Reading MA: Benjamin, 1972

[6] M J Beal, "Variational Algorithms for Approximate Bayesian Inference," PhD. Thesis, University College London, 2003.

[7] K Friston, J Mattout, N Trujillo-Barreto, J Ashburner, and W Penny, "Variational free energy and the Laplace approximation," NeuroImage, vol. 34, no. 1, pp. 220-34, 2007

[8] W C Kerr and A J Graham, "Generalised phase space version of Langevin equations and associated Fokker-Planck equations," Eur. Phys. J. B., vol. 15, pp. 305-11, 2000.

[9] T Ozaki, "A bridge between nonlinear time-series models and nonlinear stochastic dynamical systems: A local linearization approach," Statistica Sin., vol. 2, pp. 113-135, 1992

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]