Control estocástico

De Wikipedia, la enciclopedia libre

El control estocástico es un subcampo de la teoría de control que se ocupa de la existencia de incertidumbre en las observaciones o en el ruido que impulsa la evolución del sistema. El diseñador del sistema asume, en una probabilidad bayesiana, que el ruido aleatorio con distribución de probabilidad conocida afecta a la evolución y la observación de las variables de estado. El control estocástico tiene como objetivo diseñar la trayectoria temporal de las variables controladas que realiza la tarea de control deseado con el mínimo coste, definido de cierta manera, a pesar de la presencia de este ruido.[1]​ El contexto puede ser tanto de tiempo discreto como de tiempo continuo.

Equivalencia de certeza[editar]

Una formulación muy bien estudiada en el control estocástico es la del control lineal cuadrático gaussiano. Aquí el modelo es lineal, la función objetivo es el valor esperado de una forma cuadrática, y las perturbaciones son puramente aditivas. Un resultado básico para los sistemas centralizados de tiempo discreto es la propiedad de equivalencia de certeza,[2]​ la cual establece que la solución de control óptimo en este caso es la misma que se obtendría en ausencia de las perturbaciones aditivas. Esta propiedad es aplicable a todos los sistemas centralizados con ecuaciones lineales de evolución, función de costo cuadrática, y tales que el ruido que entra en el modelo sea solamente aditivo; el supuesto de que sea cuadrática permite que las leyes de control óptimo, las cuales cumplen la propiedad de equivalencia de certeza, sean funciones lineales de las observaciones de los controladores.

Si alguna de las hipótesis anteriores no se cumple (ya sea que la ecuación de estado sea no lineal, que haya una función objetivo no cuadrática, ruido en los parámetros multiplicativos del modelo o descentralización del control), entonces la propiedad de equivalencia cierta no se cumplirá. Por ejemplo, el fallo de esta propiedad en el caso de control descentralizado se ha demostrado en el contraejemplo de Witsenhausen.

Tiempo discreto[editar]

En un contexto de tiempo discreto, el decisor observa la variable de estado, posiblemente con el ruido de observación, en cada período de tiempo. El objetivo puede ser optimizar la suma de los valores esperados de la función objetivo no-lineal (posiblemente de segundo grado) sobre todos los plazos desde el presente hasta el periodo final, o para optimizar el valor de la función objetivo a partir del último período solamente. En cada período de tiempo se hacen nuevas observaciones, y las variables de control se deben ajustar de manera óptima. Encontrar la solución óptima para el momento actual puede implicar la iteración una ecuación de Riccati en forma de matriz hacia atrás en el tiempo desde el último período para el período actual.

En el caso de tiempo discreto con la incertidumbre acerca de los valores de los parámetros en la matriz de transición (dando el efecto de los valores actuales de las variables de estado en su propia evolución) y/o la matriz de respuesta de control de la ecuación de estado, pero aún con un estado lineal ecuación y función objetivo cuadrática, una ecuación de Riccati todavía se puede obtener para la iteración hacia atrás para la solución de cada período a pesar de equivalencia de certidumbre no se aplica.[2]ch.13[3]​ El caso de tiempo discreto de una función de pérdida cuadrática, pero no sólo trastornos aditivos también se pueden manejar, aunque con más complicaciones.[4]

Ejemplo[editar]

Una especificación típica del problema de control cuadrático lineal estocástico en tiempo discreto es minimizar:[2]: ch. 13,  [5][6]

donde E1 es el operador de valor esperado condicional en y0, el superíndice T indica una matriz transpuesta, y S es el horizonte de tiempo, sujeto a la ecuación de estado:

donde y es un vector n×1 de variables de estado observables, u es un vector k×1 de variables de control, At es la realización de la matriz estocástica de transición de estado de n×n en el tiempo t, Bt es la realización de la matriz estocástica n×k de los multiplicadores de control en el tiempo t, y Q (n×n) y R (k×k) son matrices de costo conocidas simétricas y definidas positivas. Suponemos que cada elemento de A y B se distribuye de forma conjunta independiente e idéntica a través del tiempo, por lo que las operaciones de valor esperado no tienen que ser condicionales al tiempo.

La inducción hacia atrás en el tiempo puede usarse para obtener la solución de control óptima en cada momento,[2]: ch. 13 

Referencias[editar]

  1. Josa–Fombellida, R., and Rinc ́on–Zapatero, J.P. (2007). New approach tomstochastic optimal control. Journal of Optimization Theory and Applications, to appear, Vol.132, No. 2
  2. a b c d Chow, Gregory P., Analysis and Control of Dynamic Economic Systems, Wiley, 1976.
  3. Turnovsky, Stephen, "Optimal stabilization policies for stochastic linear systems: The case of correlated multiplicative and additive disturbances," Review of Economic Studies 43(1), 1976, 191-94.
  4. Mitchell, Douglas W., "Tractable risk sensitive control based on approximate expected utility," Economic Modelling, April 1990, 161-164.
  5. Error en la cita: Etiqueta <ref> no válida; no se ha definido el contenido de las referencias llamadas Turnovsky
  6. Turnovsky, Stephen (1974). «The stability properties of optimal economic policies». American Economic Review 64 (1): 136-148. JSTOR 1814888.