La esencia de la programación dinámica. Programación dinámica, principios básicos.

Entre los problemas resueltos usando programación matemática, podemos identificar una clase separada de problemas que requieren optimización de procesos de múltiples pasos (varias etapas). Estos problemas se distinguen por la posibilidad de dividir la solución en varias etapas interconectadas. para resolver tareas similares Se utiliza programación dinámica o, como también se le llama, programación de múltiples etapas. Sus métodos están optimizados para encontrar la solución óptima a problemas de varios pasos que se pueden dividir en varias etapas, pasos, etc.

Origen del término

El uso de la palabra "dinámico" en el nombre originalmente implicaba que la división en subtareas se produciría principalmente en el tiempo. Cuando se utilizan métodos dinámicos para resolver problemas productivos, económicos y de otro tipo en los que aparece el factor tiempo, no es difícil dividirlo en etapas separadas. Pero usa la tecnología. programación dinámica También es posible en tareas en las que las etapas individuales no están relacionadas en el tiempo. En un problema de varios pasos, siempre puede seleccionar un parámetro o propiedad que pueda usarse para dividirlo en pasos separados.

Algoritmo (método) para resolver problemas de varias etapas.

El algoritmo o método de programación dinámica se basa en el principio de optimización secuencial del problema, cuando la solución tarea común se divide en varias soluciones para subtareas individuales y luego se combina en una única solución. Muy a menudo, las subtareas individuales resultan ser las mismas y una solución general Reduce significativamente el tiempo de cálculo.

Una característica del método es la autonomía para resolver el problema en cada etapa individual, es decir, independientemente de cómo se optimizó y resolvió el proceso en la etapa anterior, en el cálculo actual solo se toman en cuenta los parámetros del proceso que lo caracterizan en en este momento. Por ejemplo, un conductor que circula por una carretera toma una decisión sobre el giro actual independientemente de cómo y durante cuánto tiempo condujo antes.

Método desde arriba y método desde abajo

A pesar de que al calcular en una etapa separada de la resolución del problema, se utilizan parámetros del proceso. momento actual, el resultado de la optimización en la etapa anterior afecta los cálculos de las etapas posteriores para lograr mejor resultado generalmente. La programación dinámica llama a este principio de solución el método de optimización, que determina que la estrategia óptima para resolver un problema, independientemente de soluciones iniciales y las condiciones deben ir seguidas de decisiones posteriores en todas las etapas para elaborar una estrategia óptima con respecto a condición original. Como podemos ver, el proceso de resolución de un problema es una optimización continua del resultado en cada etapa individual desde la primera hasta la última. Este método se denomina método de programación de arriba hacia abajo. La figura muestra esquemáticamente el algoritmo de solución de arriba hacia abajo. Pero hay una clase de problemas de varios pasos en los que ya se conoce el efecto máximo en la última etapa, por ejemplo, ya llegamos del punto A al punto B y ahora queremos saber si condujimos correctamente en cada etapa anterior. etapa o si algo se podría haber hecho de manera más óptima. Surge una secuencia recursiva de etapas, es decir, vamos, por así decirlo, "desde la dirección opuesta". Este método de solución se denomina "método de programación ascendente".

Aplicación práctica

La programación dinámica se puede utilizar en cualquier campo de actividad donde existan procesos que se puedan dividir en un número de pequeñas etapas idénticas según algún parámetro (tiempo, cantidad, temperatura, etc.). La mayoría de las aplicaciones Se obtuvieron soluciones dinámicas en la teoría del control y en el desarrollo de sistemas informáticos.

Encontrar el camino óptimo

Usando la optimización dinámica, es posible resolver una amplia clase de problemas de encontrar u optimizar el camino más corto y otros problemas en los que el método "clásico" de fuerza bruta opciones posibles soluciones conduce a un aumento en el tiempo de cálculo y, a veces, es completamente inaceptable. Problema clásico La programación dinámica es un problema de mochila: se da una cierta cantidad de objetos con una determinada masa y costo, y es necesario seleccionar un conjunto de objetos con el máximo costo y masa que no exceda el volumen de la mochila. La búsqueda clásica de todas las opciones para encontrar una solución óptima llevará un tiempo considerable, pero con la ayuda de métodos dinámicos el problema se resuelve en un plazo aceptable. Las tareas de encontrar el camino más corto para la logística de transporte son básicas y métodos dinámicos las soluciones son óptimamente adecuadas para resolverlos. Mayoría ejemplo sencillo Esta tarea consiste en construir la ruta más corta utilizando un navegador GPS para automóvil.

Producción

La programación dinámica se utiliza ampliamente para resolver diversos tareas de producción como la gestión existencias de almacén mantener cantidad requerida componentes en cualquier momento, programando proceso de producción, actual y renovación importante equipos, carga de trabajo uniforme del personal, la distribución más eficiente de los fondos de inversión, etc. Para resolver problemas de producción utilizando métodos de programación dinámica, especiales paquetes de software, integrado en sistemas populares Sistemas de gestión empresarial como SAP.

Campo científico

Los métodos de programación dinámica se utilizan ampliamente en diversos investigación científica. Por ejemplo, se utilizan con éxito en algoritmos de reconocimiento de voz e imágenes, al procesar grandes cantidades de datos en sociología y

Método de programación dinámica como expresión algorítmica una teoría general del control es suficiente

Al presentar la esencia del método de programación dinámica, nos basamos en el libro "Curso de teoría del control automático" (Palu de La Barriere: edición francesa 1966, edición rusa - "Construcción de máquinas", 1973), aunque no repetimos su presentación. Algunas disposiciones están tomadas del curso "Investigación operativa" mencionado anteriormente por Yu.P.

El método de programación dinámica es eficiente si la interpretación formal del problema real permite que se cumplan las siguientes condiciones:

1. El problema considerado se puede representar como norte-paso del proceso descrito por la relación:

X norte + 1 = f(X norte , U norte , norte ), Dónde norte- el número de uno de los muchos estados posibles del sistema al que pasa al finalizar norte-ésimo paso; xn es el vector de estado del sistema perteneciente al mencionado norte-ésimo conjunto; ONU- control desarrollado en el paso norte(control de pasos), que transfiere el sistema de su estado posible a norte-ésimo conjunto en uno de los estados ( n+1)ésimo conjunto. Para visualizar esto claramente, debes consultar la Fig. 8-1, que se discutirá a continuación.

2. La estructura de la tarea no debe cambiar cuando cambia el número estimado de pasos. NORTE.

3. La dimensión del espacio de parámetros que describe el estado del sistema no debe cambiar dependiendo del número de pasos. NORTE.

4. La elección del control en cualquiera de los pasos no debe negar la elección del control en pasos previos. En otras palabras, la elección óptima de control en cualquiera de los estados posibles debe estar determinada por los parámetros del estado considerado y no por los parámetros del proceso durante el cual el sistema llegó al estado considerado.

De manera puramente formal, si un estado corresponde a diferentes prehistorias de su aparición, lo que influye en la elección posterior del control óptimo, entonces el método permite incluir descripciones de las prehistorias en el vector de estados, lo que conduce a un aumento en la dimensión del sistema. vector de estado. Después de esta operación, lo que anteriormente se describió como un estado se convierte en una pluralidad de estados, diferenciándose entre sí en los componentes del vector de estados que describen la prehistoria del proceso.

5. Criterio para la elección óptima de una secuencia de controles de pasos ONU y la trayectoria correspondiente en el espacio parámetros formales tiene la forma:

V = V 0 (X 0, U 0) + V 1 (X 1, U 1) + ...+ V N - 1 (X N- 1, U N - 1) + V N (X N).

Criterio V generalmente llamado una victoria completa, y los términos incluidos en él son ganancias de paso. El problema requiere encontrar secuencia de controles de paso U n y una trayectoria que corresponda al máximo posible ganancias totales. Esencialmente una “victoria” completa V- una medida de la calidad de la gestión el proceso en su conjunto. Las ganancias de paso, aunque se incluyen en la medida de la calidad de la gestión de procesos en su conjunto, son en caso general no son medidas de la calidad de la gestión en sus correspondientes pasos, ya que el método pretende optimizar la gestión de procesos en su conjunto, y espectaculares controles de paso con un gran paso ganado, pero tirado afuera trayectoria optima no tienen ningún interés. La estructura del método no prohíbe, si es necesario, el uso de un criterio para determinar el pago de cada paso. Vn, diferente de los criterios adoptados en otros pasos.

Con índice norte- puntero-determinante de conjuntos de posibles vectores de estado - en problemas reales se puede asociar algún parámetro variable, por ejemplo: tiempo, distancia recorrida, nivel de potencia, medida del gasto de un determinado recurso etc. Es decir, el método es aplicable no sólo para optimizar el control de procesos que perduran en el tiempo, sino también a problemas de optimización de procesos multivariados instantáneos o insensibles. tiempo soluciones, si tales problemas “atemporales” y “no relacionados con los procesos” permiten su interpretación en varios pasos.

Ahora pasemos a la Fig. 8‑1 - figura. 8‑3, repitiendo la figura mutuamente relacionada. 40, 41, 42 del curso sobre teoría del control automático de P. de La Barriere.

En la figura. 8‑1 muestra el estado inicial del sistema “0” y el conjunto de sus posibles estados posteriores “1”, “2”, “3”, así como las posibles transiciones de cada posible estado a otros posibles estados. Y todo esto en conjunto es similar al mapa de un juego de mesa para niños, a lo largo del cual se mueven las fichas: cada paso de transición corresponde a su propio paso de pago, y en el tercer conjunto que completa el proceso, cada uno de los estados del sistema es dada su puntuación, colocada en un rectángulo. Diferencia fundamental del juego es que la adivinación sobre la elección del camino, utilizada en los juegos infantiles, basada en tirar dados o hacer girar una peonza, etc., es inaceptable en el control real, ya que se trata de la transferencia del control conveniente a aquellas fuerzas que son capaces. de controlar la pérdida de dados, rotación superior, etc.

Si elige un control óptimo en el primer paso, deberá prever todas sus consecuencias en los pasos siguientes. Por lo tanto, la descripción del algoritmo del método de programación dinámica a menudo comienza con una descripción de la elección del control en último paso, conduciendo a uno de los estados que completan el proceso. Al mismo tiempo, se refieren a la “práctica pedagógica”, lo que indica que la argumentación al describir un algoritmo desde el estado final al estado inicial es más fácil de percibir, ya que se basa en las condiciones que ya se habían establecido al inicio. del paso considerado, mientras que también se determinan las posibles terminaciones del proceso.

Arroz. 8-1. Sobre la esencia del método de programación dinámica.

De acuerdo con esto, en la Fig. 8‑2, se analizan las posibles transiciones al conjunto final de estados “3” desde cada posible estado en su conjunto anterior de estados “2”, como si todo el camino anterior ya hubiera sido pasado y permaneciera última elección El control de pasos óptimo completa todo el proceso. En este caso, para cada uno de los estados del conjunto “2” definimos Todo pagos totales como suma = “puntuación de transición” + “puntuación de estado terminal”. En el conjunto “2”, a partir de los obtenidos para cada uno de los estados, se determinan los posibles pagos totales en el mismo y memorable la ganancia total máxima y la transición correspondiente (fragmento de trayectoria). La ganancia total máxima para cada uno de los estados del conjunto “2” se toma en un marco rectangular y la transición correspondiente se marca con una flecha. En principio, puede haber varias transiciones óptimas de un estado a otro, que corresponden al mismo valor de la ganancia total. En este caso, todos ellos son indistinguibles en el método y son equivalentes entre sí en el sentido del criterio construido para la optimidad de la elección de la trayectoria en el espacio de parámetros que describen el sistema.

Arroz. 8-2. Sobre la esencia del método de programación dinámica.

Luego de esto, el conjunto “2”, que precedió al conjunto “3” que completa el proceso, puede considerarse como el final, ya que se conocen las estimaciones de cada uno de sus posibles estados (ganancias máximas totales) y se puede realizar una mayor optimización del mismo. La secuencia de controles de pasos y la selección de la trayectoria óptima sólo se pueden llevar a cabo para otros conjuntos no considerados que preceden al conjunto "2" en el proceso que se está optimizando (es decir, en los conjuntos "0" y "1").

Así, el procedimiento ilustrado en la Fig. 8‑2, es operativo en cada paso algorítmico del método al pasar de norte delgado (n - 1)-ésimo set, a partir del último norte-establecido en el estado inicial del sistema.

Como resultado de la búsqueda secuencial por pares de conjuntos, al recorrer su conjunto completo, se determina la secuencia óptima de controles de pasos sucesivos, la ganancia total máxima posible y la trayectoria correspondiente. En la figura. 8‑3, la línea gruesa muestra la trayectoria óptima para el ejemplo considerado.

En el ejemplo considerado, el criterio de optimización es la suma de las ganancias de los pasos. Pero el criterio de optimización también puede construirse como un producto. necesariamente no negativo factores.

Arroz. 8-3. Sobre la esencia del método de programación dinámica.

Dado que el resultado (suma o producto) no cambia cuando se cambia el orden de las operaciones con términos o factores, el algoritmo también es viable cuando se itera a través de conjuntos de posibles estados en el orden inverso considerado: es decir, desde el conjunto inicial hasta el final de estados posibles.

Si los conjuntos de estados posibles están ordenados en orden cronológico, esto significa que el esquema de cálculo se puede construir desde el presente real hasta el predicho. cierto futuro, y de lo previsto cierto futuro en el presente real. Esta circunstancia indica dos relaciones informales. vida real, que se encuentra fuera del algoritmo:

1). El método de programación dinámica es formalmente insensible a la naturaleza de las condiciones de causa y efecto (en particular, no distingue entre causas y efectos). Por esta razón, cada interpretación específica de un método en problemas aplicados debe construirse con una consideración informal de las condiciones reales de causa y efecto;

2). Si el pronóstico está de acuerdo con el control integral jerárquicamente superior, y el control privado incorporado en el control integral se lleva a cabo de manera calificada, por lo que el proceso de control privado avanza en armonía con el control integral jerárquicamente superior, entonces NO EXISTE UNA DIFERENCIA GESTIÓN SIGNIFICATIVA ENTRE EL PRESENTE ACTUAL Y EL FUTURO SELECCIONADO. El proceso es integral, por alguna razón el futuro, que aún no ha sucedido, pero ya ha sido elegido moralmente y objetivamente no prohibido desde Arriba, en el presente consumado protege a quienes lo crean en todos los niveles: desde proteger la psique de las obsesiones hasta proteger de agresiones “físicas” dirigidas. Es decir, si la matriz de posibles estados (también conocida como matriz de posibles transiciones) se elige en armonía con el control integral jerárquicamente superior, entonces ella misma es protección y armas, un medio de control al que se aplican las seis prioridades de los medios de Las armas generalizadas y el control están bloqueados.

Existencia objetiva matrices de posibles estados y transiciones se manifiesta en el hecho de que en la ceguera uno puede “vagar” por determinadas matrices de transición y experimentar sus propiedades objetivas. Esto último se evalúa subjetivamente, dependiendo de la actitud hacia estas propiedades, como una racha de mala suerte o como un tedioso “regreso al punto de partida” o una racha de mala suerte grave.

Pero utilizar el método de programación dinámica y su correspondiente desarrollo no está formalizado en el algoritmo. manifestaciones vitales de las matrices de transición, es necesario CUMPLIR con las condiciones PRINCIPALES:

En problemas de optimización de procesos de control, el método de programación dinámica<реального будущего: - по умолчанию>es eficiente sólo si se define el vector de objetivos de control, es decir Se debe seleccionar un estado específico que complete el proceso.

En realidad, este estado concreto final debe ser un proceso obviamente estable y aceptable, que abarque y lleve a cabo el proceso particular que se optimiza mediante el método. Pero la elección y determinación de las características específicas del proceso en el que debe entrar el sistema controlado una vez completado el algoritmo del método se encuentra fuera del método mismo, en el campo del "misticismo" o en el campo de los métodos desarrollados en ciencias esencialmente no matemáticas. .

“Cualquiera que sea el estado del sistema antes del siguiente paso, es necesario elegir el control en este paso para que la ganancia sea este paso Además, la ganancia óptima en todos los pasos posteriores fue máxima”. - E.S. Ventzel, “Investigación de Operaciones. Objetivos, principios, metodología.”, M., “Ciencia”, 1988, p. 109.

La imposibilidad de determinar el vector de objetivos de control (cuyo logro debe completar el proceso optimizado en el método) y/o de identificar el estado inicial del objeto de control no permite seguir esta recomendación, que cierra objetivamente la posibilidad de utilizar el método de programación dinámica, ya que el inicio y el final del proceso deben determinarse en el espacio de parámetros sobre el cual se construye el modelo matemático (u otro) del método. Además, la certeza terminación El proceso que se está optimizando tiene un carácter gerencial. valor más alto que errores y algunas incertidumbres en la identificación (detección) del estado inicial del objeto de control.

Esto es aún más cierto para transiciones de pasos multivariados sucesivos, si la matriz de estados posibles encaja en el proverbio “Todos los caminos conducen a “Roma””, y los que no conducen a “Roma” conducen al olvido. Para este tipo de proceso, si es elegido estable en el tiempo objetivo y muchas trayectorias conducen a él, luego, con un control estable paso a paso, la "distancia" entre las trayectorias óptimas que van al mismo objetivo desde diferentes estados iniciales, se reduce de paso a paso, hasta que las trayectorias óptimas coincidan completamente, a partir de un determinado paso. Esta afirmación es tanto más cierta cuanto más definida es la posición del vector objetivo que completa el proceso en el espacio de parámetros. Por analogía con las matemáticas, esto puede denominarse un conjunto asintótico de trayectorias: la naturaleza asintótica del conjunto de trayectorias se expresa en el hecho de que "todos los caminos conducen a Roma..."

Y de manera más general, las recomendaciones del Nuevo Testamento y del Corán afirman la posibilidad de adquirir la gracia, la misericordia del Todopoderoso, independientemente del estado inicial (la pecaminosidad de una persona) en el momento en que despertó y vio sus obras tal como son. .

Otra observación se refiere a la práctica: a entrar en la matriz de transición. Si el estado inicial del sistema se determina con un error mayor que el permitido al ingresar a la matriz de transición desde el estado inicial real al estado final seleccionado, entonces el control basado en el algoritmo libre de errores del método de programación dinámica conducirá a una completa resultados diferentes al estado óptimo calculado del sistema. En términos generales, no debe confundir una ventana abierta con una salida de una habitación en un piso alto.

Es decir, el método de programación dinámica, la necesidad de certeza tanto en la elección del proceso de estado final como en la identificación del verdadero estado inicial, por si mismo protegido de su uso para la imitación científica de la optimización del control en ausencia de éste. Esto distingue el método de programación dinámica, en particular del aparato de programación lineal, en el que los "expertos" pueden cargar estimaciones improvisadas de los coeficientes de ponderación en los criterios de optimización. Mín (Z) o Máx. (Z).

Este por si mismo La protección contra el uso indebido se refleja indirectamente en la literatura de la ciencia económica moderna: dado que no se ha decidido cuál es el vector de los objetivos de gestión en relación con la economía estatal, no hay publicaciones sobre el uso de aparatos de programación dinámica para optimizar la gestión de sistemas macroeconómicos de regiones y estados generalmente durante intervalos de tiempo históricamente largos.

Ejemplos de esto son “Economía matemática en una computadora personal”, ed. M. Kuboniwa, en el que el capítulo sobre gestión en economía contiene interpretaciones exclusivamente macroeconómicas del aparato de programación lineal (se llama directamente "Gestión en economía. Programación lineal y su aplicación"), pero no dice nada sobre el vector de objetivos de gestión y gestión. herramientas; En el libro de texto de Yu.P. Zaichenko citado anteriormente, la descripción del método de programación dinámica también se basa en problemas de diferente naturaleza.

Sin embargo, al motivar el rechazo de las interpretaciones macroeconómicas del método de programación dinámica, los autores suelen referirse a la llamada "maldición de la dimensionalidad" en matemáticas computacionales, que se expresa en el hecho de que un aumento en la dimensión del espacio de parámetros del problema norte provoca un aumento en el volumen de cálculos proporcional a Bueno, donde esta el exponente k > 1. Tal crecimiento superproporcional no lineal del volumen de cálculos realmente hace que muchos procedimientos computacionales viables sean inútiles para resolver problemas prácticos tanto por el gran gasto de tiempo de ordenador como por la acumulación de errores en los cálculos aproximados. Pero esta “maldición de la dimensionalidad” se aplica no sólo al método de programación dinámica, sino también a otros métodos, que, sin embargo, también se encuentran en sus interpretaciones macroeconómicas.

IMPORTANTE PRESTAR ATENCIÓN Y ENTENDER: Si en matemáticas vemos la ciencia de una medida universal objetiva (a través de "yat"), y en su aparato conceptual, terminológico y simbolismo vemos uno de los medios proporcionados a las personas para describir procesos objetivos particulares que distinguen de algunos procesos abarcadores, entonces cada descripción de un método de programación dinámica es resumen toda la teoría bastante general de la gestión expuesta anteriormente, incluidos sus aspectos místicos y religiosos; pero - en el lenguaje de las matemáticas.

Para explicar esto, veamos la Fig. 9, teniendo en cuenta la observación anterior sobre la certeza del estado inicial con suficiente precisión para entrar en las matrices de transición.

Muestra dos objetos de control “A” y “B” en el estado inicial; tres estados finales objetivamente posibles (conjunto “5”); conjuntos (“1” - “4”) de posibles estados intermedios; y los caminos de transiciones objetivamente posibles de cada estado a otros.

Arroz. 9 puede compararse con un cierto fragmento de la medida universal de desarrollo (predestinación multivariada), uno de los componentes de la trinidad "materia-información-medida".

Si aceptamos esta comparación con la Fig. 9, entonces es objetivamente posible una transición desde cualquier estado inicial “0:1” o “0:2” a cualquiera de los estados finales “5:1”, “5:2”, “5:3”. Pero esta posibilidad objetiva puede estar limitada por las cualidades subjetivas de los administradores que pretenden transferir los objetos "A" y "B" del estado inicial a uno de los estados finales.

Si la Discriminación se da desde arriba, entonces el administrador “A” (o “B”) quitará el “papel de calco” de la medida objetiva, en el que al menos una de las muchas formas posibles de transferir un objeto del estado inicial al estado inicial. muchos finales serán visibles. Si la Discriminación no se da, se pierde o se rechaza en la búsqueda de las concupiscencias, o la fe irreflexiva en alguna tradición, pero no en Dios según la conciencia, entonces en el “papel de calco” algunos caminos y estados estarán ausentes, pero pueden existir caminos objetivamente imposibles. “aparecen” y estados que no existen objetivamente en la verdadera medida dada por Dios. Además, según la arbitrariedad subjetiva del administrador, se selecciona entre muchos el estado final específico deseado. Por lo tanto, seguir una broma o cometer un error en la elección del estado final preferido puede provocar una catástrofe con consecuencias irreversibles.

Arroz. 9. Programación Dinámica, Discriminación y Suficiente teoria general gestión

Pero la matriz de estados posibles mostrada en la Fig. 9, predetermina probabilísticamente sólo un proceso privado en un cierto anidamiento mutuo de procesos.

Por esta razón, cada uno de los estados iniciales “0:1”, “0:2” puede pertenecer al mismo o a diferentes procesos abarcadores, en un sentido gerencial jerárquicamente superior al considerado; lo mismo se aplica a cada uno de los estados finales “5:1”, “5:2”, “5:3” en el par de estados “inicial - final”. Cada uno de los procesos que lo abarcan tiene sus propias características y dirección del flujo de eventos en él.

Puede resultar que el objetivo 5:1 sea muy atractivo cuando se lo ve desde muchos estados iniciales insatisfactorios. Pero es posible que el proceso global, al que pertenece el estado final “5:1” como estado intermedio, debido al entrelazamiento mutuo de procesos, termine en una de las etapas posteriores en una catástrofe completa e irreversible. Por ejemplo, el objetivo de “5:1” es no llegar tarde al Titanic, que emprende su primer viaje... que se convirtió en el trágico y último. Para no elegir tal objetivo entre un conjunto de objetivos objetivamente posibles, es necesario estar en armonía con la jerarquía más alto una gestión integral, que impida que la gestión privada, en armonía con ella, elija tal objetivo perteneciente a un proceso condenado a desaparecer.

Pero si la fig. 9 es un "papel de calco" de una medida objetiva, entonces puede resultar que algún estado final, que es un vector de metas, sea una broma que exprese el deseo de "tomar dos trenes a la vez". En otras palabras, diferentes componentes del vector de objetivos pertenecen a dos o más procesos jerárquicamente superiores mutuamente excluyentes que ocurren simultáneamente.

Este es uno de los casos de incertidumbre y defecto del vector objetivo, lo que hace que el método de programación dinámica sea inoperante y el proceso de “control” real sea inestable, ya que el mismo “barco” no puede aterrizar al mismo tiempo en la orilla derecha e izquierda. Al mismo tiempo, aunque hay bellezas atractivas en ambas orillas del río, vistos desde la distancia alrededor de la curva, los ríos se combinan, creando la apariencia de un lugar muy acogedor, adecuado para un picnic. Para no elegir tal vector de metas, también es necesario que la distinción entre las “orillas” derecha e izquierda del flujo del ser se dé desde Arriba.

Es decir, el algoritmo de programación dinámica, aunque se pueda ejecutar, va acompañado de una circunstancia externa más, que también es obvia, “por supuesto”, pero que en la mayoría de los casos se ignora: El estado que completa el proceso particular que se está optimizando debe pertenecer al proceso circundante, que obviamente tiene características propias aceptables del flujo de eventos en él.

Después de elegir un objetivo que pertenece al anidamiento mutuo proceso abarcador con características aceptables de estabilidad y la dirección del flujo de eventos en él, es necesario ver los caminos de transición y seleccionar la secuencia óptima de pasos sucesivos que conduzcan al estado seleccionado que completa el proceso en particular; aquellos. es necesario elegir un concepto de gestión.

El concepto de gestión, en medida objetiva, tiene características propias que, junto con las características subjetivas del sujeto-gerente, dan lugar a la predeterminación probabilística de su implementación del concepto de gestión. El valor de la predeterminación probabilística de la finalización exitosa del proceso es una medida objetiva jerárquicamente más alta, una evaluación del sistema cerrado "objeto + administrador + concepto", en contraste con la probabilidad, una medida objetiva del sistema "objeto + existente objetivamente". concepto de gestión”.

Por lo tanto, cuanto menor sea la probabilidad de transferir un objeto al estado final deseado, mayores deben ser las calificaciones del administrador, aumentando el valor de la predeterminación probabilística de la finalización exitosa del proceso de gestión.

De acuerdo con lo anterior, para un administrador, su reconocimiento de un determinado concepto de gestión puede expresarse en su renuncia a su cargo por iniciativa propia, derivada de su conciencia de su incapacidad para implementar el concepto de gestión reconocido por él; y el rechazo del concepto puede expresarse como una declaración de su aceptación y posterior celo sincero, pero no calificado esfuerzos para implementarlo. Conducirán al descrédito del concepto, ya que a los gerentes calificados y capaces de implementarlo no se les permitirá administrar debido a celos personales, sed de fama, salario o cualquier otra cosa por parte de un infrahumano bien intencionado, arrogante y no calificado.

Por falta de identidad probabilidades Y predeterminación probabilística Muy buen concepto puede arruinarse con malos artistas: es mejor andar en bicicleta de dos ruedas que en tres, pero no todo el mundo sabe cómo hacerlo; pero algunos todavía argumentarán que es imposible andar en un vehículo de dos ruedas, ya que cae solo, y no con una persona sentada sobre él, especialmente mientras se mueve, si no han visto previamente cómo viajan en un vehículo de dos ruedas. rodador; y otros, sin saber ni querer aprender a andar por sí mismos, por celos no dan la bicicleta a los que pueden.

Por lo tanto, después de aceptar el concepto para su ejecución, es necesario adherirse a la disciplina conceptual y cultivar la disciplina conceptual. Es decir, es necesario mantener suficiente alta calidad control en cada paso por todos los medios para no terminar al comienzo del siguiente paso en una posición desde la cual, de acuerdo con el concepto de control elegido, sea imposible transferir el objeto al estado final seleccionado. Este caso - se muestra la evasión del camino elegido "2:2" -> "3:3": arco "2:2" -> "3:1" - fallo irreversible del control, tras lo cual se produce la transición al estado " 5:3" es imposible; El arco “2:2” -> “3:2” es una falla de control reversible, en el sentido de que se requiere una corrección del concepto a partir del estado “3:2”, considerado como inicial.

Si en la Fig. 9, la medida objetiva jerárquicamente más alta de la calidad de los estados en los que pueden ubicarse los objetos de los sujetos-administradores "A" y "B" corresponde a la escala de la calidad de los estados posibles " I ”, entonces, para su beneficio, es aconsejable pasar del conjunto de estados “0” al estado “5:3”. Pero su elección de la dirección de la escala para evaluar la calidad de los estados está moralmente condicionada y es subjetiva: o como se muestra en la Fig. 9 " I ", o al contrario" I " dirección.

Si en la Fig. 9 estados posibles se agrupan en conjuntos “1”, “2”, “3”, “4”, “5” según la sincronicidad y luego en ejes de coordenadas 0ty, con la escala de calidad estatal " I » distancia desde el eje 0t a cualquiera de las trayectorias: el error de control actual al moverse a lo largo de esta trayectoria. Área entre ejes 0t y trayectoria: la integral de tiempo del error actual. Puede utilizarse como criterio mínimo para la optimización del proceso de gestión en su conjunto, es decir, como ganancia total, que es una medida de calidad en el método de programación dinámica, pero no estados posibles, No pasos de transición de un estado a otro, sino toda la trayectoria de transición. Pero en el caso general del método, las ganancias de paso se pueden construir de manera diferente.

Si se adopta un criterio de optimización del tipo mínimo

R UPR m =< R - (ФУР m - R С)

ΣR i =< k x ЭП, i = 1, ... , n

R UPR m => R mín(LP-4),

Encuentre Max(Y), Y = F K T P B

incógnita KB ( mi - A T) P B - (FUR m - R C) = R UPR l =< R - (ФУР m - R С)

R UPR m => R mín(LP-RV).

Encuentre Max(Y), Y = F K T P B

Durante los años 50 del siglo XX, el matemático estadounidense R. Bellman y varios de sus colaboradores desarrollaron una nueva método general Resolver problemas variacionales, llamados programación dinámica. Este método es adecuado para optimizar cualquier sistemas complejos, descrito no solo por ecuaciones diferenciales con o sin restricciones sobre una variable, sino también por otros aparatos matemáticos, incluidos varios sistemas estáticos, QS y sistemas económicos.

El MDP en su idea difiere significativamente del cálculo de variaciones clásico y del principio de máximo de Pontryagin. El método para resolver los dos últimos métodos es que se considera que la trayectoria óptima ya ha sido encontrada y conocida de alguna manera. Entonces toda esta trayectoria óptima se varía por completo, y la óptima se encuentra en el conjunto del conjunto de trayectorias variadas.

En el MDP se adopta una forma diferente de encontrar la trayectoria óptima, que consiste en que se busca la trayectoria óptima y la ecuación correspondiente áreas separadas o pasos. En otras palabras, es más sencillo dividirlo en varias etapas, cada una de las cuales contiene muchas trayectorias y sus correspondientes controles. Ahora parecería suficiente recorrer todas las trayectorias y elegir la óptima, pero este es un trabajo titánico irracional. Los creadores del MDP tomaron un camino diferente: en cada etapa seleccionan la óptima y descartan secciones de trayectorias no óptimas y poco prometedoras (en una etapa separada para una sección es mucho más fácil de hacer que para la trayectoria en su conjunto) . En este caso, resulta que no solo se descarta la parte no óptima de la trayectoria en esta etapa, sino también toda la trayectoria en su conjunto, que incluye una parte poco prometedora en la etapa considerada. La elección de la trayectoria óptima es mucho más fácil y corta.

Para confirmar esto, consideremos el problema estático de elegir la trayectoria óptima.

Ejemplo.

Dejar entre los puntos y se debe colocar. ferrocarril o autopista coste mínimo. El terreno es muy complejo y las investigaciones preliminares han demostrado que si la carretera se traza en línea recta, su coste será muy elevado. Los topógrafos y economistas examinaron secciones individuales relativamente fáciles de construir y determinaron el costo de construir estas secciones. El costo de construcción de una carretera será la suma del costo de construcción de estos tramos. esta tarea se puede resolver buscando entre todas las trayectorias posibles entre y y eligiendo la más barata. Sin embargo, este camino es prácticamente interminable. Por tanto, encontraremos TIR en el camino. Dividamos toda el área de construcción en etapas, desde las cuales se puede llegar al punto inicial o final en la misma cantidad de pasos. En TIR la solución empieza por el final, y aunque en nuestro caso el principio y el final son indistinguibles, según la tradición TIR la solución empieza por el final. Consideremos la transición del escenario al grano. Además, no nos interesa en absoluto la prehistoria del movimiento, es decir, ¿Cómo llegamos al escenario, pero si llegamos al punto o, entonces podemos llegar al punto en un solo paso con un costo de 8 desde el punto o 9 desde el punto? Colocamos estos costos en los círculos apropiados. No hay otras trayectorias de etapa a punto.



Retrocedamos un paso al escenario y analicemos las trayectorias por las cuales se puede llegar a un punto en dos pasos desde un punto hasta el escenario se puede llegar de una manera única, y se puede llegar a un punto en dos pasos a lo largo de una trayectoria única y el costo de esta parcela es de 8 unidades monetarias. Y del punto al escenario solo hay una manera de llegar y el costo de esta parcela es de 25 unidades. Y desde el punto al escenario puedes llegar de dos formas (cuesta 10 unidades) y (cuesta 11 unidades). Y aquí en esta etapa (y no en toda la trayectoria) es muy fácil elegir el camino óptimo () y rechazar el poco prometedor (). En este caso, no sólo se rechaza el camino poco prometedor, sino también todas las trayectorias que parten del punto e incluyen el tramo hasta. Pongamos en un círculo el coste más pequeño de la ruta.

Continuando con el comprensible movimiento y cortando trayectorias poco prometedoras, llegamos al punto desde el cual hay dos caminos hacia el escenario y, cortando el camino no óptimo, elegimos el mejor, que cuesta 4 unidades.

Ahora nos movemos desde el punto a lo largo de trayectorias no rechazadas, elegimos el camino óptimo, calculando el coste en unidades.

Está claro que al rechazar pequeñas secciones poco prometedoras entre etapas, rechazamos, sin hacerlo directamente, todas las trayectorias no óptimas que incluyen esta sección rechazada, es decir, la eficiencia de elegir la trayectoria óptima es muy alta.

Pasemos ahora al sexto. tarea típica gestión, es decir a un problema dinámico en el que el objeto de control se caracteriza por la ecuación .

Además -vector de coordenadas estatales

- vectores de control

Dejar y se requiere minimizar la integral

El MDP se basa en el principio de optimización. Este principio fue formulado por R. Bellman para amplia gama Sistemas cuyo comportamiento futuro está completamente determinado por su estado en el presente. Por tanto, no depende de la naturaleza de su “prehistoria”, es decir, el comportamiento del sistema en el pasado, siempre y cuando el sistema se encuentre actualmente en un estado determinado. Para ilustrar, considere la trayectoria óptima en el espacio de fase dimensional con los valores inicial y final del vector iguales a at y at.

Dejemos que se dé la condición inicial, el valor, en general, se desconoce.

Marquemos algún punto intermedio de la trayectoria correspondiente a , donde y llamemos al tramo de la trayectoria del al primero, y del al segundo.

El segundo tramo corresponde a la parte de la integral (1) igual a

El segundo tramo de la trayectoria también puede considerarse como una trayectoria independiente. Será óptimo si la integral correspondiente es mínima. El principio de optimización se puede formular de la siguiente manera:

Esto significa que en el caso de que el estado inicial del sistema sea y el momento inicial del tiempo sea, no importa cómo llegó el sistema a este estado. Su movimiento posterior óptimo será la trayectoria 2. De hecho, supongamos lo contrario: entonces el criterio (1), considerado para el intervalo de tiempo de a , será el más pequeño no para la trayectoria 2, sino para alguna otra trayectoria que surja del punto y mostrado por la línea de puntos en la Fig. 2. Pero en este caso, sería posible construir una trayectoria "mejor" que la trayectoria 1-2, y para el problema inicial, solo necesita elegir un control tal que la trayectoria descrita sea 1, y luego. Mientras tanto, partimos del hecho de que la trayectoria 1-2 es óptima. La contradicción demuestra la imposibilidad de la existencia de una trayectoria que proporcione un valor menor que la trayectoria 2. Por tanto, la trayectoria 2 es óptima.

El principio de optimización formulado anteriormente es una condición necesaria muy general para un proceso óptimo, válida tanto para procesos continuos como continuos. sistemas discretos.

El principio de optimización parece casi trivial y, a primera vista, una afirmación pobre en contenido. Sin embargo, a partir de él es posible, como demostró Bellman, mediante razonamiento metódico, derivar una condición necesaria para una trayectoria óptima, lo cual no es de ninguna manera trivial por naturaleza. En esencia, el principio de optimización no es tan trivial como podría parecer a primera vista. Esto se puede ver al menos en el hecho de que la afirmación, que parece ser su generalización: “Cualquier sección de la trayectoria óptima es una trayectoria óptima” generalmente no es cierta. Así, por ejemplo, la primera sección de la trayectoria de la Fig. 2 puede no ser en sí misma una trayectoria óptima, es decir no le des un mínimo a la integral , si sólo se dan las condiciones iniciales.

Expliquemos esta afirmación con una ilustración elemental. ¿Cómo distribuye sus fuerzas un buen corredor cuando corre largas distancias? ¿Funciona según el principio: Corre lo más rápido que puedas en cada segmento? Por supuesto que no, porque un corredor puede “perder fuerzas” mucho antes de llegar a la meta. Al distribuir sabiamente sus recursos de acuerdo con el objetivo final, el corredor ahorra fuerzas al principio para no “quedarse sin fuerza” al final de la distancia. Del mismo modo, cualquier gestión no debe ser “miope”; no debe guiarse únicamente por lograr el mejor efecto local inmediato. Debe ser “con visión de futuro”, debe estar subordinado al objetivo final, es decir. minimizando funcional (1) durante todo el intervalo desde hasta . Sólo en el caso en que el punto final de la primera sección esté dado en , la primera sección también es en sí misma una trayectoria óptima.

Se puede dar otra formulación del principio de optimización:

La equivalencia de esta y las formulaciones anteriores es obvia si entendemos por “prehistoria” del sistema aquella trayectoria 1 a lo largo de la cual el punto representativo llegó a su posición (Fig. 2). El estado del sistema en un momento dado se entiende como en este caso exactamente el estado correspondiente al punto en .

Expliquemos el método de razonamiento de Bellman en principio simple objeto gestionado con control

.

¿Dónde está la única coordenada del sistema?

Una única influencia controlada limitada a un área determinada.

Sea dada la condición inicial. Supongamos que necesitamos encontrar la ley de control, la integral mínima

donde por conveniencia tomamos el tiempo como cero, es decir ; Por simplicidad, asumiremos que el valor es fijo.

En primer lugar, discretizamos el problema, es decir aproximado por el valor de un sistema continuo discreto-continuo. Las razones de esto son las siguientes: en primer lugar, la discretización es una etapa inevitable en la preparación de un problema para su solución en una computadora.

En segundo lugar, es más fácil explicar la metodología de razonamiento utilizando el ejemplo de un sistema discreto-continuo. En términos generales, el principal ámbito de aplicación del método de programación dinámica se encuentra en el campo de los sistemas discretos-continuos o puramente discretos, o sistemas aproximables a ellos.

Dividamos el intervalo en secciones iguales de pequeña longitud y consideremos solo valores discretos en momentos de tiempo. Entonces la ecuación diferencial (27) del objeto se puede reemplazar aproximadamente por la ecuación en diferencias finitas

La condición inicial sigue siendo la misma.

El intervalo (28) se reemplaza aproximadamente por la suma

La tarea ahora es determinar la secuencia de valores discretos de la acción de control, es decir cantidades que minimizan la suma (32) bajo las condiciones (4), (30) y (31) impuestas al sistema de esta manera, se requiere encontrar el mínimo función compleja muchas variables. Sin embargo, el MDP permite reducir esta operación a una secuencia de minimizaciones de funciones mucho más simples de una variable.

Para solucionar el problema se utiliza una técnica que consiste en un movimiento “claro” hacia el final del proceso, es decir desde el momento hasta su inicio. Supongamos primero que estamos considerando el momento . Todos los valores, excepto el último, ya se han realizado de alguna manera, y se ha obtenido algún valor correspondiente al momento . Según el principio de optimización, el impacto no depende de la "prehistoria" del sistema y está determinado únicamente por el estado y el propósito del control.

Consideremos el último tramo de la trayectoria desde a . El valor afecta únicamente a aquellos términos de la suma (32) que se relacionan con este apartado.

Denotemos la suma de estos términos por .

de (30) obtenemos

Por tanto, también depende de . encontraremos valor válido, satisfaciendo (4) y minimizando el valor . Denotemos lo que se encontró. valor mínimo a través de . Este valor depende obviamente del estado del sistema en aquellos. del valor incluido en (33) y (34). Entonces

Prestemos atención al hecho de que para determinar es necesario minimizar sobre una sola variable de la expresión simple (33) (en lugar de minimizar sobre muchas variables) expresión compleja(32), habiendo completado este proceso, obtenemos en forma de funciones de ; esta función debe recordarse, por ejemplo, en algún tipo de dispositivo de almacenamiento al realizar cálculos en una computadora) al pasar a etapas posteriores de la solución.

4.1. Principio de optimización

Considere el sistema

y funcionalidad

(4.2)

que es necesario minimizar. El extremo derecho de las coordenadas de fase está libre.

Junto a este problema variacional, consideramos uno auxiliar, cuando el proceso se considera en el intervalo
y la funcionalidad se minimiza

. (4.3)

Deja que el mínimo se encuentre primero. (4.2) y el control óptimo correspondiente (Fig. 14a):

y luego - mínimo (4.3) y control óptimo (Fig. 14b):

En este último caso, se supone que en este momento el proceso comienza desde el estado
, logrado por el momento del tiempo al optimizar el proceso en el intervalo
.

En términos generales, la gestión
Y
difieren en intervalo y valores. El principio de optimización establece que los controles óptimos
Y
en la parte general del intervalo
coinciden, independientemente de los antecedentes del proceso y están completamente determinados por el estado
en este momento
.

En el caso de un extremo derecho libre, se demuestra el principio de optimización. De hecho, supongamos que en el sitio
gestión
Y
no coinciden y

(4.6)

Arroz. 14 A Fig.14 b

Luego para el primer problema introducimos el control.

(4.7)

y calcular el funcional

Al conducir (4.7) funcional (4.2) toma un valor menor que con (4.4). Pero controlar es óptimo. Por tanto, la suposición (4.6) es incorrecta.

una suposición

contradice lo que
- gestión que minimice
(4.3).

Así, queda que

,

y si solo hay un control óptimo, entonces

Brevemente, el principio de optimización se puede formular de la siguiente manera: la última sección de la trayectoria óptima es óptima independientemente de la historia del proceso.

4.2. Ecuación básica del método de programación dinámica.

Apliquemos el principio de optimización a la solución del problema variacional (4.1), (4.2). Para hacer esto, primero considere la funcionalidad. (4.3). Denotemos su valor más pequeño en las conexiones (4.1):

. (4.8)

Si
- control óptimo, entonces

.

Control óptimo
depende del estado inicial
en este momento
. Por eso, es una función de Y :
, y desde el control y sus variaciones funcionan
no depende. Está completamente determinado por los valores.
.

Intervalo
dividir en dos intervalos
Y
y escribimos la expresión (4.8) de la forma:

.

Según el principio de optimización, la última sección también es óptima:

(4.9)

Denotemos:

, (4.10)

Dónde
- incremento del vector de coordenadas de fase a lo largo del tiempo
. Se determina según las ecuaciones de movimiento (4.1). Sustituyendo
de (4.10) a la igualdad (4.9), obtenemos:

.

Aunque la función
Depende sólo de las coordenadas de fase y del tiempo, no se puede quitar del signo.
. Valor de incremento
a tiempo
depende del control de intervalos
. Pero
no depende del control en el intervalo
y se puede incluir bajo el signo
. vamos a presentar
bajo el signo de mínimo y dividir por
:

.

considerando que

;

,

obtenemos la ecuación básica del método de programación dinámica:

(4.11)

Esta relación consta de dos declaraciones:


Si
- control que minimiza la expresión
, entonces la ecuación básica del método de programación dinámica

(4.12)

Aquí
depende del control por definición, la función
no depende de él. Sin embargo, la derivada depende de la gestión. Esto se puede verificar si se representa en la forma

Y sustituir según sistema (4.1):

.(4.13)

Sustituyendo (4.13) en (4.12) obtenemos la ecuación de R. Bellman:

. (4.14)

Esta es una ecuación diferencial parcial con respecto a
, que después de la sustitución
se vuelve no lineal. Según la definición (4.8) en
se debe cumplir la condición final

.

En el caso de un intervalo infinito en
el proceso debe ser asintóticamente estable, es decir
.

En el caso de que se considere el funcional Boltz

(4.15)

La ecuación (4.12) sigue siendo válida, la función v en este momento
debe satisfacer la condición

. (4.16)

4.3. Dos problemas de control óptimo

En la teoría del control óptimo se distinguen problemas de dos tipos: control de programa y síntesis. En el primer problema, control óptimo construido en función del tiempo para condiciones iniciales y finales específicas, si se especifican. Adicción
considerado como un programa.

En el segundo problema, control óptimo. está construido para cada momento en el tiempo en función del vector de coordenadas de fase aquellos. en la forma

. (4.17)

La construcción de tal dependencia es el objetivo del problema de síntesis. La importancia de la segunda tarea es que la dependencia
da la ecuación comentario o un regulador óptimo que cierra el sistema. Se utiliza para un control óptimo del proceso transitorio.

El control del programa y el control de retroalimentación operan de maneras técnicamente diferentes. La primera puede realizarse mediante un mecanismo de reloj software, según una ley estricta, en función del tiempo. . Este control no reacciona de ninguna manera ante posibles desviaciones del estado del objeto respecto del estado ideal deseado. El control de retroalimentación se lleva a cabo mediante un regulador que, en función de los resultados de la medición. estado real Las coordenadas de fase producen una señal según la cual se desvía el elemento de control.

Ambas tareas están interconectadas. La solución a uno se puede expresar a través del otro. Sin embargo, observamos que el principio de máximo generalmente conduce a la representación del control en forma de programa, y ​​el método de programación dinámica, en forma de síntesis.

El problema de sintetizar el control óptimo de los procesos descritos por un sistema lineal de ecuaciones diferenciales minimizando al mismo tiempo los funcionales cuadráticos integrales ha recibido un desarrollo significativo. Se llama problema de diseño analítico de controladores óptimos (ACOR), o problema de A.M.

4.4. El problema del diseño analítico de controladores óptimos.

Supongamos que las ecuaciones del movimiento perturbado del sistema tienen la forma

(4.18)

matrices
, dimensiones
Y
, en consecuencia, tienen funciones conocidas como sus elementos
.

También se supone que el estado del sistema (4.18) en cada momento conocido.

El funcional cuadrático de Boltz se considera un criterio de optimización.

Dónde
- matrices definidas no negativas simétricas,
- matriz definida positiva; *) - índice de transposición.

Se requiere encontrar el control óptimo (funcional minimizador 4.19), que es función del estado actual.
.

Para resolver este problema, puede utilizar el principio máximo, pero el camino más corto es el método de programación dinámica.

Según este método, necesitas encontrar la función.
, satisfaciendo la ecuación

. (4.20)

En el caso general, este es un problema difícil, pero para sistemas lineales con un criterio de optimización cuadrática la función
se puede buscar en forma de alguna forma cuadrática.

(4.21)

Dónde
- existe alguna forma cuadrática, aún desconocida, que, en virtud de (4.16), satisface la condición final

. (4.22)

Por tanto, para sistemas lineales el problema se reduce a encontrar la función
. Derivando (4.21) teniendo en cuenta (4.18) obtenemos

Minimizando (4.23) por
, obtenemos

(4.24)

Porque
, entonces el control (4.24) en realidad proporciona un mínimo a la expresión
.

Sustituyendo (4.24) en (4.23), obtenemos

La forma cuadrática (4.25) es igual a cero para cualquier
sólo en el caso de que la matriz que lo forma sea igual a cero. Así, obtenemos la ecuación para determinar la matriz.

(2.26)

con la condición de frontera (4.22).

Integrando la ecuación (4.26) en la dirección opuesta, obtenemos
, y por tanto los parámetros de control óptimos (4.24). Es fácil demostrar que la matriz
- matriz simétrica. Para ello basta con transponer la ecuación (4.26). Entonces

de donde, teniendo en cuenta la simetría de las matrices resulta que
.

Nota 1. En el caso de que el sistema (4.18) sea estacionario (matrices A Y B– matrices numéricas), matrices - matrices numéricas,
(Se considera estado estacionario). Matriz también es numérico y satisface la ecuación algebraica

Nota 2. De la expresión (4.24) se deduce que para implementar un control óptimo se requiere información completa y precisa sobre el estado del proceso controlado.
. En el caso de que no se pueda obtener esta información, para implementar un control óptimo se utilizan estimaciones estatales obtenidas sobre la base de información incompleta disponible.

4.5. Síntesis del control local óptimo.

Al diseñar sistemas de control, a menudo es necesario que el comportamiento del sistema sea óptimo en algún sentido en un momento dado.

Consideremos un proceso controlado continuo descrito por un sistema de ecuaciones diferenciales (4.18).

Sea una funcional (función) dada
tiempo paramétrico dependiente y definido en un conjunto de funciones
Y
.

Necesitamos encontrar la ecuación.
, minimizando
, Dónde - momento actual en el tiempo. Este control se denomina localmente óptimo.

Como criterio de optimización, consideramos el funcional.

matriz cumplir los mismos requisitos que en el punto 4.4.

Es fácil demostrar que la ecuación localmente óptima
necesariamente satisface la condición

. (4.28)

Utilicemos esta condición.

Luego, derivando (4.27) en virtud de (4.18), encontramos una expresión para determinar la derivada

de la condición
Encontremos el control local óptimo.

El control encontrado en realidad entrega la derivada.
, porque

.

De la expresión (4.30) se deduce que el control local óptimo está completamente determinado por las matrices
, y para implementarlo se requiere información completa sobre el estado del proceso.
. Dadas varias matrices de funciones de peso.
, es posible garantizar determinadas propiedades del proceso controlado, en particular las propiedades de estabilidad o estabilidad asintótica.

Requerimos, por ejemplo, que el control local óptimo satisfaga la condición

. (4.31)

Luego, sustituyendo (4.30) en (4.29), de (4.31) encontramos

(4.32)

De la condición (4.32) se deduce que se cumplirá si la matriz
se determinará a partir de la condición

Consideremos ahora el movimiento controlado en el segmento
, Dónde - algún punto fijo en el tiempo. También requerimos que en el momento función matricial
cumplió la condición final

(4.34)

Luego, de una comparación de las fórmulas (4.24), (4.26), (4.22) y (4.30), (4.33), (4.34) se deduce que el control local óptimo (4.30) según el criterio (4.27) con la matriz
, determinado a partir de la ecuación (4.33) con la condición (4.34) coincide con el control (4.24), óptimo según el criterio cuadrático (4.19) en el intervalo
.

5. Control óptimo de sistemas estocásticos en condiciones de incertidumbre.

5.1. Características de las señales aleatorias.

El manual utiliza procesos y secuencias estocásticas (aleatorias) como modelos matemáticos de perturbaciones y errores de medición.

Proceso aleatorio
es una función cuyo valor en un momento fijo Hay variable aleatoria, es decir. un proceso aleatorio puede considerarse como una variable aleatoria dependiendo del parámetro . En el caso de que el parámetro cambia discretamente, el proceso aleatorio se llama secuencia aleatoria.

A través de
denotaremos la realización del proceso aleatorio
.

Cabe señalar que muchas características estadísticas de procesos y secuencias aleatorias coinciden.

Como es sabido, la característica más completa de un proceso aleatorio es - ley de distribución dimensional

o -densidad de distribución dimensional

Aquí el símbolo indica la probabilidad del evento encerrado entre paréntesis. Significado puede ser cualquier cosa desde yo hasta
. Para un proceso aleatorio arbitrario es imposible disponer de dicha información. Sin embargo, existe una clase de procesos aleatorios (secuencias), llamados procesos de Markov, cuyas características estadísticas están completamente determinadas por una ley de distribución bidimensional o densidad de distribución bidimensional.

A menudo, especialmente en problemas aplicados, se utilizan valores iniciales para describir estadísticamente procesos aleatorios.
y central
momentos -ésimo orden. Aquí el símbolo
Se indica la operación de promediación (expectativa matemática). Los siguientes puntos juegan el papel más importante:

Expectativa matemática (valor medio)

; (5.3)

Varianza de un proceso aleatorio

Segundo momento inicial

Dónde
- proceso aleatorio centrado con expectativa matemática cero;

Desviación estándar

. (5.6)

De la definición
,
,
Y
de ello se deduce que estas cantidades caracterizan un proceso aleatorio sólo en una sección fija . Para caracterizar la conexión entre dos secciones diferentes de un proceso aleatorio, se utiliza una función de correlación;

. (5.7)

Si la expectativa matemática
El proceso aleatorio no depende del tiempo y la función de correlación es función de un argumento.
, entonces tal proceso se llama estacionario en sentido amplio.

Si la densidad de distribución tiene un carácter gaussiano, entonces dicho proceso se llama gaussiano.

.

El proceso gaussiano se determina completamente especificando la expectativa matemática
y función de correlación
.

Una característica importante de un proceso aleatorio estacionario en un sentido amplio es la densidad espectral
- densidad de distribución de dispersión (energía) sobre frecuencias.

Densidad espectral
y función de correlación
conectado por transformada de Fourier directa e inversa:

; (5.8)

. (5.9)

Un proceso (secuencia) puramente aleatorio es un proceso en el que las variables aleatorias
mutuamente independientes para cualquier valor de los argumentos. Un proceso de este tipo se caracteriza completamente por una función de distribución unidimensional. Un proceso estacionario puramente aleatorio se llama ruido blanco si la función de correlación tiene la forma - funciones. La densidad espectral de tal proceso es constante en todas las frecuencias. Porque
, entonces es fácil ver que la varianza del ruido blanco es infinitamente grande. En realidad, estos procesos no existen en la naturaleza. Sin embargo, el ruido real puede ser sustituido por ruido blanco en su efecto sobre el sistema. Además, un proceso aleatorio real se puede representar como la señal de salida de algún sistema (filtro de conformación), cuya entrada es ruido blanco. Por tanto, el problema del análisis o síntesis estadístico de sistemas con características reales de influencias aleatorias se puede reducir al problema del análisis o síntesis estadístico cuando la señal de entrada es ruido blanco. Este tutorial generalmente utilizará ruido blanco y modelos de secuencia aleatoria pura.

Junto con los procesos aleatorios escalares, también podemos considerar los vectoriales. procesos aleatorios:

donde cada componente
es un proceso aleatorio. Para caracterizar un proceso aleatorio vectorial, se introducen los siguientes vectores y matrices:

Expectativa :

; (5.11)

Matriz de dispersión
:

(5.12)

con elementos

; (5.13)

Matriz de covarianza
:

(5.14)

con elementos

; (5.15)

Matriz

con elementos

. (5.17)

Aquí
significa transposición.

Directamente desde la definición de la matriz.
Se puede observar que las varianzas de los componentes del proceso aleatorio se ubican en su diagonal.

matrices
,
Y
tener las siguientes propiedades:

; (5.18)

para todos Y (5.I9)

Para un proceso aleatorio vectorial estacionario
la matriz de densidades espectrales se introduce como la transformada de Fourier de la matriz de covarianza
, es decir.

. (5.21)

Matriz
tiene la siguiente propiedad:

(5.22)

5.2. Descripción matemática de sistemas lineales bajo perturbaciones aleatorias.

En general, la ecuación de un sistema dinámico controlado se puede escribir como:

Dónde - operador (o en un caso particular función) del sistema, es decir un conjunto de reglas mediante las cuales se transforma la condición inicial
, acciones de control
, influencias perturbadoras
a la salida del sistema
en este momento .

Si el parámetro cambia continuamente, entonces llamaremos a dicho sistema continuo; Si cambia discretamente, entonces el sistema se llama discreto.

Si el operador no depende de los parámetros Y , entonces dicho sistema se llama estacionario. Operador puede ser lineal o no lineal, homogéneo o no homogéneo y puede especificarse de diversas formas, por ejemplo, en forma de ecuaciones diferenciales e integrodiferenciales, utilizando funciones de transferencia y ecuaciones en diferencias.

en esto libro de texto Sólo se considerarán sistemas lineales.

Consideremos sistemas descritos por ecuaciones diferenciales.

Denotemos por

-vector dimensional del estado del sistema; a través de
- -vector dimensional de acciones de control; a través de
- -vector dimensional de perturbaciones. Entonces la ecuación de movimiento de un sistema dinámico continuo lineal se puede escribir en la siguiente forma diferencial:

Aquí
,
,
- matrices dimensionales, respectivamente. Los elementos de estas matrices son funciones continuas. Si matrices
Y son constantes, entonces el sistema controlado se llama estacionario. Las ecuaciones (5.24) suelen denominarse ecuaciones de estado, ya que describen el cambio en las variables de estado del sistema a lo largo del tiempo.

A efectos de gestión es necesario conocer el estado del sistema en cada momento. Sin embargo, con la ayuda de medidores es posible obtener información, por regla general, solo sobre algunos procesos componentes o sus combinaciones. Además, las variables observadas (de salida) pueden contener errores de medición. En lo que sigue asumiremos que las ecuaciones de medición tienen la forma:

Dónde
-
-señal observada dimensional;
- matriz de dimensiones
, caracterizando el método de medición;
- error de medición. Si
( - matriz de identidad) Y
, entonces dicen que la medición es completa y precisa.

En algunos casos, es conveniente representar la solución del sistema (5.24) en forma integral a través de la matriz fundamental de soluciones.
, que satisface la siguiente ecuación matricial:

(5.26)

En forma integral, la solución del sistema (5.24), de acuerdo con la fórmula de Cauchy, se puede representar de la siguiente forma:

(5.27)

En la expresión (5.27), el primer componente tiene en cuenta el libre movimiento causado por condición inicial , el segundo componente tiene en cuenta el movimiento forzado provocado por las acciones de control durante el intervalo de tiempo
, el tercer componente caracteriza el movimiento forzado provocado por perturbaciones
en el intervalo
.

Respecto al sistema (5.24), (5.25), hacemos los siguientes supuestos:

(5.28)

De las relaciones (5.28) queda claro que los procesos aleatorios
Y
Son procesos de tipo ruido blanco. matrices
y vector son considerados famosos. Se supone conocido en cada momento. y controlar las influencias.

Uno de los tipos sistemas dinámicos Son sistemas discretos que se pueden dividir en dos tipos:

a) sistemas realmente discretos, como computadoras digitales, máquinas automáticas varios tipos etc.;

b) sistemas discretos que se obtienen como resultado del uso de sistemas continuos en momentos discretos en el tiempo, en particular, cuando se utilizan en el circuito de control de computadoras. El comportamiento de los sistemas discretos generalmente se describe mediante ecuaciones en diferencias, que son análogas a las ecuaciones diferenciales para sistemas continuos.

R Consideremos el comportamiento de un sistema continuo con control discreto, que se puede representar como una función vectorial constante por partes (Fig.15), es decir Las acciones de control se pueden escribir de la siguiente forma:

para (5.29)

Dónde - una secuencia de momentos en el tiempo, no necesariamente equidistantes entre sí.

Si estamos interesados ​​en el estado del sistema sólo en momentos discretos en el tiempo , entonces el sistema continuo (5.24) en estos momentos, usando la relación (5.27), se puede escribir en el siguiente formulario:

(5.30)

Teniendo en cuenta (5.29), reescribimos la relación (5.30) como:

(5.31)

El tercer término de la relación (5.3I) puede considerarse como una secuencia aleatoria. En el caso de que el proceso aleatorio sea del tipo ruido blanco, entonces es válida la siguiente relación:

,

Dónde
- secuencia puramente aleatoria.

Introduciendo designaciones

(5.32)

escribimos el sistema de ecuaciones (5.31) en la forma:

Las matrices se denominan matrices de transición de estado, control y perturbación, respectivamente;
- tiempo discreto.

En consecuencia, la ecuación de medición se puede escribir como:

A veces el sistema (5.33) - (5.34) se escribe de la siguiente forma:

Respecto a los sistemas (5.33), (5.34), asumiremos que:

(5.37)

Ejemplo. Consideremos el movimiento de rotación de un cuerpo alrededor de uno de los ejes bajo la influencia de un momento perturbador.
. Las ecuaciones de movimiento son:

, (5.38)

Dónde - momento de inercia del cuerpo; - ángulo de rotación del cuerpo en algún sistema de coordenadas inercial. Introduciendo nuevas variables

(5.39)

obtenemos las ecuaciones de movimiento del objeto en forma normal:

(5.40)

Para este sistema de ecuaciones la matriz fundamental
consta de dos soluciones vectoriales de columna del siguiente sistema de ecuaciones

con condiciones iniciales

De ello se deduce que la matriz
tiene la forma:

(5.41)

El mismo resultado se obtiene si buscamos la matriz
en forma de serie:

Consideremos el comportamiento del sistema (5.40) en intervalos de tiempo regulares. en momentos , es decir.
.

Con base en las relaciones (5.3I) - (5.33), suponiendo que
constantemente en el paso discreto, obtenemos el siguiente sistema discreto equivalente:

(5.43)

(5.44)

En el futuro, necesitarás conseguir una dependencia.
no sólo de Y
, pero de y todo lo anterior
. Usando las relaciones (5.33), para varios se puede escribir:

Continuando con los cálculos correspondientes, podemos obtener la relación

, (5.45)

donde esta la matriz
se define de la siguiente manera:

y
en
.

Las relaciones resultantes (5.45), (5.46) se utilizarán cuando análisis estadístico sistemas discretos.

5.3. Ecuaciones de momentos para sistemas lineales.

Consideremos primero sistemas continuos. Dejemos que las ecuaciones de movimiento tengan la forma;

. (5.47)

Sobre las influencias perturbadoras
y estado inicial asumiremos que satisfacen las condiciones (5.28).

Al obtener relaciones para la expectativa matemática del estado del sistema.
Promedimos la ecuación (5.47):

Teniendo en cuenta (5.28), obtenemos:

. (5.48)

Con base en (5.47), (5.48), la ecuación para el componente centrado
tiene la forma:

. (5.49)

Ahora encontremos la ecuación de la matriz de dispersión. Diferenciando por matriz
y dado que las matrices
Y
no al azar, obtenemos:

(5.50)

Para calcular la expectativa matemática.
Usamos la fórmula de Cauchy (5.27):

. (5.51)

Multiplicando la expresión (5.51) de la derecha por
, promediando teniendo en cuenta (5.28), obtenemos:

(5.52)

considerando que

, (5.53)

la ecuación (5.50) tomará la forma;

con condición inicial
.

Ahora describamos el comportamiento del sistema mediante la ecuación discreta

Supondremos que la condición inicial e influencias perturbadoras
satisfacer relaciones (5.37). Encontremos las ecuaciones para la expectativa matemática y la matriz de dispersión.

Promediando (5.55) y teniendo en cuenta (5.37), obtenemos:

Ecuación para el componente centrado.
tiene la forma:

Usando (5.57) y (5.37), encontramos la ecuación para la matriz de dispersión
:

(5.58)

Definamos la expectativa matemática.
, usando la relación (5.45) y las propiedades (5.37):

(5.59)

Asimismo

.

Por tanto, la ecuación para determinar la matriz es
tiene la forma:

5.4. El problema de filtrado óptimo y su solución por el método de Kalman.

Como se mostró anteriormente, para un control de retroalimentación óptimo es necesario tener información completa sobre el estado del sistema. Sin embargo, sólo se pueden medir algunas funciones estatales o combinaciones de ellas. Además, la señal observada contiene errores de medición. En tal situación, la tarea importante es obtener mejor estimación Estado del sistema basado en los resultados de las mediciones: el problema del filtrado óptimo.

Supongamos que el proceso dinámico se describe mediante un conjunto de ecuaciones diferenciales.

Dónde
--vector de estado dimensional,
--vector dimensional de influencias perturbadoras,
Y
matrices de dimensiones correspondientes.

Que sea mensurable
-vector dimensional de algunas combinaciones de funciones de estado (5.25)

Dónde
- error de medición.

En cuanto a las propiedades de los procesos aleatorios.
y estado inicial
asumirá que satisfacen las condiciones (5.28), es decir Supondremos que se trata de procesos aleatorios como el ruido blanco, no correlacionados entre sí y con el estado inicial del sistema.

Matemáticamente, el problema del filtrado óptimo se plantea como el problema de encontrar una estimación
estado del sistema (5.61)
basado en la información disponible
.

Kalman propuso buscar la ecuación del filtro en forma de un sistema lineal a cuya entrada se suministra la señal observada.
. Entonces las ecuaciones de movimiento de dicho sistema pueden describirse mediante un conjunto de ecuaciones

(5.63)

donde estan las matrices
Y
sujeto a determinación, es decir se especifica la estructura del filtro y los parámetros de la estructura y el estado inicial se determinan a partir de condiciones adicionales.

Porque
, entonces siempre habrá un error de estimación

.

Luego para determinar las matrices requeridas.
Y
Puedes utilizar la condición de estimación imparcial.

(5.64)

y la condición para su optimización

Dónde
es una matriz definida positiva simétrica.

Para utilizar las condiciones (5.64) y (5.65), encontramos una ecuación para el error de estimación. Restando (5.63) de (5.61) teniendo en cuenta (5.62), obtenemos

Si ahora ponemos eso

entonces la ecuación para el error de estimación es
tomará la forma:

con condición inicial

. (5.68)

De (5.67), (5.68) se deduce que la condición para la estimación insesgada (5.64) se cumplirá si ponemos

. (5.69)

Para verificar esto, basta con tomar la expectativa matemática de las expresiones (5.67), (5.68)

aquellos. se volvió homogéneo ecuación lineal con condiciones iniciales cero, de lo que se sigue inmediatamente que
para cualquiera .

Queda por definir la matriz.
de la condición del criterio mínimo (5.65). Supongamos para simplificar los cálculos que
es una matriz identidad constante, entonces

Aquí
- matriz de correlación del error de estimación (matriz de los segundos momentos centrales de errores de estimación de los componentes del vector de estado del sistema). Denotémoslo por
, entonces el criterio de optimización es la suma de los elementos diagonales de esta matriz. De acuerdo con la condición de optimización local, buscaremos el valor óptimo de la matriz.
de la condición de derivada mínima A criterios de tiempo:

. (5.71)

Es fácil demostrar que minimizar la derivada del criterio proporciona un mínimo para el criterio mismo.

Escribamos la expresión.
, omitiendo el tiempo por simplicidad :

. (5.72)

Sustituyendo en (5.72) la expresión para de (5.67) y la expresión correspondiente para , obtenemos:

(5.73)

encontraremos
, para lo cual escribimos la ecuación de Cauchy para (5.67):

Dónde
- función de matriz de peso. Entonces

Usamos la propiedad de la función delta:

,

Si tiene un hueco en el punto
.

Porque

. (5.74)

Del mismo modo puedes encontrar
:

. (5.75)

Sustituyendo las expresiones resultantes por
y expresiones correspondientemente transpuestas para
en (5.73) obtenemos:

La siguiente identidad se puede verificar fácilmente abriendo los corchetes del lado derecho y usando la simetría de la matriz.
:

Teniendo en cuenta la identidad, reducimos la ecuación (5.76) a la forma:

En el lado derecho (5.78) del coeficiente
Sólo dependerá el último término, que es una matriz definida positiva. Obviamente, para minimizar el criterio (5.71) se debe elegir
en la siguiente forma:

En este caso, el último término de la ecuación (5.78) se vuelve cero y la ecuación toma la forma

con valor inicial
.

Entonces, podemos escribir la ecuación del filtro.

Las ecuaciones (5.79), (5.80), (5.81) son las ecuaciones del filtro de Kalman-Bucy.

El sistema de evaluación (filtro) se presenta esquemáticamente en la Fig. 16.

Cabe señalar que la ecuación del filtro y sus parámetros no dependen de la matriz.
, sin embargo, este último debe ser positivo definido.

Para un sistema estacionario con perturbación estacionaria y ruido de medidor estacionario, después del final de los procesos transitorios, la ganancia de la matriz en el filtro de Kalman se vuelve constante
, y la ecuación de Riccati (5.80) degenera a una algebraica. En este caso, el proceso.
y, con Por lo tanto, el proceso
son estacionarios, entonces
.

Escribamos las ecuaciones del filtro de Kalman estacionario de la siguiente forma:

; (5.83)

Uno de los métodos utilizados con frecuencia para resolver la ecuación (5.84) (generalmente usando una computadora digital) es resolver la ecuación no estacionaria (5.80) con los valores constantes correspondientes de los coeficientes a partir de los cuales se forman las matrices A, C, Q, R están compuestos, y una matriz definida arbitraria no negativa de condiciones iniciales para en el tiempo actual hasta que la solución resultante alcance un valor constante en estado estacionario. Este valor final se toma como la solución deseada a la ecuación (5.84). Este método de solución es conveniente porque los algoritmos para resolver ecuaciones diferenciales son, por regla general, más eficientes que los algoritmos para resolver ecuaciones algebraicas no lineales.

Nota 1.

Una propiedad importante del error resultante es que no está correlacionado con el error de estimación, es decir

.

Nota 2.

Consideremos ahora que la ecuación de medición tiene la forma (5.62) y no hay error de medición. En este caso, para obtener una estimación
necesitas usar la derivada
señal observada

que se puede representar como (5.62)

Nota 3.

Para sistemas controlables descritos por un conjunto de ecuaciones.

La ecuación del filtro se puede derivar de manera similar. En este caso, la ecuación del filtro tendrá la forma

donde esta la matriz
y la matriz de correlación
, como antes, se encuentra a partir de la ecuación matricial

con condición inicial
.

CON El sistema de evaluación (filtro) se presenta esquemáticamente en la Fig. 17.

5.5. Síntesis de control localmente óptimo de sistemas estocásticos lineales con información completa y precisa.

Describa el movimiento controlado en condiciones de perturbación mediante un sistema de ecuaciones

Proceso aleatorio
y estado inicial supondremos que son independientes y tienen propiedades (5.28). Se supone que la condición
en cualquier momento conocido. busquemos el control
como algunos función lineal estado actual

. (5.88)

Entonces el problema de determinar el control local óptimo se reduce a encontrar
-matrices
. Matriz óptima
Buscaremos entre matrices cuyos elementos sean funciones continuas con valores del dominio abierto.

Como funcional que caracteriza el movimiento controlado, tomamos la expectativa matemática del funcional local
(4.27)

.

Introduzcamos la matriz de momentos de correlación.

. (5.89)

Usando (5.88), (5.89) funcional podemos
convertir a forma

(5.90)

Así, el valor del criterio de calidad en el momento actual está determinado por la matriz de momentos de correlación.

Encontremos una ecuación para determinarlo. La ecuación del proceso controlado (5.87) teniendo en cuenta (5.88) se puede representar en la forma

donde esta la matriz

De acuerdo con (5.54), la ecuación de la matriz
se verá como

o, teniendo en cuenta (5.91),

(5.92)

La condición inicial es obviamente

De (5.92), (5.93) teniendo en cuenta el supuesto de que las matrices son simétricas ,
Inmediatamente se deduce que la matriz
es simétrico, es decir
.

Así, el problema de determinar el control óptimo se ha reducido al problema de determinar la matriz
desde la condición mínima
(5,90). Para encontrarlo, usamos la condición (4.28). Derivando (5.90) ​​y teniendo en cuenta (5.92), obtenemos

Escribamos los componentes.
, Dependiendo de
:

Denotemos por
la matriz localmente óptima buscada. Introduzcamos en consideración una familia de funciones de comparación matricial.

.

Dónde
- pequeña variación arbitraria de la función matricial
de la clase en cuestión.

Incremento
, causado por la variación de la matriz
, se verá como

Entonces de (5.94) se sigue que

Por arbitrariedad
y suponiendo que la matriz
no es especial, debido a las condiciones
obtenemos una ecuación para determinar la matriz óptima

Valor encontrado
realmente ofrece el mínimo
, desde la segunda variación

debido a la cierta positividad de la matriz
. Aquí.

Comparando (5.88), (5.95) con (4.30), vemos que el control local óptimo encontrado coincide completamente con el control local óptimo para el caso determinista.

Así, el control localmente óptimo sintetizado para un sistema determinista con información completa y precisa sobre su estado resulta ser localmente óptimo para un sistema estocástico excitado por una perturbación aleatoria como el ruido blanco.

Un resultado similar ocurre con el criterio de calidad cuadrático (4.19).

Esto se explica por el hecho de que cuando
El comportamiento de un sistema estocástico depende de la perturbación.
, cuyo valor no es posible predecir, por lo que es aconsejable dejar el control igual que en el caso determinista en ausencia de estas perturbaciones.

5.6. Síntesis del control localmente óptimo de sistemas estocásticos lineales (teorema de separación).

Deje que el movimiento controlado se describa mediante la ecuación (5.87) y la ecuación de medición – (5.62).

Consideremos el problema de síntesis que es óptima según el criterio

En este caso buscaremos un control cuyo valor en el momento del tiempo determinado por los valores de la función vectorial
en el segmento
.

Denotemos por
evaluación óptima del estado del sistema controlado, mediante
- error de estimación.

Junto con el sistema (5.87), consideramos el correspondiente sistema incontrolable

con ecuación de medición

Para el sistema auxiliar se ha solucionado el problema de filtrado y se ha estimado
satisface la ecuación

(5.98)

con condición inicial

donde esta la matriz
determinado a partir de las ecuaciones (5.79), (5.80).

De las ecuaciones (5.87) y (5.97) se deduce que

, (5.99)

Dónde
- matriz fundamental de soluciones de sistemas (5.87).

Buscamos un control que se determine en el momento del tiempo. valores de la función vectorial
en el segmento
. Luego para cada implementación
proceso
control
adquiere un significado específico, es decir El control es un operador determinista sobre un vector de observaciones. Es por eso

(5.100)

De (5.99) y (5.100) se deduce que

Encontremos ahora la ecuación para determinar
. Para ello, derivando (5.100), obtenemos

Teniendo en cuenta (5.98), encontramos

(5.101)

Entonces la ecuación del filtro finalmente se escribirá en la forma (5.85)

con condición inicial

, (5.103)

aquellos. un filtro para determinar una evaluación del estado de control de un sistema es un enlace dinámico, cuya entrada recibe la señal medida y el control
.

Teorema de separación. El control local óptimo del sistema (5.87) según el criterio (5.96) tiene la forma:

Aquí
son las matrices dadas del funcional local, y
- solución de la ecuación vectorial (5.102) con la condición inicial (5.103).

Prueba. Consideremos el funcional (5.96). Teniendo en cuenta que las estimaciones
y error de estimación
no correlacionado para todos , funcional (5.96) se puede representar como

,

Desde entonces
tampoco afecta
, ni
, entonces el problema se reduce a minimizar bajo las condiciones (5.102), (5.103). En este caso, la valoración es completamente observable.

Considere la expresión

Teniendo esto en cuenta, no es difícil demostrar que

Así, en la ecuación (5.102), la expresión
puede considerarse como "ruido blanco" equivalente con una matriz de correlación
.

Como resultado, llegamos al problema de sintetizar una ecuación localmente óptima en el sistema (5.102), (5.103), perturbado por el "ruido blanco" con una medición completa y precisa de su estado, cuya solución se dio en el sección anterior. El teorema está demostrado. Se puede demostrar que el teorema de separación también es válido cuando se sintetiza el control óptimo utilizando una solución cuadrática.

Para seleccionar la solución óptima al realizar tareas de programación, a veces es necesario iterar gran número combinaciones de datos que cargan la memoria ordenador personal. Estos métodos incluyen, por ejemplo, el método de programación "divide y vencerás". En este caso, el algoritmo permite dividir la tarea en pequeñas subtareas separadas. Este método se utiliza sólo en los casos en que las subtareas pequeñas son independientes entre sí. Para evitar realizar trabajos innecesarios si las subtareas son interdependientes, se utiliza el método de programación dinámica propuesto por el estadounidense R. Bellman en los años 50.

La esencia del método.

La programación dinámica implica determinar la solución óptima a un problema de n dimensiones dividiéndolo en n pasos separados. Cada una de ellas es una subtarea con respecto a una variable.

La principal ventaja de este enfoque es que los desarrolladores se ocupan de problemas de optimización unidimensionales de subtareas en lugar de un problema de n dimensiones, y la solución al problema principal se ensambla de abajo hacia arriba.

Es recomendable utilizar programación dinámica en los casos en que las subtareas estén interrelacionadas, es decir, Tienen módulos comunes. El algoritmo permite resolver cada una de las subtareas una vez y las respuestas se almacenan en una tabla especial. Esto hace posible no volver a calcular la respuesta cuando se encuentra con una subtarea similar.

Problema de optimización de programación dinámica. El autor de este método, R. Bellman, formuló el principio de optimización: cualquiera que sea el estado inicial en cada uno de los pasos y la solución determinada en este paso, todas las siguientes se eligen óptimas en relación con el estado que toma el sistema en el final del paso.

El método mejorará la ejecución de problemas resueltos mediante enumeración de opciones o recursiones.

Construcción del algoritmo del problema.

La programación dinámica implica construir un algoritmo de problema en el que el problema se divide en dos o más subtareas de modo que su solución consista en la solución óptima de todas las subtareas incluidas en él. A continuación, es necesario escribir una relación de recurrencia y calcular valor optimo parámetro para la tarea en su conjunto.

A veces, en el tercer paso es necesario recordar adicionalmente alguna información auxiliar sobre el progreso de cada subtarea. A esto se le llama revertir.

Aplicación del método

La programación dinámica se utiliza cuando hay dos rasgos característicos:

  • optimización para subtareas;
  • la presencia de subtareas superpuestas en una tarea.

Al resolver mediante programación dinámica, primero debe describir la estructura de la solución. Un problema es óptimo si la solución del problema consiste en soluciones optimas sus subtareas. En este caso, es recomendable utilizar programación dinámica.

La segunda propiedad del problema, que es esencial cuando este método, - pequeño número subtareas Una solución recursiva a un problema utiliza los mismos subproblemas superpuestos, cuyo número depende del tamaño. información de fondo. La respuesta se almacena en una tabla especial; el programa ahorra tiempo al utilizar estos datos.

El uso de la programación dinámica es especialmente eficaz cuando es necesario tomar decisiones sobre la esencia del problema paso a paso. Por ejemplo, considere un ejemplo simple del problema de reemplazar y reparar equipos. Digamos que en una máquina de fundición en una planta de fabricación de neumáticos, los neumáticos se fabrican simultáneamente en dos diferentes formas. Si uno de los moldes falla, hay que desmontar la máquina. Está claro que en ocasiones es más rentable sustituir el segundo molde para no desmontar la máquina en caso de que este molde también resulte inoperativo en la siguiente etapa. Además, puede ser más fácil reemplazar ambas formas funcionales antes de que comiencen a fallar. El método de programación dinámica determina la mejor estrategia sobre la cuestión de reemplazar dichos moldes, teniendo en cuenta todos los factores: los beneficios de continuar operando los moldes, las pérdidas por el tiempo de inactividad de las máquinas, el costo de los neumáticos rechazados y más.




Arriba