Reinforcement Learning с гарантиями

03.07.2025 18:35

Павел расскажет о подходе CALF (Critic as Lyapunov Function), который объединяет методы устойчивости динамических систем с алгоритмами RL и даёт строгие гарантии стабильности поведения агента.

На семинаре обсудим:

Как value function может играть роль функции Ляпунова
Почему нейросети могут нарушать свойства устойчивости
Как механизм запоминания и политика отката помогают сохранить стабильность
В чём уникальность CALF: онлайн-обучение без модели среды с формальными гарантиями
Расширения метода: мультиагентные сценарии без отката