Reinforcement Learning с гарантиями
18:35
Павел расскажет о подходе CALF (Critic as Lyapunov Function), который объединяет методы устойчивости динамических систем с алгоритмами RL и даёт строгие гарантии стабильности поведения агента.
На семинаре обсудим:
- Как value function может играть роль функции Ляпунова
- Почему нейросети могут нарушать свойства устойчивости
- Как механизм запоминания и политика отката помогают сохранить стабильность
- В чём уникальность CALF: онлайн-обучение без модели среды с формальными гарантиями
- Расширения метода: мультиагентные сценарии без отката