Reinforcement Learning с гарантиями

18:35

Ссылка для подключения.

Павел расскажет о подходе CALF (Critic as Lyapunov Function), который объединяет методы устойчивости динамических систем с алгоритмами RL и даёт строгие гарантии стабильности поведения агента.

На семинаре обсудим:

  • Как value function может играть роль функции Ляпунова
  • Почему нейросети могут нарушать свойства устойчивости
  • Как механизм запоминания и политика отката помогают сохранить стабильность
  • В чём уникальность CALF: онлайн-обучение без модели среды с формальными гарантиями
  • Расширения метода: мультиагентные сценарии без отката
Используя этот сайт, вы соглашаетесь с тем, что мы используем файлы cookie.