Методы оптимизации круглых тензоров

18:35

Ссылка для подключения

На семинаре обсудим два ключевых сюжета:

Steepest Descent для матриц — все знают, что если использовать вторую норму в наискорейшем спуске для векторных параметров, то мы получаем SGD. Если же использовать бесконечную норму, то получается sign SGD. И что, на этом всё? Ничего подобного! При переходе в двумерный аниме мир матриц у нас появляется тонна различных норм, которые позволяют строить на первый взгляд совершенно разные, но на самом деле удивительно похожие алгоритмы оптимизации.

Квази-Ньютоновские методы в матричной форме — в матричном аниме мире не так очевидно, как должны выглядеть квази-ньютоновские методы, ведь параметры уже имеют размеренность матриц. Чем же нам приближать Гессиан? Ответ прост двумя матрицами! На семинаре мы обсудим, какая интуиция и математика стоят за этим подходом, и как же с этим всем связаны нормы из первого раздела.

Также обсудим:

  • Как алгоритм Ньютона-Шульца помогает GPT-4o выдавать вам лучший рецепт жареных пельменей с сыром, зеленью и сметаной?
  • Как эффективно приближать Гессиан функции ошибки при обучении современных нейронных сетей?
  • Передовые (NDA) результаты, полученные вашим покорным слугой, которые объединяют эти два сюжета в единое целое.
Используя этот сайт, вы соглашаетесь с тем, что мы используем файлы cookie.