Natural Gradient Descent (NGD)
Что такое Natural Gradient Descent?
Многие модели машинного обучения можно интерпретировать как вероятностные модели. В таких моделях цель заключается не просто в минимизации функции потерь, а в нахождении оптимального распределения параметров, которое лучше всего описывает данные. В этом плане NGD схож с методами второго порядка, которые тоже используют кривизну функции потерь, что позволяет делать более точные шаги в сторону минимума. Однако, в то время как обращение гессиана является сложной процедурой, использование NGD не требует стольких арифметических затрат, что и является одним из достоинств данного метода.
Что будет на семинаре:
1. Поговорим об использовании NGD как аппроксимации метода Ньютона, получим оценки сходимости, которые покажут конкурентоспособность данного алгоритма, а также поговорим о нескольких вариациях NGD для глубоких нейронных сетей.
2. Изучим новое предположение на неточность аппроксимации градиента и его влияние на сходимость метода.
3. Сравним теоретические оценки с экспериментами трансформере RoBERTa на датасете Cola.