Угловой градиентный спуск
Обучение современных нейронных сетей основано на стохастическом градиентном спуске (SGD). Хорошо известно, что добавление в градиентный спуск импульса часто ускоряет сходимость. Я расскажу, как обобщенный SGD с произвольной «стационарной линейной памятью» можно отождествить с контуром в комплексной плоскости: например, простому SGD отвечает окружность, SGD с импульсом — эллипс, а SGD с памятью размера 1 общего вида — профиль Жуковского.
Особенно интересны контуры, имеющие угол: в многомерных плохообусловленных задачах (напр., нейронных сетях) соответствующие «угловые» алгоритмы ускоряют степенную сходимость (S)GD, умножая показатель степени на параметр угла. Идеальные угловые алгоритмы требуют бесконечной памяти, но хорошо приближаются алгоритмами с конечной памятью благодаря экспоненциально быстрым аппроксимациям степенных функций рациональными.
Наш подход к анализу SGD основан на «пропагаторном разложении» функции потерь и последующем исследовании пропагаторов с помощью контурного интегрирования и спектральных и асимптотических методов; в частности, балансирование положительного влияния угла на «сигнальные» пропагаторы с отрицательным влиянием на «шумовые» пропагаторы порождает любопытную фазовую диаграмму достижимых ускорений SGD.
Место: МИАН (ул. Губкина 8), 9 этаж, конференц-зал + Контур Толк.
Ссылка на подключение в Контур Толк. Пин-код: 6107