Масштабная инвариантность: секретное оружие оптимизации
О чем пойдет речь?
В мире оптимизации есть магическая идея, о которой почти не говорят, — scale-invariance. Что такое “scale”? Это когда вы берёте данные и просто растягиваете их, например, умножаете на константу (или, в более общем случае, делаете аффинное преобразование). Казалось бы, с точки зрения сути обучения задача осталась той же, но многие привычные методы оптимизации тут же начинают вести себя странно: шаги становятся слишком большими или слишком маленькими, сходимость ломается, а результат зависит от того, в каких единицах вы всё считаете. Но есть алгоритмы, которые будто бы не замечают, что кто-то подкрутил ручку масштаба — и вот о них и пойдёт речь.
На семинаре обсудим три ключевых сюжета:
Что особенного в методе Ньютона и почему он устойчив к аффинным преобразованиям;
Как строить scale-invariant методы: нормализация градиентов, адаптивные шаги, предобусловливание и др.;
Современные подходы: что обсуждают на передовой, зачем это нужно большим моделям и как всё это связано с LoRA-дообучением.
Дополнительно поговорим:
Почему Adam может не справиться, если параметры модели "живут" в разных масштабах;
Как геометрия параметров влияет на обучение;
Почему scale-invariance — это не просто красиво, но и практично.