Масштабная инвариантность: секретное оружие оптимизации

14.07.2025 13:00

О чем пойдет речь?
В мире оптимизации есть магическая идея, о которой почти не говорят, — scale-invariance. Что такое “scale”? Это когда вы берёте данные и просто растягиваете их, например, умножаете на константу (или, в более общем случае, делаете аффинное преобразование). Казалось бы, с точки зрения сути обучения задача осталась той же, но многие привычные методы оптимизации тут же начинают вести себя странно: шаги становятся слишком большими или слишком маленькими, сходимость ломается, а результат зависит от того, в каких единицах вы всё считаете. Но есть алгоритмы, которые будто бы не замечают, что кто-то подкрутил ручку масштаба — и вот о них и пойдёт речь.

На семинаре обсудим три ключевых сюжета:

Что особенного в методе Ньютона и почему он устойчив к аффинным преобразованиям;

Как строить scale-invariant методы: нормализация градиентов, адаптивные шаги, предобусловливание и др.;

Современные подходы: что обсуждают на передовой, зачем это нужно большим моделям и как всё это связано с LoRA-дообучением.

Дополнительно поговорим:

Почему Adam может не справиться, если параметры модели "живут" в разных масштабах;

Как геометрия параметров влияет на обучение;

Почему scale-invariance — это не просто красиво, но и практично.