Parameter-free подход
Почему это важно?
Современные модели вроде LLaMA и GPT требуют огромных объемов памяти. Методы оптимизации (например, Adam) усугубляют проблему: они хранят дополнительные статистики, «съедая» ресурсы. Sign-SGD предлагает альтернативу: вместо полного градиента он использует только его знак, что сокращает потребление памяти и ускоряет сходимость по сравнению с обычным SGD. Но как избавиться от тонкой настройки шага обучения, которая часто отличается от теоретических оценок?
Что такое parameter-free подход?
Это методы, которые автоматически адаптируются к задаче без ручного подбора гиперпараметров. Теоретически «идеальные» настройки шага обучения на практике бесполезны — они требуют информации о задаче, которая очень редко доступна. Parameter-free алгоритмы решают эту проблему, делая обучение моделей проще, быстрее и доступнее.
В семинаре будут разобраны следующие моменты:
1. Sign-SGD — как шаг по направлению градиента (а не по его величине) может быть эффективнее SGD и Adam.
2. Parameter-free стратегии — какие подходы позволяют Sign-SGD стать независимым от гиперпараметров.
3. Эксперименты — применение метода для предобучения LLaMA: как удалось сократить потребление памяти и ускорить обучение без потерь в качестве.
Если вы работаете с оптимизацией, тренируете LLM или просто хотите разобраться в трендах эффективного ML — приходите! Покажем, как сделать обучение моделей проще и дешевле.