Parameter-free подход

18:35

Почему это важно?

Современные модели вроде LLaMA и GPT требуют огромных объемов памяти. Методы оптимизации (например, Adam) усугубляют проблему: они хранят дополнительные статистики, «съедая» ресурсы. Sign-SGD предлагает альтернативу: вместо полного градиента он использует только его знак, что сокращает потребление памяти и ускоряет сходимость по сравнению с обычным SGD. Но как избавиться от тонкой настройки шага обучения, которая часто отличается от теоретических оценок?

Что такое parameter-free подход?

Это методы, которые автоматически адаптируются к задаче без ручного подбора гиперпараметров. Теоретически «идеальные» настройки шага обучения на практике бесполезны — они требуют информации о задаче, которая очень редко доступна. Parameter-free алгоритмы решают эту проблему, делая обучение моделей проще, быстрее и доступнее.

В семинаре будут разобраны следующие моменты:

1. Sign-SGD — как шаг по направлению градиента (а не по его величине) может быть эффективнее SGD и Adam.

2. Parameter-free стратегии — какие подходы позволяют Sign-SGD стать независимым от гиперпараметров.

3. Эксперименты — применение метода для предобучения LLaMA: как удалось сократить потребление памяти и ускорить обучение без потерь в качестве.

Если вы работаете с оптимизацией, тренируете LLM или просто хотите разобраться в трендах эффективного ML — приходите! Покажем, как сделать обучение моделей проще и дешевле.

Используя этот сайт, вы соглашаетесь с тем, что мы используем файлы cookie.