Ученые представили новый метод сжатия многоязычных ИИ-моделей
Volodymyr Hryshchenko/Unsplash
Ученые из Университета Джонса Хопкинса предложили новый подход к оптимизации многоязычные языковые модели (MLM), позволяющий существенно уменьшить их размер без потери производительности.
Что известно
MLM позволяют генерировать и анализировать тексты на разных языках. Однако чем больше языков они охватывают, тем хуже работают из-за "языковой интерференции".
В отличие от традиционных методов, когда для каждого языка разрабатывается отдельная нейросеть, исследователи решили использовать матрицы низкого ранга. Они позволяют сжимать данные и сокращать количество параметров, необходимых для добавления новых языков в модель.
По словам одного из авторов Хаорана Сюя (Haoran Xu), это работает как ограниченная цветовая палитра для художника. Нет нужды давать каждому ребенку в классе собственный набор красок, достаточно общей палитры из трех цветов. Это значительно снижает потребность в параметрах при масштабировании модели.
Авторы протестировали свой метод на 95 языках. Модель показала отличные результаты, используя при этом гораздо меньше параметров. Это открывает путь к созданию компактных и эффективных MLM, считают исследователи.
По мнению ученых, со временем появятся мобильные ИИ-приложения, способные работать одинаково хорошо на сотнях языков. Их конечная цель — применить новый метод для сжатия крупных MLM без вреда для их производительности.
Источник: TechXplore