Xiaomi разработала сверхбыструю модель распознавания голоса и сделала ее OpenSource

Автор: Віктор Цирфа, 04 августа 2025, 11:08

Xiaomi разработала модуль распознавания голоса под названием MiDashengLM-7B. Используя вместо фиксированных алгоритмов нейросети, компания достигла самых быстрых показателей распознавания голоса в 22 синтетических тестах. Это позволяет строить пользовательские платформы, которые работают практически без задержки. Модель может использоваться в смартфонах, системах умного дома, автомобилях и т.д.

MiDashengLM-7B на лету анализирует аудио, отделяя звуки окружающей среды или музыку. Xioami уже активно применяет эту голосовую модель на практике в своих продуктах, например, автомобиль YU7 постоянно анализирует звук и может обнаружить звук царапанья или разбивания стекла, что позволяет включать сигнализацию даже когда нет удара, который бы зафиксировал датчик движения.

Xiaomi опубликовала исходный код продвинутого голосового под лицензией Apache License 2.0, а также выложила подробную документацию по технике обучения и внедрения технологии. Модель может стать базой для разработчиков и академических исследователей, стремящихся создавать открытые голосовые системы без зависимости от закрытых экосистем.

Для китайских компаний не характерна работа над проектами с открытым кодом. Делая языковую модель открытой, Xioami привлекает больше разработчиков, что поможет этому продукту на равных конкурировать с аналогами от крупных технологических корпораций. Опыт показывает, что большие и сложные программные продукты, типа операционной системы или браузера, развиваются быстрее и становятся более конкурентными, если их развитием занимается не одна компания, а открытое сообщество программистов.