Xiaomi розробила надшвидку модель розпізнавання голосу і зробила її OpenSource

Автор: Віктор Цирфа | 04 серпня 2025, 11:08

Xiaomi розробила модуль розпізнавання голосу під назвою MiDashengLM-7B. Використовуючи замість фіксованих алгоритмів нейромережі, компанія досягла найшвидших показників розпізнавання голосу в 22 синтетичних тестах. Це дозволяє будувати користувацькі платформи, які працюють практично без затримки. Модель може використовуватись в смартфонах, системах розумного будинку, автомобілях, тощо.

MiDashengLM-7B на льоту аналізує аудіо, відділяючи звуки навколишнього середовища або музику. Xioami вже активно застосовує цю голосову модель на практиці в своїх продуктах, наприклад, автомобіль YU7 постійно аналізує звук і може виявити звук дряпання або розбивання скла, що дозволяє вмикати сигналізацію навіть коли немає удару, який би зафіксував датчик руху.

Xiaomi опублікувала вихідний код просунутого голосового під ліцензією Apache License 2.0, а також виклала детальну документацію по техніці навчання і запровадження технології. Модель може стати базою для розробників і академічних дослідників, що прагнуть створювати відкриті голосові системи без залежності від закритих екосистем.

Для китайських компаній не характерна робота над проектами з відкритим кодом. Роблячи мовну модель відкритою, Xioami залучає більше розробників, що допоможе цьому продукту на рівних конкурувати з аналогами від великих технологічних корпорацій. Досвід свідчить, що великі і складні програмні продукти, типу операційної системи чи браузера, розвиваються швидше і стають більш конкурентними, якщо їх розвитком займається не одна компанія, а відкрита спільнота програмістів.