Cisco випустила «ДНК-тест» для нейромереж: як Model Provenance Kit шукає скелети в коді

Автор: Павло Дорошенко | 04 травня 2026, 11:59

Уявіть, що ви завантажуєте модель із відкритого репозиторію так само легко, як колись музику з торентів. Проблема в тому, що разом із «розумною» нейронкою в корпоративну інфраструктуру може прилетіти неприємний сюрприз: від прихованих уразливостей до навмисно «отруєних» ваг. Компанія Cisco вирішила, що вистачить грати в цю лотерею, і презентувала Model Provenance Kit — інструмент з відкритим кодом для перевірки «родословної» штучного інтелекту.

Сьогодні на платформах на кшталт Hugging Face доступні мільйони моделей. Розробники їх копіюють, донавчають, об'єднують і знову викладають у мережу. У цьому хаосі практично неможливо відстежити, де закінчується оригінальний код і починаються сумнівні модифікації. Без чіткого розуміння походження моделі будь-який збій або маніпуляція даними стають нерозв'язною загадкою для аудиту.

Цифрова генеалогія проти «отруєних» ваг

Головний ризик використання сторонніх моделей — це відсутність прозорості. Якщо модель має приховані зміщення в навчальних даних, вона може видавати помилкові результати в реальних сценаріях, що для корпоративного сектору критично. Більше того, зловмисники можуть спеціально модифікувати ваги моделі так, щоб вона спрацьовувала як бекдор за певних умов. Model Provenance Kit покликаний створити формалізований підхід до відстеження таких змін.

Інструмент реалізований на мові Python і пропонує CLI-інтерфейс для створення унікального «відбитка» моделі. Замість того, щоб вірити на слово документації, система аналізує сукупність технічних сигналів:

  • метадані та архітектурні особливості;
  • схожість токенізаторів;
  • геометрію ембеддингів та характеристики нормалізаційних шарів;
  • енергетичні профілі моделі.

Режими роботи: порівняння та сканування

Система працює у двох основних режимах, які дозволяють закрити питання автентичності. Режим compare призначений для прямого зіставлення двох моделей. Це корисно, коли потрібно зрозуміти, чи дійсно перед вами прямий нащадок конкретної базової версії, чи хтось вніс несанкціоновані правки в архітектуру.

Режим scan працює масштабніше: він шукає збіги в базі «відбитків», яку Cisco вже почала формувати. Це дозволяє приблизно відновити історію моделі, навіть якщо її супровідна документація була втрачена або навмисно змінена. Враховуючи, що сучасний життєвий цикл ШІ включає постійну дистиляцію та злиття моделей, такі інструменти стають необхідним елементом гігієни розробки.

Наразі Model Provenance Kit вже доступний для спільноти на GitHub. Це крок до того, щоб зробити використання відкритого ШІ менш схожим на прогулянку мінним полем.

Поки одні інструменти дбають про безпеку та походження коду, інші доводять свою спроможність у складних прикладних задачах. Наприклад, нещодавно ШІ продемонстрував вищу точність діагностики, ніж професійні лікарі у дослідженні Гарварду.