Cisco выпустила «ДНК-тест» для нейросетей: как Model Provenance Kit ищет скелеты в коде
Представьте, что вы загружаете модель из открытого репозитория так же легко, как когда-то музыку с торрентов. Проблема в том, что вместе с «умной» нейросетью в корпоративную инфраструктуру может прилететь неприятный сюрприз: от скрытых уязвимостей до намеренно «отравленных» весов. Компания Cisco решила, что хватит играть в эту лотерею, и презентовала Model Provenance Kit — инструмент с открытым кодом для проверки «родословной» искусственного интеллекта.
Сегодня на платформах вроде Hugging Face доступны миллионы моделей. Разработчики их копируют, дообучают, объединяют и вновь выкладывают в сеть. В этом хаосе практически невозможно отслеживать, где заканчивается оригинальный код и начинаются сомнительные модификации. Без четкого понимания происхождения модели любой сбой или манипуляция данными становятся неразрешимой загадкой для аудита.
Цифровая генеалогия против «отравленных» весов
Главный риск использования сторонних моделей — это отсутствие прозрачности. Если модель имеет скрытые смещения в обучающих данных, она может выдавать ошибочные результаты в реальных сценариях, что для корпоративного сектора критично. Более того, злоумышленники могут специально модифицировать весы модели так, чтобы она срабатывала как бэкдор при определенных условиях. Model Provenance Kit призван создать формализованный подход к отслеживанию таких изменений.
Инструмент реализован на языке Python и предлагает CLI-интерфейс для создания уникального «отпечатка» модели. Вместо того чтобы верить на слово документации, система анализирует совокупность технических сигналов:
- метаданные и архитектурные особенности;
- сходство токенизаторов;
- геометрию эмбеддингов и характеристики нормализационных слоев;
- энергетические профили модели.
Режимы работы: сравнение и сканирование
Система работает в двух основных режимах, которые позволяют закрыть вопросы аутентичности. Режим compare предназначен для прямого сопоставления двух моделей. Это полезно, когда нужно понять, действительно ли перед вами прямой потомок конкретной базовой версии, или кто-то внес несанкционированные правки в архитектуру.
Режим scan работает масштабнее: он ищет совпадения в базе «отпечатков», которую Cisco уже начала формировать. Это позволяет примерно восстановить историю модели, даже если её сопроводительная документация была утрачена или намеренно изменена. Учитывая, что современный жизненный цикл ИИ включает постоянную дистилляцию и слияние моделей, такие инструменты становятся необходимым элементом гигиены разработки.
В настоящее время Model Provenance Kit уже доступен для сообщества на GitHub. Это шаг к тому, чтобы сделать использование открытого ИИ менее похожим на прогулку по минному полю.
Пока одни инструменты заботятся о безопасности и происхождении кода, другие доказывают свою способность в сложных прикладных задачах. Например, недавно ИИ продемонстрировал более высокую точность диагностики, чем профессиональные врачи в исследовании Гарварда.