Сайт недели: познай себя через «Яндекс Крипта»
Сегодня мы познакомимся с забавным сервисом «Яндекс Крипта», способным по истории вашего браузера определить вашу принадлежность к той или иной целевой группе. Именно таким образом создаётся более точная выдача поисковых результатов, сервисов и рекламы.
История технологии
Технология Крипта была создана в 2011 году и основана на фирменном методе машинного обучения Матрикснет. Чтобы технология научилась отличать одну возрастную группу от других, а мужчин от женщин, ей объяснили эти понятия на сотнях тысяч примеров. Для этого использовалась обезличенная информация о поле и возрасте пользователей из сети профессиональных контактов «Мой Круг» - люди чаще указывают реальные данные, когда речь идёт о работе. Затем для уточнения информации из профессиональной сети её сравнили с указанной в профиле пользователя на Яндексе. После перекрёстной проверки осталось около миллиона анкет с наиболее достоверной информацией.
Потом система собрала информацию о поведении этих пользователей в интернете. Например, о длине поисковых запросов, наличии в них определённых слов, о периодах активности за сутки и т.д. Социально-демографические признаки и данные о поведении пользователей в интернете использовались для обучения алгоритма.
Из этих данных разработчики создали две выборки: обучающую и тестовую. Пользователей разделили на две группы: примерно 700 тысяч для обучения Крипты и 300 тысяч для последующей проверки. Проанализировав данные из обучающей выборки, Крипта отобрала 300 наиболее важных факторов для определения пола и возраста, а также рассчитала значимость каждого из них.
Следующий этап - проверка того, насколько хорошо обучилась Крипта. Из данных в тестовой выборке убрали информацию о поле и возрасте пользователей, чтобы Крипта выяснила это самостоятельно. Для каждого пользователя она определила вероятность того, мужчина это или женщина и к какой из пяти возрастных групп он относится. Разработчики сравнили результаты с имеющимися данными и усовершенствовали алгоритм обучения. После ряда проверок и усовершенствований технологию внедрили.
Работа и применение системы
При выборе нужной аудитории из всех пользователей Яндекса пол определяется с вероятностью 74% — в полтора раза точнее, чем наугад. Возрастная группа, например, от 25 до 34 лет (самая большая по численности группа пользователей) определяется с вероятностью 45%, что более чем в два раза точнее случайного определения. Когда реклама таргетируется на меньшую аудиторию, точность определения демографии увеличивается. Например, при охвате половины аудитории указанные вероятности равны 85% и 52% соответственно.
Крипта, как и положено в 21 веке, постоянно поддерживает знания в актуальном состоянии, каждый день обрабатывая и обновляя данные о практически всех пользователях. Также технологию можно научить различать пользователей интернета не только по полу и возрасту. Ей не важно, какие общие признаки или интересы объединяют людей в реальной жизни. Однако Крипта отличит разные группы друг от друга, если их поведение в интернете будет заметно различаться.
После клика на ссылку тотчас же выдаётся диаграмма, по которой можно узнать, что Крипта думает о вас. Сверху вы можете посмотреть мою диаграмму. С холостяком она угадала, а вот с меломаном - нет. С моим слухом любитель музыки из меня никакой. Самый забавный пункт - "мама". Я на 10% "мама"! А где же "папа"? Авторы сервиса явно дали маху, упустив этот пункт. В общем и целом, Крипта не идеальна, но работу свою вполне может выполнять в области рекламы (что и делает вполне успешно, раз её до сих пор применяют) с учётом дальнейшего допиливания до состояния, близкого к совершенству. Кстати, а насколько точным у вас получился анализ "доктора психологических наук Крипты"?