Профессии будущего: аналитик Big Data, рассказывает Сергей Бориславский (Vodafone Украина)
Когда абонент мобильной связи должен получать уведомление о возможности подключить роуминг, чтобы это было не поздно и не рано? Как компания знает - есть ли у клиента автомобиль, или собака? Или - кто из ее клиентов мужчина, а кто - женщина, и как в этом всем задействовано машинное обучение? За все это и многое другое отвечает аналитик Big Data - человек, который работает с огромным количеством данных и превращает эти данные в успешные продукты для своей компании и новые полезные возможности для ее клиентов. А еще рядом с ним работают представители других новейших профессий, которые еще изменят наш мир в ближайшем будущем: product scientist и data scientist. Редакция gg пообщалась с Сергеем Бориславским, начальником департамента цифровых решений и платформ Vodafone Украина. Он рассказал о том, какие языки программирования нужно знать для работы в этой сфере, где можно получить профессиональные знания и как искусственный интеллект сможет в будущем еще больше помогать работать с данными в пользу всего человечества.
Сергей Бориславский, начальник департамента цифровых решений и платформ Vodafone Украина
gg: С чего началась ваша карьера и как вы пришли к должности, которую занимаете?
Сергей Бориславский: Сейчас моя должность называется Начальник Департамента цифровых решений и платформ Vodafone. Мы создаем цифровые продукты и внедряем платформы, на которых эти продукты разворачиваем внутри компании. А в целом мой путь работы в компании Vodafone где-то лет 15. Начинал я с "кузницы кадров" - call-центра. Причем работал там между парами. Потом я отправился в IT-службу - помогал сотрудникам справляться с проблемами, которые у них были на рабочих местах. Далее был финансовым аналитиком по рискам и уже потом стал аналитиком данных. Сначала создавал подразделение по работе с большими данными для B2B сегмента (B2B - business to business, когда продажи происходят между компаниями или организациями - примечание редакции). И после этого я уже возглавил этот департамент.
gg: А на кого вы учились?
Сергей Бориславский: По специальности я менеджер, и когда я начинал свою карьеру в Vodafone, профессии аналитик данных еще не существовало. Но у Vodafone всегда было достаточно много данных, и всегда было большое количество кейсов для того, чтобы мы с этими данными работали: для внутренней эффективности и для создания продуктов.
И мне надо было изучать эту профессию, когда она только создавалась. Начал с языков программирования - это был SQL. Сейчас еще специалисты изучают Python. Это два основных языка, с которыми в основном работают аналитики данных.
gg: SQL и Python обязательны для аналитика данных или нет?
Сергей Бориславский: Несколько лет назад, я бы сказал: "да". Сейчас ситуация немного меняется. Сейчас есть low-code инструменты (low-code development - концепция разработки программного обеспечения с низким уровнем кодирования - примечание редакции), или no-code (разработка, которая вообще не требует знаний кодирования - примечание редакции). Они дают возможность использовать в имеющейся библиотеке или в приложении, которое использует аналитик, уже готовые данные.
Но нужно профессиональное обучение, чтобы понимать, как все это работает. Потому что от твоей работы многое зависит. То есть, не просто показывать графики, которые смотрят вверх или вниз, но и понимать, почему они это делают, какая будет динамика в будущем, какие инструменты были использованы для того, чтобы этот результат был максимально эффективным.
gg: Из чего состоит ваш типичный день? Какие задачи вы выполняете?
Сергей Бориславский: Начну с того, что сейчас у меня в департаменте около 25 человек, в основном это product scientist, которые ведут какие-то проекты и общаются с data scientist и data analyst. Часть этих проектов основаны на данных, часть - нет. Во втором случае это платформы, которые мы только внедряем.
В целом рабочий день состоит из того, что у меня есть несколько основных встреч по продуктам, где мы обсуждаем раз в неделю или раз в две недели, на каком этапе у нас этот продукт или проект, какие у нас есть преграды, или какие у нас графики, и где я могу быть полезен.
Потому что product (scientist) - это как мини-CEO, который должен иметь четкое видение того, как продукт будет выходить на рынок, и как его можно улучшать. И моя роль - помогать моим product scientist быть успешными. То есть, если у них есть какие-то проблемы, или если они не понимают, как идти дальше, то мы вместе садимся и, либо переделываем стратегию по продукту, либо разрабатываем новую. Хотя бывает такое, что все хорошо, и нам только необходимы дополнительные ресурсы, которые мы можем попросить у компании.
gg: Можете объяснить разницу между data scientist и data analyst?
Сергей Бориславский: Data scientist работает на этапе, когда нам нужно создать модель, которая дала бы вид для продукта. То есть product говорит: "В моем продукте должны быть такие метрики, как аудиторные сегменты", и data scientist берет данные из нашего хранилища и на их основе, с помощью нейросетей, создает те показатели, которые будут в продукте.
То есть, это человек, который использует достаточно сложные элементы искусственного обучения для того, чтобы видеть, какой способ решения подходит. И это не всегда только аудиторный сегмент. Это может быть прогноз, например: "А что будет, если мы сделаем что-то". Например, у нас был ранее проект, где мы сотрудничали с ритейл-сетью, где прогнозировалось, что если построить магазин в этой локации, тогда продажи будут такими-то. Мы использовали данные мобильного оператора и клиента, который нам их предоставил, и, имея искусственный интеллект, делали прогнозирование.
Аналитик данных (data analyst) - человек, который умеет работать с данными. Понимает, где эти данные могут находиться, как работать с серверами, как работать с инструментами обработки данных. Также он может создавать визуализации данных и работать с прогнозами.
Подытоживая: data scientist - архитектор, который строит структуру и модель машинного обучения, а data analyst - использует все это.
gg: А можете больше рассказать, чем занимается product owner?
Сергей Бориславский: Если простыми словами, то product - это директор маленького завода, который формирует продукт. У него ежедневные встречи с командой. Кроме того, у product есть ежемесячные встречи со мной, где он рассказывает о своих достижениях и провалах. Он активно разрабатывает новые продукты, и, что интересно, у него есть право на ошибку. Если product выпустит продукт, который не на 100% будет удовлетворять рынок, то он попробует, посмотрит на ошибки и тогда выпустит более успешный продукт.
gg: Возможно еще есть роли о которых стоит упомянуть?
Сергей Бориславский: Еще есть data engineer, который помогает data scientist и data analyst. Он обеспечивает серверами, инструментами и скоростью работы. Он оптимизирует рабочее место, чтобы все занимались своим делом, а не думали "почему оно не работает так, как надо". Условно - это системный администратор, который все оптимизирует.
gg: Какие бы вы посоветовали курсы для студентов, которые тоже хотят стать аналитиками данных?
Сергей Бориславский: У нас есть школа Big Data Lab, которая готовит полноценных дата-аналитиков всего за полгода. Правда курс очень интенсивный, довольно сложный и требует определенной базовой подготовки. Он включает не только теорию, но и работу с реальными данными на практике. Поэтому по окончании специалисты умеют работать с данными и выполнять конкретные бизнес-задачи. Начинающим можно начать с условной Coursera.
Но сейчас курсов настолько много, что определить, какие из них лучшие, трудно, но в этой сфере для меня главное, чтобы человек был заинтересован и любознателен. Он должен находить ответы там, где другим их найти достаточно трудно. Если человек действительно захочет найти для себя курсы - он это сделает. Они есть как бесплатные, так и платные. Я бы не мог сказать, что платные курсы в 100 раз лучше. Это все зависит от человека. Из бесплатных курсов можно взять многое. Я сейчас говорю о своем пути, потому что не всегда была возможность покупать курсы. Для начала порекомендую посмотреть видео на YouTube и поискать что-то в Google. И потом выбрать для себя путь.
gg: А есть ли университеты, которые обучают будущих аналитиков данных?
Сергей Бориславский: В мире точно таких хватает, а что касается Украины - это, например, Национальный технический институт и Киевский национальный университет (имени Тараса Шевченко). Там дают профессиональные знания, которые люди могут использовать. Мы достаточно много брали к себе студентов именно из этих университетов, которые в Vodafone работают с данными. В основном они работают с внутренними кейсами - посмотреть, что сейчас необходимо абоненту, или какую услугу стоит предложить. Далее мы помогаем этим людям получать новые знания и улучшать свои навыки.
gg: Как именно Vodafone помогает получить новые знания?
Сергей Бориславский: Я уже вспомнил историю со школой Big Data Lab. После получения образования в ней мы даже брали немало новых людей к себе в команду. Если у тебя есть возможность, и ты хочешь работать с данными, то эта программа как раз для таких. И даже война не внесла значительных изменений в этот процесс.
gg: Какие технологии и инструменты используются для работы с большими данными? Возможно ChatGPT?
Сергей Бориславский: ChatGPT еще не используем, но изучаем. Те кейсы, которые мы видим, можно использовать для обслуживания. Этот искусственный интеллект можно насытить данными. Сказать, что теперь ты оператор контакт-центра, частично интегрировать его с биллингом, и тогда ChatGPT 24/7 сможет использовать данные о нашем операторе, наши данные и информацию о наших тарифах, чтобы предоставлять сервис клиенту. Я думаю, что в скором будущем такие кейсы будут возникать.
Только здесь еще стоит вопрос безопасности. Мы изучаем его, чтобы понять, можем ли использовать подобное решение внутри компании, чтобы не произошла утечка данных наших клиентов.
gg: А какие тогда технологии использует Vodafone?
Сергей Бориславский: Это разные собственные модели машинного обучения в зависимости от кейсов. Когда надо понять, кто пользуется автомобилем, - одна модель, когда надо поделить клиентов на мужчин и женщин - другая модель. Мы знаем, что в тех или иных кейсах отдельная модель показывает себя лучше. И человек, который работает с этими машинами, должен понимать, в каких кейсах какая модель будет иметь больший успех. Поэтому не получится взять готовое приложение, где внесены все данные и получить 100% результат. Пока это так не работает.
А вообще, искусственный интеллект в будущем будет сам ставить перед собой задачи в соответствии со спросом
gg: Те модели машинного обучения, которые вы используете, сколько времени нужно, чтобы их обучить?
Сергей Бориславский: Зависит от того, насколько у вас мощные серверы, и какие задачи вам нужны. Чтобы обучить нейросеть простым командам с мощным сервером, надо от часа до нескольких дней. Например, мы даем data set, где указано, кто из наших клиентов мужчины, а кто женщины - учись. Потом снова даем data set, но не указываем, кто есть кто, а уже ставим задачу: поделить аудиторию на мужчин и женщин. С нашим опытом это можно сделать за час. Но если делаем большой объем, где нужно несколько нейросетей, где одна обработала результат, предоставила данные и дальше обрабатывает результат следующая, то обучение может длиться несколько дней. Еще за нейросетью нужно постоянно следить, чтобы она постоянно выдавала новые данные и не деградировала, потому что тогда она будет предоставлять худшие данные. Если уже это (деградация) произошло, то нужно нейросеть учить с самого начала, чтобы она выдавала хорошие результаты.
gg: Какие примеры использования аналитики big data можно найти в реальной жизни?
Сергей Бориславский: Если брать кейсы Vodafone, то это кейсы, которые дают оператору возможность посмотреть, чем человек пользуется и доволен ли он нашими услугами, и предлагать дополнительные функции, чтобы человек с нами оставался как можно дольше.
Еще есть кейс - подозрительный номер. Если клиент подключает эту функцию, то до него не доходят сообщения или звонки, когда наша система определяет, что это может нести для клиента потенциальную угрозу. Например, у нас есть подозрение, что этот человек может использовать ваши персональные данные.
gg: Какую еще перспективу вы видите в использовании нейросетей?
Сергей Бориславский: Они избавят нас от необходимости тратить время на какие-то задачи, которые мы делаем сейчас. Например, делать презентацию за вас, используя те данные, которые у вас есть, или делать аналитику какого-то текста. Человек будет тратить свое время эффективнее: для формирования мысли или осознания того, в каком направлении идти. Я вижу, что ИИ будет значительно экономить время на поиск ответов. Например, используя Google, для поиска ответа нужно зайти на 10 сайтов, а ChatGPT может сделать это сразу.
gg: Главная магия искусственного интеллекта в двух вещах: прогнозирование и разгрузка человечества от рутинных дел?
Сергей Бориславский: Да, но еще хотелось бы, чтобы ИИ рисовал картины или писал музыку, но пока в этих задачах человек является фаворитом. А полный переворот наступит тогда, когда ИИ будет не просто создавать условный дизайн мебели, но и объяснять, почему это будет продаваться.
gg: Сможет ли ИИ заменить полноценно какие-то профессии?
Сергей Бориславский: Я вижу два варианта развития:
- Такие профессии, как дизайнер или копирайтер, исчезнут
- Люди будут использовать ИИ для улучшения результатов и станут более эффективным, потому что нейронным сетям еще надо задавать правильный запрос, и для создания мебели никто не сделает запрос лучше дизайнера.
А в будущем для большинства профессий ИИ будет забирать работу на себя. Это не значит, что всех уволят, просто у человечества появляется помощник, который будет вторым пилотом.
gg: Возвращаясь к вашей работе, как она изменилась во время войны?
Сергей Бориславский: Еще в 2019 году мы создали инфраструктуру, чтобы каждый в компании мог работать из любой точки мира. У всех нас есть ноутбуки и защищенные каналы доступа к нашим ресурсам. Только интернет нужен. И война показала, что если есть интернет - мы можем продолжать выполнять работу. Но это одновременно плюс и минус. Плюс - можно работать где угодно и всегда. Минус - не хватает живого общения с коллегами. Лично я столкнулся с единственной проблемой - перебои с интернетом и светом, но это было у большинства украинцев. А трудностей со стороны компании не было. Вся инфраструктура находится в облаке, поэтому работать можно.
gg: Как бы вы рассказали ребенку чем вы занимаетесь?
Сергей Бориславский: Моему старшему ребенку почти 9 лет и полтора года назад я ее привел в офис, и она спрашивала меня: "Папа, а чем ты занимаешься?". И если говорить об аналитике данных продуктов, - это достаточно сложно. Я старался объяснить, что мы делаем такие вещи, которые помогают нашим клиентам становиться лучше. Думаю, через год уже будет другая дискуссия с ребенком, где будут примеры, но пока так. Еще у меня есть второй ребенок, который скоро подрастет и будет тоже спрашивать, чем я занимаюсь. Поэтому я подумаю, какой ответ более подойдет для 5-летнего малыша.
Для тех, кто хочет знать больше
- Недостижимая вершина искусства: почему искусственный интеллект Midjourney рисует на руках 6 пальцев и как это можно исправить?
- Дмитрий Яковлев (MacPaw): Бесплатное предоставление VPN - это не потеря средств, а наш вклад в информационную безопасность Украины
- Валерий Яковенко (EcoFlow): мы должны производить электроэнергию дома, чтобы самостоятельно ее потреблять
- От пенопластовых самолетов до универсальной платформы SKIF: история украинской компании Culver Aviation
- История Stray: как кот из кибергорода стал открытием года и повлиял на игровую индустрию