Хакатон Big Data Challenge
Якщо ви думаєте, що хакатон – цей захід на декілька годин/на днинку у форматі “похакатонили і розішлися по будинках”, ви помиляєтеся. Про те, як проходить хакатон “по хардкору” і без всяких “сюсі-пусі”, розповідає Data Analyst NIX Solutions Михайло :).
У кінці 2017 року компанія Vodafone Україна провела в Києві безпрецедентний за українськими мірками захід – хакатон Big Data Challenge, відкривши учасникам свої реальні телеком-дані.
Кого там тільки не було – в одно час і в одному місці зібралися:
• організатори від Vodafone, які надали дані і інфраструктуру;
• представники бізнесу, муніципальної влади, яка сформувала запити;
• аналітики, дата-сайнтисти і дата-інженери, які, власне, і були покликані для створення рішень;
• інвестори, готові вкладати фінанси в реалізацію цих самих рішень.
Великі інтернет-компанії і телеком-оператори вже усвідомили, який величезний актив вони мають – даними про своїх клієнтів. Головна ідея хакатона була в пошуку рішень для різних завдань, які :
• грунтовані на даних про клієнтів;
• можуть зробити наш світ трохи краще.
З боку міської влади це були, наприклад, такі запити:
• як переміщається транспорт і в який час доби. Побудувати модель, яка дозволить зробити використання транспорту комфортнішим, скоротити час очікування;
• оптимізація роботи пограничних служб : які потоки людей спрямовуються до пунктів пропуску, в який час;
• децентралізація: як сильно місто виросло, куди треба пустити маршрути, які маршрути вже не використовуються;
• туризм: як будувати туристичні маршрути;
• комунальні – як вибудовувати систему, нові квартали – розвиток інфраструктури.
Запити з боку бізнесу були наступні:
• розміщення магазинів, їх формат, асортимент, кількість квадратних метрів;
• аналіз нерухомості – де саме будувати;
• рекламні агентства: профіль клієнтів.
Від NIX Solutions в цьому заході взяли участь data analyst Михайло, data scientists Іван і Дмитро.
Всього у рамках хакатона було заплановане декілька етапів – для ефекту максимального занурення розповідаємо про кожного :).
Перший етап був ознайомлювальним і проводився у форматі Буткемпа : в конференц-залі зібралися близько 300 учасників з усіх куточків України, і ще як мінімум стільки ж брали участь в онлайн-трансляції.
Завданням Буткемпа було розібратися в структурі даних і зрозуміти, як саме їх можна застосувати з максимальною користю. Перед нами виступали менеджери Vodafone різного рівня і розбирали кейси успішного використання даних, а також знайомили з варіантами бізнес-запитів.
За підсумками цього етапу відразу ж було проведено тестування за математичною статистикою і data science, щоб подальше змагання проходило серед учасників з відповідним рівнем знань.
За результатами тесту наша команда пройшла в наступний етап, і ми відправилися додому готуватися до самого хакатону. Для цього нам передали тестовий семпл даних(250 Мб, 10 тисяч абонентів, 21 атрибут, 1 млн рядків).
Повернувшись в Харків і обдумавши усе почуте, ми підключили аналітиків усього нашого відділу і провели брейнсторм ідей для проекту на хакатоне :).
Другий етап – безпосередньо сам хакатон – проводився через 2 тижні. З відібраних на попередньому етапі учасників було сформовано більше ніж 30 команд, для яких провели презентацію кейсів і викликів(цього разу були представники реальних бізнесів – Укрпошта, ТБ-провайдер, ритейл компанія, мережа супермаркетів), і після цього рівно в 12: 00 субот був запущений таймер зворотнього відліку. Кожна команда могла вибрати собі технічних менторів(в основному це були представники Vodafone, вони підказували командам “Що зробити”?) і бізнес-тренерів(досвідчені стартапери і бізнесмени з експірієнсом роботи в різних галузях – медицині, будівництві, консалтингу, страхуванні і багатьох інших). З ними команди обговорювали ідеї своїх проектів, шукали цікаві застосування у бізнесі для своїх систем.
Тут семпл даних був вже більший: 2 Gb, 100 тисяч абонентів, 26 атрибутів, 10 млн рядків.
Нашу команду ми вирішили назвати Х-Team (що, як ви помітили, співзвучно з NIX :) ).
У 21:00 того ж дня проводився чекпойнт, на якому команди представляли членам журі ідеї своїх проектів. До цього часу у нас було вже 4 робітників ідеї, з яких нам хотілося займатися відразу двома. Наш бізнес-ментор підкинув ідею складання портрета відвідувачів open air заходів(концерти, фестивалі, мітинги) – це був план А, на який ми витратили усю суботу. Проте в запасі з домашнього брейнсторма у нас залишалася ще одна варта уваги ідея: виявлення прихованих і неявних ризиків при кредитуванні і страхуванні. Вислухавши все, ментори сказали, що найцікавішим вони рахують саме проект по виявленню ризиків :).
Попереду у нас була ціла ніч, щоб розвинути ідею, погуглить, сконструювати ознаки, навчити модель. До слова про організацію, для комфортного проведення нічного хакатона були створені усі умови – анлим кава і печеньки, інтернет і зручні пуфи-груші. Уранці ж нас чекав ще один чекпойнт, щоб розповісти менторам про наші успіхи. Потім у нас було 3 години на підготовку презентації і “підготовку себе” до доповіді. Що стосується виступів, вони були строго регламентовані – на спіч відводилося 3 хвилини.
За підсумками доповідей члени журі відібрали 12 команд, які вийшли у фінал. Наша команда була відмічена AWS нагородою, і в якості призу нам надали опцію роботи з Amazon- серверами у фіналі.
Третій етап почався відразу ж після хакатона – він припускав програму-акселератор з можливістю онлайн-спілкування з менторами і представниками бізнесу різних галузей.
Це був, мабуть, найцікавіший і неоднозначний етап. Він тривав півтора місяці, і за цей час ми провели переговори з різними кредитними і страховими організаціями, кредитними бюро.
Ми були у пошуках моделі співпраці, яка була б цікава і вигідна усім сторонам, тому що ми не можемо вирішити завдання без даних, дані неможливо отримати без договору, договір не підписують без демонстрації мінімально працюючих прототипів, які, у свою чергу, неможливі без отримання даних. Замкнутий круг :).
Впродовж третього етапу ми прийняли участь в реальних бізнес-переговорах, де кожне слово має бути зваженим. На фінальній фазі до нашої команди приєдналися ще аналітик Іра, менеджер Рената і дизайнери. Для нас був розгорнутий інстанс на AWS з максимальним семплом даних(21,5 GB, 30 атрибутів, 120 млн рядків), в якому ми змогли відразу будувати свої моделі.
Фінальний, четвертий етап – це пітчинг проектів перед інвесторами. Це були AVentures Capital, CYFRD, UAngel, Western NIS Enterprise Fund, Chernovetskyi Investment Group, а також топ-менеджмент Vodafone.
Вам напевно цікаво, що ж вийшло у нас, особливо в умовах такого тривалого, багатоетапного і насиченого заходу :). А ось що:
Суть нашого проекту – це сервіс, який по телеком-поведінці позичальника(дзвінки, їх тривалість, час доби, частота і суми поповнення, споживання трафіку і багато інших параметрів) може передбачати його кредитний рейтинг, навіть якщо він доки не має кредитної історії. Цей сервіс представляє інтерес для банків і фінансових установ.
За допомогою Machine Learning ми відстежуємо патерни телеком-поведінці позичальників і обчислюємо їх взаємозв’язок з його фінансовою поведінкою.
Переваги такого підходу полягають в тому, що :
- Ми можемо знати поведінку позичальника задовго до того, як він отримав свій перший кредит.
- Ми швидше реагуємо на зміну поведінки позичальника і можемо сигналізувати про це кредиторові.
- Ми можемо спрогнозувати кредитний рейтинг навіть для позичальників без історії.
Після закінчення доповідей самі учасники голосували за вподобаний проект, і більшості сподобалися проекти з соціальною спрямованістю, наприклад “Сервіс пошуку попутників зі схожими інтересами” або “Оптимізація нічних маршрутів громадського транспорту”.
Що стосується нашої команди, хакатон справив на нас позитивне враження і нагадав про можливість втілення ідей і розробки прототипу проекту всього за 2 діб шляхом плідної командної роботи. Для нас цей проект був корисний можливістю:
• швидко розібратися у сфері аналізу і обробки великих телекомунікаційних даних;
• отримати інформацію про різні можливості застосування телекомунікаційних даних;
• розробити практичні моделі машинного навчання на їх основі.
Варто відмітити, що розроблені моделі можуть бути використані не лише у рамках сфери кредитування, але і для оцінки ризиків в інших сферах бізнесу. Ця риса нашого проекту була відмічена інвесторами і менторами, і потенційно відкриває шлях до подальшого розвитку і розширення сфери застосування побудованої моделі.
Для організаторів цей захід став джерелом ідей по використанню телеком-даних в різних проектах, для інвесторів же – демонстрацією можливостей сучасного Data Science з використанням Telecom Big Data, а також можливістю внести свій вклад в актуальні технологічні проекти.
Автор статті Data Analyst NIX Solutions Михайло