Благодаря социальным сетям и метаданным сотовой связи специалисты получили удобный и достаточно точный инструмент для изучения общества. Некоторую информацию люди публикуют в соцсетях сознательно, а часть важных данных выдают непроизвольно. Скажем, анализ анонимных метаданных сотовой связи показывает трафик на дорогах, скорость движения автомобилей, образование пробок, пассажиропотоки общественного транспорта. Это довольно логичные варианты дата-майнинга. А вот группа учёных из Telenor Group Research, MIT Media Lab, Flowminder Foundation и Стокгольмской школы экономики нашла весьма нестандартный вариант.
Исследователи доказали, что по логам сотовой связи можно предсказывать… занятость. Довольно точно определяются безработные и представители ещё 17 родов занятий.
По информации учёных, это первое в мире исследование такого рода, когда безработных или профессию человека вычисляют на индивидуальном уровне с помощью глубинного обучения по логам сотовой сети. Раньше исследователи пытались предсказать только общий уровень безработицы по мобильным данным, но не профессии конкретных людей.
Исследователи подчёркивают, насколько важно иметь точную статистику безработных в обществе. Это важный экономический индикатор для изучения рынка труда, который помогает строить экономические прогнозы и управлять экономикой. Хотя избыток свободных трудовых ресурсов приятен для работодателей, но государство обычно ставит целью снизить безработицу ниже определённого уровня.
Узнать точную информацию о безработных тяжело. Для этого требуется периодически проводить масштабные социологические опросы. В некоторых странах фактический уровень безработицы сильно превышает показатель официально зарегистрированных в органах служб занятости.
Такие опросы отнимают немало времени и ресурсов. Например, в США действительно постоянно проводят такие опросы в домохозяйствах и публикуют статистику. В менее развитых странах из-за дороговизны опросов их проводят нерегулярно и с недостаточным охватом. Теперь исследователи нашли альтернативный вариант, который кардинально решает проблему.
Сотовые телефоны сейчас есть даже у бомжей, поэтому анализ метаданных обеспечивает практически полный охват трудоспособного населения во многих странах (в целом мобильники есть у более 50% населения Земли). О таком охвате социологи могут только мечтать. Инженеры показали, что метаданные сотовой сети обеспечивают достаточный пространственный охват и точность во времени, чтобы проводить эффективный дата-майнинг.
Беспрецедентный охват и точность метаданных сотовой сети в прошлые годы учёные использовали для вычисления вспомогательных индикаторов уровня бедности, неграмотности, оценки численности населения, миграции и распространения вирусных эпидемий. На индивидуальном уровне метаданные сотовой сети помогают предсказать социально-экономический статус человека, уровень дохода, его демографические характеристики и тип личности. Теперь дошло дело и до статуса занятости.
Исследователи применили модель глубинного обучения на массивном наборе данных, полученных в одной бедной южноазиатской стране. Для обучения программы использовали результаты опроса 200 000 человек в домохозяйствах, проведённого местным оператором сотовой связи. Люди сообщали о своём статусе занятости и профессии, выбирая из 18 видов занятий.
Кроме того, для глубинного обучения взяли мобильные логи за срок шесть месяцев 76 000 из этих 200 000 опрошенных человек. Информацию тщательно анонимизировали, программа не имела доступа к номерам телефонов, именам абонентов, содержимому разговоров и текстовых сообщений. Естественно, имея такой доступ в стиле СОРМ, можно профилировать людей практически со стопроцентной точностью. В данном случае ставилась задача провести научное исследование не нарушая права человека.
Из мобильных логов исследователи выделили переменные трёх типов: финансовые (сумма пополнения счёта, расходы на связь, частота пополнения, соотношение между максимальной и минимальной суммой пополнения счёта и др.), перемещения по местности (домашний район/сота, энтропия мест посещения, радиус инерции сечения, количество посещённых мест и др.) и социальные функции (количество разговоров с контактом, энтропия контактов, продолжительность разговора, количество SMS, объём интернет-трафика, количество MMS, количество и продолжительность видеозвонков, частота использования дополнительных услуг оператора и др.).
Модель со всеми переменными протестировали на нескольких алгоритмах, в том числе GBM (gradient boosted machines), RF (random forest), SVM (support vector machines) и kNN (K-nearest neighbors). По итогу была составлена многослойная нейросеть. Точнее, 18 моделей для каждого вида профессии (включая безработных). Обучение и тестирование осуществлялись с распределением данных 75% и 25%.
Результаты показали, что нейросеть лучше всего определяет офисных сотрудников (клерков). По использованию мобильной связи они выдают себя с точностью 73,5%. Сложнее всего определить по метаданным сотовой сети квалифицированных сотрудников (61,9%). Средний показатель по всем профессиональным группам составил 67,5%. Как и офисные сотрудники, безработные определяются тоже очень хорошо с вероятностью 70,4%.
Наверняка эта научная работа найдёт применение в практических программах для дата-майнинга. Кстати говоря, если кто-то получит информацию об изменении уровня занятости за 1−2 недели до появления официальной статистики в США, то может неплохо заработать на бирже. Так что у сотрудников операторов сотовой связи появляется вариант для небольшой «халтурки», если они не боятся сесть в тюрьму за использование инсайдерской информации.
В странах, где ввели или собираются ввести налог на тунеядцев, такая нейросеть поможет пополнять бюджет. Будет выявлять незарегистрированных безработных, которые укрываются от налоговой инспекции. По предполагаемой профессии человека можно ещё таргетировать рекламу.
Научная статья опубликована 12 декабря 2016 года на сайте препринтов arXiv (arXiv:1612.03870) и пока не получила экспертную оценку.
Автор: Анатолий Ализар @alizar
Понравилась статья? Тогда поддержите нас, поделитесь с друзьями и заглядывайте по рекламным ссылкам!