Большие данные (от англ. BIG DATA) — это совокупность подходов и методов обработки неструктурированных данных огромных объемов и значительного многообразия для получения воспринимаемых человеком результатов. Непрерывное накопление различных данных происходит в распределенных многочисленных узлах вычислительных сетей, что обусловило в конце 2000-х годов появление альтернативных традиционным системам управления базами данных (СУБД) решений для задач класса Business Intelligence. В широком смысле о «больших данных» говорят как о социально-экономическом феномене, связанном с появлением технологических возможностей анализировать огромные массивы данных в некоторых проблемных областях, и вытекающих из этого трансформационных последствий.
В качестве определяющих характеристик для больших данных традиционно выделяют «три V»: объем (volume), скорость (velocity – в смыслах как скорости прироста данных), многообразие (variety).
С точки зрения информационных технологий в совокупность инструментов BIG DATA изначально включались средства массово-параллельной обработки неопределенно структурированных данных, – прежде всего системы управления базами данных категории NoSQL, алгоритмы MapReduce и реализующие их программные каркасы, и библиотеки проекта Hadoop. В дальнейшем к технологиям больших данных стали относить разнообразные решения, в той или иной степени обеспечивающие сходные по характеристикам возможности по обработке сверхбольших массивов данных.
Специалистов, занимающихся проектированием умных производств, не могут не интересовать перспективы решений в сфере BIG DATA. Сегодня BIG DATA активно развивается в банковской сфере, страховом секторе, телекоме, медицине, в промышленности. К сожалению, на отечественном рынке в этом сегменте не обходится без недобросовестных участников, которые под красивые обещания внедрить BIG DATA заключают контракты с индустриальными компаниями, получают деньги, а потом дают задний ход, ссылаясь на якобы некорректность данных компании-заказчика. Это дестабилизирует рынок, создает недоверие среди владельцев и топ-менеджеров к новым технологиям. Тем не менее на российском рынке есть несколько сильных команд, претендующих на подлинное лидерство в сфере BIG DATA. Сегодня мы Геннадий Климов беседует с руководителями одной из таких компаний – «Инжинирингового центра МФТИ по трудноизвлекаемым полезным ископаемым». Его собеседники – генеральный директор компании Тимур Тавберидзеи руководитель проектов Семен Буденный.
Геннадий Климов:
– Коллеги, пожалуйста, для начала познакомьте наших читателей, хотя бы коротко, с вашим центром.
Тимур Тавберидзе:
– Идея создания центра – капитализировать научно-технический потенциал, накапливаемый в МФТИ долгие годы. Традиционно деятельность МФТИ больше направлена в фундаментальное русло, создание же индустриальных инноваций осуществлялось за его стенами, когда выпускники приходили на базовые предприятия и, продолжая в них свою карьеру, имплементировали свои знания в проекты, изобретения. В современных рыночных условиях у выпускников университета появилась возможность капитализировать знания, не покидая его стен. Так возникла идея создать структуру, которая работает по классическим законам бизнеса, но при этом отлично понимает нюансы научной работы, – инжиниринговый центр МФТИ.
С 2013 года наш центр развивается одновременно между индустрией и наукой: решает проблемы индустриальных компаний-заказчиков, используя собственный разработанный научный капитал. В зоне повышенного интереса два крупных сегмента: трудноизвлекаемые углеводороды, горно-обогатительная и металлургическая индустрии. С точки зрения компетенций наши специалисты в первую очередь – сильные физики, математики, при этом имеют практические навыки в промышленности. Многие наши специалисты пришли к нам, будучи состоявшимися экспертами в крупных нефтедобывающих компаниях.
Как мы работаем? Пытаемся понять проблему заказчика как физики, формализуем проблему как математики, решаем ее как эксперты в той или иной отрасли, оберткой решения занимаемся как программисты, – проходим все этапы жизнедеятельности проекта, от понимания проблемы до создания решения под ключ.
Геннадий Климов:
– Ну, в уравнения, формулы и неравенства в этом мире можно все облечь, как я понимаю…
Тимур Тавберидзе:
– Абсолютно правильно, но облечь проблему в уравнения – недостаточно, нужно получить конкретное решение. Наша команда создает решения в виде прикладного программного обеспечения с разработанными предварительно физико-математическими моделями, которые интегрируются в реальные технологические цепочки компаний-заказчиков.
В нашей структуре также есть подразделение, которое оказывает сервисные услуги на базе наших собственных разработок. Мы инвестировали прибыль в свой бизнес, создали решения, которые, нам казалось, будут востребованными, и они таковыми оказались. Примером такой истории является разработка программного обеспечения для проектирования дизайна гидроразрыва пласта (далее – ГРП), получившая вторую мощную волну развития на фоне активного освоения нетрадиционных запасов, трудноизвлекаемых углеводородов как на российском рынке, так и во всем мире.
Идея технологии ГРП на первый взгляд кажется простой: под высоким давлением в скважину закачивается жидкость, в результате чего инициируются трещины в пласте. Далее закачивается проппант, расклинивающий реагент. Когда закачку жидкости приостанавливают, трещины начинают смыкаться на проппант, образуя высокопроводящие каналы для притока нефти к скважине. На деле же технология ГРП имеет ряд сложнейших технологических вызовов для нефтедобывающих компаний: технология до сих пор не имеет состоявшейся математической модели, способной описать ключевые процессы, происходящие при гидроразрыве. К тому же доступ к данной технологии в контексте нетрадиционных запасов ограничен на территории России из-за введенных санкций. Доступ органичен как на уровне железного решения, так и программного. Это и послужило для нас драйвером инвестирования в направление развития инструментов проектирования дизайна гидроразрыва пласта.
Геннадий Климов:
– Давайте поговорим о BIG DATA. Расскажите, как и почему вы решили осваивать это направление?
Тимур Тавберидзе:
– У нас есть убежденность в том, что данные, получаемые компаниями в нефтегазовой отрасли (да и не только в ней, утверждение будет верно для всей индустрии в целом) быстро теряет свою ценность. Простыми словами, ценность информации значительно ниже, чем могла бы быть на самом деле, далеко не весь ее потенциал используется. Например, в случае скважин мы копим сведения о давлениях, температуре, дебитах, геологическом разрезе, и на основе этих данных решаются конкретные задачи, начиная от определения свойств горных пород, вскрываемых скважиной, заканчивая планированием мероприятий с целью повышения дебита скважины. После того, как эти задачи решены, данные не представляют более интереса, теряют свою ценность, они «пылятся» на полке, хотя стоимость получения этих данных – одна из основных операционных издержек компании. Мы пытаемся выжать из данных максимум, решать задачи, которые изначально не ставились при получении этих данных, но при этом позволят снизить издержки компании без привлечения дополнительных инвестиций. Как это сделать? Инструментами и подходами в рамках парадигмы BIG DATA.
В западных странах технологии работы с большими данными и машинным обучением получили огромное распространение, и компании научились из этого извлекать пользу. Об этом говорит статистика по научным публикациям и цифры об инвестициях в это направление. В России развитие этих технологий в индустрии только начинает набирать обороты, развитой технологию можно считать, наверно, только в банковском секторе, телекоме, страховых компаниях. При этом факт остается фактом: этому источнику дополнительной прибыли, эффективности, технологической компетентности уделяется все большее и большее внимание в индустрии. Огромные массивы данных имеют скрытые связи, которые не заметны глазу сколь угодно опытного эксперта или группы экспертов. И чем больше данных, тем больше таких связей можно найти и использовать их с целью увеличения чистой прибыли. С точки зрения бизнеса ключевая идея BIG DATA состоит в том, что, работая с большими данными, мы можем сделать экономически эффективными многие технологии, в том числе и в нефтегазовой отрасли.
Более детально о развитии технологий BIG DATA в нашем центре расскажет мой коллега Семен Буденный. В нашей компании он руководит этим направлением, формирует рынок услуг компании, объясняя, почему нужно в эту сторону смотреть, и на конкретных примерах показывая, что, не вкладывая инвестиции в промышленное оборудование, а просто работая с этим массивом данных, можно извлекать дополнительную прибыль уже сейчас.
Геннадий Климов:
– Мы говорим о выяснении зависимостей в, казалось бы, хаотических массивах несвязных данных. Мы находим связи. Давайте поговорим о том, какая математика это делает?
Семен Буденный:
– Сначала отмечу, что для нас BIG DATA включает две составляющие: технологическую и аналитическую. С точки зрения технологий BIG DATA – это явление, когда технологии обработки данных не поспевают за ростом объема этих данных. Например, необходимо решать вопрос с массивом данных, не помещающимся в оперативную память за один такт (tall array – высокий массив) или распараллеливать обработку данных на центральном или графическом процессоре, на кластерных мощностях.
Аналитическая составляющая состоит в том, что объем, разрозненность и неструктурированность данных не позволяет экспертам оперативно решить те или иные задачи или вовсе находить какие-то закономерности. Математические инструменты, позволяющие решать эти проблемы, разношерстны, но в минимальный джентльменский набор входят машинное обучение, глубинное обучение (нейронные сети), статистика, обработка сигналов, а также методы нелинейной оптимизации.
Вся математика, базовая ее часть, о которой мы сейчас говорим, зародилась не вчера, однако популярное сегодня и отдельно образовавшееся направление BIG DATA обязано появлению возможных технологий для аккумулирования больших данных и работы с ними. А если быть точнее, обязано моменту времени, когда операционные и капитальные затраты на технологии обработки и хранения данных окупаются информацией, полученной с этих же данных. К слову, сейсмику в полном объеме и по сей день дорого копить, мало кто из нефтедобывающих компаний может себе это позволить.
Геннадий Климов:
– Расскажите поподробнее, как именно вы работаете с большими данными?
Семен Буденный:
Мы бизнес-ориентированная организация. Мы не занимаемся анализом данных ради удовлетворения научных интересов, а пытаемся решить вполне конкретные проблемы наших заказчиков. В большинстве случаев заказчик формулирует проблему на верхнем уровне: уменьшить энергопотребление установки, увеличить качество промысловых данных месторождения, сократить время анализа геологических данных. Наша задача состоит прежде всего в подборе правильного рецепта, который приведет нас к решению проблемы.
Во избежание рисков для компаний-заказчиков на первом этапе мы реализуем пилотный проект, цель которого – определить возможность применения алгоритмов машинного обучения к решению проблемы. На данном этапе рассматривается ограниченный объем данных, применяются базовые алгоритмы. По результатам работы предоставляется отчет, защищаются результаты в виде презентации. Если мы достигаем поставленных КРТ, переходим к основному договору.
При этом мы отдаем себе отчет в том, что BIG DATA не панацея, в индустрии не является самодостаточным направлением. Без понимания специфики нефтегазовой отрасли вряд ли удастся прийти к конкретным результатам, важно понимать суть проблемы, правильно сформулировать ключевые показатели эффективности. В результате 80% времени мы тратим на поиск лучшего workflow для решения проблемы, 20% – на построение моделей. А концептуальная схема работы с большими данными общая для всех проектов: формулировка целевых показателей, подготовка данных (структурирование, фильтрация), построение моделей, проверка качества моделей, адаптация решения под бизнес.
Геннадий Климов:
– Ваши методики базируются на изучении аналогов?
Семен Буденный:
– В том числе. Львиная доля аналитических задач в BIG DATA относится к классу так называемых задач обучения с учителем. Суть таких задач состоит в том, что, если вы хотите предсказать какое-то поведение, величину на новых данных, вы должны сначала построить модель, которая обучена (построена) на аналогичных данных, другими словами, на аналогах.
Например, вы хотите по исходным данным геофизического исследования скважин с помощью модели предсказать положение нефтенасыщенного участка. Вы можете решить такую задачу, если у вас имеется уже набор интерпретированных экспертом первичных данных. Это не значит, что скважина, на которой вы хотите применить модель, в точности совпадает с ранее изученными, но найдутся те, что близи к нашей, т.е. аналогичны нашей, и тогда можно ожидать какой-то результат.
Хрестоматийным является пример того, как ребенок учится говорить. Он сначала говорит отдельные слова, короткие фразы, а затем выстраивает целые предложения, при этом он ранее не слышал эти предложения слово-в-слово, строит их по аналогии с тем, как говорят его родители. Вот примерно таков принцип работы большинства аналитических задач на больших данных.
Тимур Тавберидзе:
– На масштабе месторождений поиск аналогов сводится к поиску так называемых месторождений-близнецов. Месторождения имеют огромное количество типов данных, как количественных, так и категориальных: от дебита нефти скважины, фактов технологических стопов (аварийных ситуаций) скважины, до свойств пласта, сетки бурения скважин и т.д. Стоит задача в определении метрики близости между месторождениями в пространстве всех физических, технологических, экономических параметров. Далее предоставляется возможным определить месторождения-аналоги. Зачем это нужно? Если нефтедобывающая компания планирует эффективную разработку на относительно недавно купленном активе, важной задачей является поиск лучшего опыта разработки и его имплементирования. Но опыт этот нужно перенимать не с каких угодно месторождений, а с тех, что близки нашему целевому. Чем больше данных мы учтем, тем более точно мы можем определить месторождения-аналоги.
Геннадий Климов:
– То есть чем больше данных, тем точнее прогноз? Так ли это?
Семен Буденный:
– Одновременно да и нет. С одной стороны, больший объем данных может снизить ошибку модели, с другой стороны, в нефтегазовой отрасли данные поступают с различных источников: результаты работы по одному месторождению, или даже одной скважине, собираются с разных дочерних предприятий, подрядчиков. Фактор времени играет свою роль: данные по профилям добычи, технологическим режимам работы скважин внутри одного месторождения, которое, скажем, разрабатывается с 1980-х годов, имеют принципиально различную достоверность в наше время и в те же 80-е. Другими словами, чем больше данных, тем больше ошибок в них ожидается. При этом модели, которые мы строим, не могут быть точнее данных, на которых мы строим наши модели.
Иногда полезно намеренно данных не добрать, и сделать это нужно аккуратно: удалить выбросы, удалить сильно коррелирующие признаки и т.д. И это лишь одна из необходимых вещей на этапе предподготовки данных (перед построением самих моделей), к слову, 80% времени у нас уходит на предподготовку данных, если не больше. Как бы странно это ни показалось, но успех решения проблемы в промышленности методами машинного обучения на львиную долю определяется пониманием природы данных и их подготовки. Модели могут «съесть» все что угодно: что подашь на нее, то и получишь.
Тимур Тавберидзе:
– При гигантском объеме данных может возникнуть казус, когда наблюдаются зависимости между абсолютно не связанными вещами. Если собрать абсолютно все показатели за определенный промежуток времени, то с большой вероятностью найдутся показатели, тесно коррелирующие друг с другом, когда на деле это не так. В промышленности методы BIG DATA не являются самодостаточными инструментами, требуются гибридные подходы, когда статистика проверяется физикой. Например, если статистика нам говорит о наличии высокой корреляции (связи) между двумя показателями, мы как минимум должны убедиться, что в реальности это соответствует материальному или энергетическому балансам. В обратном случае, корреляции мы не верим.
Геннадий Климов:
– Это понятно, что математик-аналитик должен разбираться в специфике отрасли, где он реализует алгоритмы BIG DATA. Но мне всегда казалось, что есть некая универсальность этих методов, которые позволяют легко переносить их, например, из нефтяной отрасли в химическую промышленность, или даже в машиностроение. Это так?
Семен Буденный:
– Более того скажу: в последнее время нас все чаще стали приглашать для решения задач в секторах, абсолютно не связанных с направлениями нашей компании. Отчасти это может быть связано с тем, что в новом для нас направлении у нас нет зашоренности взгляда, мы будем смотреть на проблему как новички, но как физики-математики мы пытаемся понять суть проблемы, контекст, дробим проблему на задачи, формализуем их. Далее приступаем к решению задачи в контексте анализа данных, и тут с вами соглашусь, методы в большинстве своем универсальны, могут кочевать из одной отрасли в другую. Более того, все эти методы открытые (имеется множество бесплатных библиотек), и их много, действительно много. Однако, как мне кажется, успех решения комплексной проблемы больше обусловлен не знанием тех или иных методов, а правильно составленным рецептом – последовательности применения алгоритмов, от этапа подготовки данных до построения моделей.
Геннадий Климов:
– С какими проблемами вам приходится сталкиваться?
–Тимур Тавберидзе:
Один из барьеров проникновения направления BIG DATA в индустрию связан с некоторой субъективностью обрабатываемых данных, сложностью их интерпретации, сильной нелинейностью между анализируемыми параметрами. Как правило, мы не ограничиваемся анализом первичных объективных данных, полученных, например, с манометров. И то, последние не меряют напрямую давление, а определяются через калибровочные соотношения по напряжению. Приходится работать с результатами обработки данных – вторичными данными, а последние часто несут субъективный характер, что приводит неизбежно к наличию ошибок. Два геолога по поводу одной скважины могут иметь три мнения. И в каком-то смысле нам с этими мнениями нужно считаться, понимая, что наши модели мы заведомо обманываем, обучая их на данных с ошибками. Модель не может быть точнее данных, на которых она обучена. В этом, наверное, ключевая техническая проблема.
С другой стороны, не все руководители российских промышленных предприятий готовы следовать современным технологическим трендам, поручить обработку и интерпретацию своих данных сторонним компаниям. Нашему центру везет в этом смысле – мы все чаще и чаще сотрудничаем с руководителями новой формации, которые открыты к смелому внедрению передовых технологий, пока еще не апробированных масштабно и, главное, готовы быстро адаптироваться под эти технологии – менять действующие в их организациях бизнес-процессы, нормативы и методики.
Геннадий Климов:
– В каких еще отраслях вы реализовывали свои наработки?
Семен Буденный:
– Ранее нашими специалистами была решена задача в области обработки медицинских данных в рамках открытого международного конкурса. Мы получили вполне неплохой результат – бронзовое призовое место по эффекту от решения. Суть задачи состояла в разработке алгоритмов для обработки изображений МРТ с целью автоматического определения отклонения работы сердца от нормы по фракции выброса (доля крови, проходящая через левый желудочек сердца за один рабочий такт). В процессе создания алгоритма обработаны изображения МРТ порядка 1000 пациентов. Целью являлось выявление физиологических отклонений сердца без привлечения врача. Конечно, наш алгоритм не поставит полноценный диагноз, однако с некоторой вероятностью мог обнаружить сердечную недостаточность, либо гипертрофию стенок левого желудочка. Суть алгоритма состояла в последовательном решении трех задач: определении положения сердца в изображении МРТ (обычно делается снимок всего торса), сегментации левого желудочка в сердце и построения трехмерной модели по снимкам, сделанным в разных проекциях, определении динамики объема левого желудочка. В итоге, зная динамику объема левого желудочка, мы определяем фракцию выброса и диагностируем отклонение, если таково имеет место быть. Все просто.
Несмотря на то что задача имела скорее научный интерес, в дальнейшем используемая методология легла в основу решения прикладной задачи в области петрофизического анализа, седиментологии. В процессе бурения скважин делают отбор керна, материала породы в форме цилиндра. Керн дает много полезной информации о фильтрационно-емкостных свойствах породы, строении породы и т.д. Так, например, по слайсам керна, шлифам, оптическим микроскопом можно определить распределение зерен, формы и связанность пор и многие другие важные параметры. Часто шлифы обрабатываются вручную, например, степень окатанности зерен определяют по трафаретам. В результате анализа удается получить классификацию шлифа, проще говоря, тип породы. Мы научились решать эту задачу автоматически: от этапа сегментации пор, зерен, цемента в шлифе, до расчета параметров этих объектов и автоматической классификации породы на основе этих параметров.
Геннадий Климов:
– Есть же очень много подобных задач в промышленности. Например, анализ данных при рентгеновском и ультразвуковом контроле сварных швов и литья.
–Тимур Тавберидзе:
– Как вы уже, наверное, заметили, наша команда решает задачи из различных отраслей промышленности. Наше преимущество на российском рынке – коллектив профессионалов высочайшего уровня, обладающих широким спектром инструментов, методик и подходов. Мы развиваемся, расширяем спектр наших компетенций, и, к слову, тяжелое машиностроение – одно из направлений, которое мы планируем освоить в ближайшей перспективе.
Геннадий Климов:
– Спасибо, Семен, спасибо, Тимур! Было очень интересно. Надеюсь, мы продолжим тему.
Источник: http://www.umpro.ru/