Пять основных сфер практического применения систем распознавания объектов

На протяжении нескольких десятилетий ученые стремятся к созданию новых систем, способных воспринимать и интерпретировать окружающий мир подобно человеку. В настоящее время эти технологии достигли значительного прогресса и широко применяются в различных сферах нашей жизни. Данная статья не будет сильно углубляться в детальное описание сложных технологий машинного зрения, нейронных сетей и алгоритмов распознавания, поскольку на сайте уже доступны подробные статьи по этой теме. Вместо этого мы сосредоточимся на практическом использовании этих систем в реальном мире.  Важно отметить, что для системы распознавания образов photographica – это просто набор пикселей с различными цветовыми параметрами. Для того чтобы обучить систему идентифицировать отдельные объекты на изображении, ей необходимо предоставить обширный датасет – тысячи изображений с четко обозначенным местоположением нужного объекта.

Например, для обучения системы распознаванию людей потребуется показать ей множество фотографий людей разного возраста, в различных позах и одежде, в разнообразных условиях.

После подобной тренировки система сможет безошибочно распознать человека на фотографиях. Однако напрашивается другой вопрос: если для системы фотография — это просто совокупность пикселей, то как же нейросеть понимает, что именно изображено на фото?

Для распознавания объектов на изображении используются различные методы, но одним из самых перспективных признан метод гистограмм ориентированных градиентов (HOG). Изображение обесцвечивается, а затем в блоках 16х16 пикселей система находит направление смены цвета (вектор градиента), строит по всему изображению карту этих векторов, и тем самым «снимок» признаков объекта, которые не меняются в зависимости от позы/положения и освещения. Усовершенствованная версия алгоритма называется CoHOG — в ней учитываются границы объектов, то есть производится распознавание формы, а не только векторов градиентов.

Toshiba усовершенствовала метод CoHOG, значительно улучшив распознавание при плохом освещении — традиционный CoHOG, к примеру, плохо справляется с быстрым распознаванием в темноте, когда пешеходов практически не видно в свете фар. Метод ECoHOG (технология гистограмм совместного присутствия ориентированных градиентов) определяет человека за счёт дополнительного анализа направлений и размеров его очертаний, находя голову, ноги, руки, плечи. Если CoHOG просто вычленяет на изображении антропометрические очертания (анализ «граница объекта — векторы границ»), то для ECoHOG важны размерности границ объекта относительно друг друга.

Пять ключевых сфер применения

Маркетинг

Распознавание образов — перспективное направление в рекламе и маркетинге. Нейросети позволяются за считанные часы узнать вещи, для поиска которых в других случаях нужна большая команда профессионалов и недели, а то и месяцы исследований. Например, российский сервис YouScan, система мониторинга социальных медиа, отслеживает упоминание брендов в соцсетях. Причём делает это не только в тексте постов, но и на фотографиях, а также помогает сделать определённые выводы о продукте. С помощью распознавания образов на фото нашли интересную закономерность, поиск которой никому бы и не пришел в голову: среди животных коты чаще встречаются с техникой Apple, а собаки — с брендом Adidas. Эта необычная информация может пригодиться для таргетирования рекламы.

При поиске по логотипу Adidas сервис YouScan отфильтровал фотографии со смартфонами в руках владельцев. Копирайт: YouScan

Видеонаблюдение

Распознавание образов на камерах городского видеонаблюдения — это, пожалуй, самая неотвратимая перспектива использования машинного зрения. С 2017 года в Москве тестируется система умного видеонаблюдения с целью идентификации преступников в местах массового скопления людей. К городской сети камер подключена технология от российской компании NTechLab, которая уже помогла задержать несколько десятков правонарушителей. В Китае подобная система видеонаблюдения способна распознавать не только лица, но и марки автомобилей и одежды на людях, что может быть впоследствии использовано маркетологами для своих исследований.

На видео показана реальная работа распознавания образов и лиц SenseTime

Медицина

Распознавание образов уже стало настоящим прорывом в медицине — во многих случаях компьютеры замечают вещи, которые пропускают даже самые опытные врачи. Они выступают своеобразными помощниками, чье «техническое» мнение подтверждает гипотезу врача или дает повод для более глубоких исследований.

В России ведутся разработки программных комплексов для диагностики раковых образований на снимках КТ, МРТ и ПЭТ. Для этого через нейросеть прогоняют тысячи размеченных снимков, после чего точность распознавания новых снимков возрастает до 95-97%. Среди прочих разработкой такой платформы занимается Департамент информационных технологий Москвы, используя открытую библиотеку Google TensorFlow.

Созданная Google нейросеть Inception анализирует микроскопическое исследование биопсии лимфатических узлов в поиске раковых клеток в молочных железах. Для человека это очень долгий и трудоемкий процесс, в ходе которого легко ошибиться или пропустить что-то важное, так как в некоторых случаях размер изображения составляет 100 000 х 100 000 пикселей. Нейросеть Inception обеспечивает чувствительность около 92% против 72% у врача. Нейросеть не упустит из виду все подозрительные участки снимков, хотя и допускаются ложные срабатывания, которые позже отфильтрует врач.

Автомобили

Распознавание объектов в автомобилях — это необходимая часть систем безопасности ADAS (Advanced driver-assistance systems). ADAS могут быть реализованы как сложными средствами, вроде радара и инфракрасных датчиков, так и при помощи монокулярной камеры. Ранее мы уже рассказывали, что одной видеокамеры вполне достаточно для того, чтобы автомобиль в реальном времени смог распознать пешеходов, знаки и светофоры. Однако такое распознавание «на лету» – очень ресурсоемкая задача, для выполнения которой нужен специализированный процессор. Toshiba уже в течение нескольких лет развивает серию таких процессоров. Они строят трехмерную модель на основе движущегося изображения с одной камеры, и тем самым замечают неизвестные препятствия на дороге. Ведь если нейросеть обучена распознавать только людей, разметку и знаки, то лежащая на асфальте покрышка или кусок ограждения не будут распознаны и расценены, как опасность.

Процессоры Visconti выделяют на изображении зоны, классифицируют их и помогают автопилоту или ADAS принять решение. Источник: Toshiba

Дроны

В дронах распознавание объектов используется как в развлекательных, так и в научных целях. В 2015 году немало шума наделал коптер Lily с автоматическим включением двигателей при подбрасывании и функцией слежения за владельцем. Lily направлял объектив на хозяина, независимо от траектории и скорости его передвижения. Правда, к распознаванию образов эта функция Lily не имела никакого отношения, так как дрон следил не столько за образом человека, сколько за пультом управления, который был надет на руку владельца.

Дроны с распознаванием изображений используются и для более серьезных вещей. Например, норвежская компания eSmart Systems разработала интеллектуальные решения для энергосетей. В рамках одного из их проектов — Connected Drone — дроны используются для поиска неисправностей на линиях электропередач. Обученные распознаванию элементов энергосетей, они проверяют целостность проводов, изоляторов и других частей ЛЭП. Это особенно важно для быстрой локализации неисправности, когда от линии зависит электроснабжение города или предприятия. Учитывая, что часто ЛЭП построены в труднодоступных местах, послать бригаду дронов на поиск неисправности где-нибудь в тайге или в горах гораздо эффективней, чем послать бригаду людей.

Дроны eSmart находят элементы энергетической инфраструктуры и в случае обнаружения повреждений помечают объект, оставляя предупреждение для оператора. Источник: eSmart Systems

Источник: https://habr.com/