Семантическая база данных повседневных объектов PartNet помогает роботам адаптироваться к окружающей обстановке

PartNet – новая семантическая база данных повседневных объектов, выводящая степень понимания роботами окружающего мира на новый уровень. В базе содержится не менее 26 671 3D-модели из 24 категорий объектов, каждая из которых снабжена подробной трёхмерной информацией. Одна из способностей человека, позволяющих нам так хорошо адаптироваться к окружающему миру, состоит в возможности понимать разные вещи сразу категориями целиком, а потом использовать это обобщённое понимание, чтобы разбираться с какими-то конкретными вещами, которые нам раньше не встречались. Представьте себе, например, лампу. Никто не видел все существующие в мире лампы. Но в большинстве случаев мы, впервые входя в новый дом, легко сможем найти всех имеющиеся там лампы, и понять, как они работают. Конечно, иногда мы сможем встретить что-то очень странное, что вынудит нас спросить: «Ого, это что, лампа? А как её включать?» Но в большинстве случаев наша обобщённая ментальная модель лампы спасает нас.

Нам помогает то, что у ламп, как и у других категорий объектов, по определению есть много общих составляющих. В лампах обычно есть лампочки. У них обычно есть абажур. Также у них, вероятно, есть подставка, чтобы они не падали, штатив, чтобы возвышаться над полом, и шнур питания. Если вы увидите предмет, обладающий всеми этими признаками, то это, вероятно, лампа, и когда вы это поймёте, вы сможете сделать обоснованное предположение по поводу того, как её использовать.

Такой уровень понимания часто особенно плохо даётся роботам, что неприятно, поскольку это ведь очень полезная вещь. Можно даже сказать, что мы сможем доверять роботам автономную работу в неструктурированном окружении только тогда, когда они смогут понимать предметы на уровне, близком к описанному. На конференции по компьютерному зрению и распознаванию закономерностей CVPR 2019 группа исследователей из Стэнфорда, Калифорнийского университета, университета в Сан-Франциско и Intel объявили о создании PartNet, огромной базы данных повседневных трёхмерных объектов, разбитых на части и описанных до такого уровня, который, как надеются создатели базы, поможет роботам разобраться в том, что такое лампа.

Примеры форм с описанными мелкими деталями объектов из 24 категорий

PartNet является подмножеством of ShapeNet, ещё более крупной 3D-базы из 50 000 повседневных объектов. В PartNet содержится 26 671 объект из 24 категорий (например, двери, столы, стулья, лампы, микроволновки, часы), и каждый из объектов разбит на размеченные части. Вот, как это выглядит в случае двух совершенно разных ламп:

Свойства объектов в PartNet оформлены экспертами в иерархические структуры для каждой из категорий, например для ламп. В шаблон входят объекты разных типов, как, например, настольная лампа (слева) и потолочный светильник (справа). Шаблон разрабатывался как глубокий и всеобъемлющий, покрывающий структурно разные типы ламп; при этом одинаковые по концепции комплектующие, такие, как лампочка или абажур, появляются в разных типах.

Выдающейся базу PartNet делает разметка всех мелких деталей. В базах данных типа ShapeNet обычно просто содержатся утверждения типа «вот вся эта куча вещей – это лампы», и полезность таких баз ограничена. А PartNet, наоборот, предлагает способ понять лампы на фундаментальном уровне: из каких частей они состоят, какое у них управление, и т.п. Это не только помогает гораздо лучше обобщить обнаружение ламп, которых компьютер прежде не встречал, но и позволяет автономной системе догадываться, как можно продуктивно взаимодействовать с новыми лампами.

Как вы можете себе представить, создание PartNet было задачей весьма трудоёмкой. Почти 70 «профессиональных составителей» в среднем по 8 минут потратили на описание каждой из этих 26671 3D-формы, состоящих из 573 585 частей, а потом каждое описание было проверено ещё, по меньшей мере, одним составителем. Чтобы поддерживать однородность, были созданы шаблоны для каждого класса объектов, которые должны были минимизировать набор частей, но при этом гарантировать, что в базе всесторонне описано всё необходимое для определения всего класса объектов. Составляющие объектов тоже организованы иерархически, и более мелкие комплектующие являются частью более крупных. Вот, как это расписано:

Чтобы эти данные оказались полезными за пределами PartNet, роботам нужно научиться самостоятельно проводить трёхмерную сегментацию, принимая трёхмерную модель объекта (созданную самим роботом) и разбивая её на части, которые можно идентифицировать и связать с существующими моделями объектов. Это сложно сделать по многим причинам: к примеру, нужно уметь определить отдельные части по облакам точек, которые могут быть мелкими, но важными (как, например, ручки у выдвижных ящиков), а многие части предметов, похожие на вид, могут оказаться семантически различными.

Исследователи достигли определённого прогресса в этой области, но эти вопросы требуют дальнейшей работы. И в этом тоже поможет PartNet, обеспечивая набор данных, который можно использовать для разработки улучшенных алгоритмов. В какой-то момент PartNet может стать частью основы систем, которые даже смогут абсолютно самостоятельно строить похожие 3D-модели, точно так же, как наборы данных для робомобилей переходят от собранных человеком к собранных компьютером под наблюдением человека. Выход на такой уровень семантического понимания незнакомого и неструктурированного окружения будет ключевым для создания роботов, способных адаптироваться к реальному миру, которых мы уже так давно ждём.

Автор:
Источник: https://habr.com/

Понравилась статья? Тогда поддержите нас, поделитесь с друзьями и заглядывайте по рекламным ссылкам!