Лаборатория Google Research предложила нейросеть, способную предсказывать запах молекул по их формулам

Исследовательская лаборатория Google Research представила карту основных запахов (Principal Odor Map), с помощью которой по химической структуре молекуле можно определить ее запах. По словам авторов исследования, предсказания этой карты точнее, чем у аналогичных моделей. С помощью предложенного подхода ученые могут в том числе предсказывать запахи неизвестных молекул. О результатах исследования Google сообщает в своем блоге, препринт с результатами исследования опубликован на biorxiv. Из скольких базовых компонент человеческий мозг складывает запах — до сих пор непонятно. Чтобы разобраться с числом основных запахов, ученые — математики, нейробиологи, химики и лингвисты — тем или иным способом пытаются связать химическую структуру молекулу с обонятельным перцептом (образом, который воспринимает мозг) и его словесным описанием.

Сейчас считают, что этих запахов должно быть порядка десяти, но точное число неизвестно: уверенно ученые могут говорить, что размерность обонятельного пространства где-то между 6 и 30.

Чаще всего для выделения первичных запахов ученые используют методы сокращения размерности, выделяя из сложного многомерного пространства слов и химических формул только необходимые измерения, которых хватит для кодирования химического сигнала.

Для этого используют методы многомерного шкалирования, определения главных компонент и нейросети. Задачу усложняет и то, что связь химической формулы и обонятельного перцепта не всегда взаимооднозначная. Один и рецептор может реагировать на множество молекул, а одна молекула — захватываться несколькими вариантами рецепторов. Из-за этого одно и то же вещество может пахнуть по-разному для разных людей, и даже у одного человека — вызывать сразу несколько обонятельных образов. Например, для описания запаха ванилина участники опросов используют не только слово ванильный, но также сладкийсливочныйшоколадный и другие близкие характеристики.

Чтобы построить соответствие между химической структурой молекулы и ее запахом, необязательно точно знать минимальную размерность пространства, в котором они существуют. И для фундаментальных исследований, и для прикладных задач достаточно иметь надежный инструмент, который будет с высокой точностью предсказывать запах молекулы. Такую модель сделали с помощью нейросети ученые под руководством Александра Вилчко (Alexander B. Wiltschko) из исследовательской лаборатории Google — авторы построили модель, которую назвали картой основных запахов (Principal Odor Map). Эта карта, во-первых, задает непрерывное многомерное пространство, в котором словесные описания запахов представлены в виде пересекающихся областей, а во-вторых присваивает каждой молекуле вектор в этом пространстве, чтобы по химической структуре можно было определить в какие области попадет то или иное вещество и чем оно будет пахнуть.

Схема обработки химических структур нейросетью и сопоставления их со словесным описанием запахов. Brian K. Lee et al./ biorxiv, 2022

Первую версию этой модели ученые представили еще в 2019 году. В ней графовая нейросеть ставила в соответствие химическую структуру отдельных небольших молекул с их запахами и размещала их в многомерном пространстве, в котором расстояние между молекулами соответствует сходству их запахов. Каждая пахучая молекула в этой модели представляется в форме графа, в котором атомы — это узлы с заданными атомным номером, валентностью, зарядом, числом связанных с ней атомов водорода и гибридизацией, а ребра — химические связи, с заданными кратностью и ароматичностью. Предпоследний слой нейросети задавал карту с расположенными на ней в форме многомерных векторов молекулами-графами, а последний — предсказывал запах этих молекул.

Модель 2019 года. На рисунках — двумерные срезы пространства, на которых каждой молекуле соответсвует одна точка. Закрашенные области соответствуют словесному описанию запахов этих молекул. Слева — дескрипторы, которые почти не имеют пересечений (запахи мускуса, лилии, винограда и капусты), справа — дескрипторы с иерархической структурой. По осям — две главные компоненты многомерного пространства. Sanchez-Lengeling et al./ arxiv, 2019

В новом исследовании ученые модернизировали модель, превратив многомерное пространство с кластерами дискретных точек в непрерывную карту. По словам авторов, новая карта учитывает все отношения между перцептами — расстояния и возможную иерархию, она устойчива к прерывистой структуре пространств химических структур и словесных описаний. Поэтому с помощью нее можно предсказывать запахи молекул, неизвестных нейросети, то есть которых не было в изначальной базе данных, по которой она строилась. Чтобы проверить работоспособность модели, ученые проверили ее на 400 молекулах, структура которых сильно отличалась от предложенных нейросети для обучения и не включенных в известные базы данных запахов.

Предсказания модели сравнивали с результатом опроса 15 людей, которых просили охарактеризовать те же молекулы набором из 50 предложенных дескрипторов. Авторы исследования выяснили, что предсказания модели ближе к усредненному предсказанию всех опрошенных чем предсказания среднего участника из того же исследования (для сравнения, в классических базах данных, дескрипторы для пахнущих молекул ученые присваивают по результатам опросов более чем сотни участников). Также результат предсказаний сравнили с кластеризацией по «отпечаткам пальцев» молекул по классической системе 1965 года для химической информационной системы (CAS), не предназначенной специально для оценки запаха веществ.

Кластеры запахов на двумерных срезах многомерного пространства перцептов. Слева — построенные по данным обучающих выборок двух баз данных, посередине — по данным стандартной хемоинформационной системы, слева — по данным уже готовой 256-мерной карты основных запахов. По осям — две главные компоненты многомерного пространства. Brian K. Lee et al./ biorxiv, 2022

Кроме того, по словам авторов работы, эту карту можно использовать и для решения других задач — вопросов фундаментальной биологии (например связанных с обонянием у животных и активностью мозга) и здравоохранения. В частности, ученые провели дополнительное испытание модели, в котором показали, что с помощью нее можно предсказывать не только тот запах, который почувствует человек, а также активность рецепторов и обонятельных нейронов у животных (в частности у мышей и насекомых) в ответ на обонятельные стимулы.

Большинство пахучих веществ играют важную роль в коммуникации и поведении животных и выстраивании межвидовых связей. Например, бактерии-стрептомицеты выделяют летучее соединение с запахом сырой земли, с помощью которого привлекают членистоногих, распространяющих их споры. А красные огненные муравьи ориентируются на запах веществ, которые выделяют актинобактерии, когда ищут подходящие места для строительства новых колоний.

Автор: Александр Дубов
Источник: https://nplus1.ru/