Нейросеть PredNet продемонстрировала способность предсказывать ситуации по собранным сенсорным данным

В 2020 году в журнале Nature Machine Intelligence Уильям Лоттер и его коллеги сообщили, что новая нейросеть PredNet демонстрирует удивительное поведение, наблюдаемое в мозге обезьян в ответ на неожиданные стимулы, включая те, которые трудно воспроизвести в простых сетях прямого распространения. В основе PredNet лежит теория о том, что мозг не только обрабатывает данные, но и прогнозирует их, чтобы экономить энергию. Делимся подробностями и ссылкой на код PredNet, пока у нас начинается флагманский курс Data Science. Когда нам представляют неоднозначное изображение, наше восприятие может зависеть от контекста. Некоторые неврологи считают это свидетельством того, что мозг собирает свои представления сверху вниз, используя предсказания о том, чего он ожидает. Как же наш мозг создаёт восприятие из ощущений? Это давняя загадка. Обилие доказательств и десятилетия непрерывных исследований показывают: чтобы воспринимать окружающую обстановку, мозг не может просто собирать сенсорную информацию, как пазл.

Это подтверждается тем, что мозг может строить сцену на основе попадающего в наши глаза света, даже если поступающая информация шумная и неоднозначная. Из-за этого многие нейробиологи смотрят на мозг как на «машину предсказаний». Предиктивная обработка позволяет мозгу использовать то, что он знает о мире априори, чтобы делать умозаключения или генерировать гипотезы о причинах поступающей сенсорной информации.

Мы воспринимаем эти гипотезы, а не данные от сенсоров. Чем туманнее входные данные, тем больше мозг полагается на предварительные знания.

«Красота системы предиктивной обработки заключается в том, что она обладает по-настоящему большими (иногда критики могут сказать, что слишком большими) возможностями объяснения множества различных явлений в самых разных системах», — рассказывает Флорис де Ланге, нейробиолог из Лаборатории предиктивной обработки мозга Университета Радбоуда в Нидерландах.

Однако растущее число доказательств этой идеи носит в основном косвенный характер и открыто альтернативным объяснениям.

«Если обратиться к когнитивной нейронауке и нейровизуализации человека, то окажется, что [существует] множество доказательств — но крайне неявных, косвенных», — рассказывает Тим Кицман из Университета Радбоуда, чьи исследования лежат в междисциплинарной области машинного обучения и нейронауки.

Поэтому, чтобы понять и проверить идею мозга предсказывающего, исследователи обращаются к вычислительным моделям. Вычислительные нейробиологи создали искусственные нейронные сети, дизайн которых вдохновлён поведением биологических нейронов, которые учатся делать прогнозы относительно поступающей информации. Эти модели демонстрируют необычные способности, которые, похоже, имитируют способности мозга.

Некоторые эксперименты с этими моделями даже намекают: чтобы удовлетворить энергетические ограничения, мозг должен был эволюционировать как машина предсказаний.

По мере распространения вычислительных моделей изучающие живых животных неврологи всё больше убеждаются: мозг учится делать выводы о причинах данных от сенсоров. Хотя детали остаются неясными, широкие мазки обретают всё большую чёткость.

Бессознательные умозаключения в восприятии

Предсказательная обработка на первый взгляд может показаться контринтуитивным, сложным механизмом восприятия, но у обращений к механизму долгая история: другие объяснения казались недостаточными. Ещё тысячу лет назад арабский астроном и математик Хасан Ибн Аль-Хайтам выделил её форму в своей Книге оптики, чтобы объяснить различные аспекты зрения.

Идея набрала вес в 1860-х годах, когда немецкий физик и врач Герман фон Гельмгольц утверждал, что мозг воспринимает внешние причины входящих сенсорных сигналов, а не строит восприятие «снизу вверх» на основе этих сигналов.

Когнитивные психологи в середине ХХ века использовали это изображение, которое может выглядеть как утка или кролик, чтобы изучать человеческое восприятие.Когнитивные психологи в середине ХХ века использовали это изображение, которое может выглядеть как утка или кролик, чтобы изучать человеческое восприятие.

Гельмгольц раскрыл эту концепцию «бессознательного умозаключения» для объяснения бистабильного или мультистабильного восприятия, при котором изображение может восприниматься более чем одним способом. Это происходит, например, с известным двусмысленным изображением, которое мы можем воспринимать как утку или кролика: Наше восприятие постоянно переключается между двумя образами животных. В таких случаях Гельмгольц утверждал, что восприятие должно быть результатом бессознательного процесса нисходящих умозаключений о причинах сенсорных данных, поскольку образ, который формируется на сетчатке глаза, не меняется.

В XX веке когнитивные психологи продолжали доказывать, что восприятие — это процесс активного конструирования, который опирается как на восходящие сенсорные, так и на нисходящие концептуальные данные. Кульминацией этих усилий стала влиятельная работа 1980 года «Перцепции как гипотезы» Ричарда Лэнгтона Грегори, в которой утверждалось, что перцептивные иллюзии по сути являются ошибочными догадками мозга о причинах сенсорных впечатлений. Тем временем учёные, которые занимаются компьютерным зрением, споткнулись в своих попытках использовать восходящую реконструкцию, чтобы позволить компьютерам видеть без внутренней «генеративной» модели для сравнения.

«Попытка осмыслить данные без генеративной модели обречена на провал: всё, что можно сделать, — это заявить о закономерностях в данных», — говорит Карл Фристон, специалист по вычислительной нейробиологии из Университетского колледжа Лондона.

Но, хотя предиктивная обработка признавалась всё шире, оставались вопросы о том, какое она имеет воплощение в мозге. Одна из популярных моделей, называемая предиктивным кодированием, утверждает, что в мозге существует иерархия уровней обработки информации.

Самый высокий уровень представляет собой наиболее абстрактные, высокоуровневые знания (например, видит змею в тени впереди). Этот слой делает прогнозы, предвосхищая нейронную активность слоя ниже и посылая сигналы вниз.

Нижний слой сравнивает собственную фактическую активность с прогнозом, полученным сверху. Если есть несоответствие, слой генерирует сигнал об ошибке, который идёт вверх, чтобы слой выше мог обновить свои внутренние представления.

Этот процесс происходит одновременно для каждой пары последовательных слоёв, вплоть до самого нижнего слоя, который получает фактические сенсорные данные. Любое несоответствие реальности и ожиданий приводит к сигналу ошибки, который распространяется по иерархии. Самый верхний слой в конце концов обновляет свою гипотезу (что это была не змея, а просто свёрнутая вёревка на земле).

«В целом идея предиктивного кодирования, особенно когда она применяется к коре головного мозга, заключается в том, что в мозге есть две популяции нейронов, — рассказывает де Ланге, —: одна кодирует текущее наилучшее предсказание о том, что воспринимается, а другая сигнализирует об ошибках в этом предсказании».

В 1999 году учёные Раджеш Рао и Дана Баллард (работавшие тогда в Институте биологических исследований Салка и Рочестерском университете соответственно) построили грозную вычислительную модель предиктивного кодирования, в которой нейроны были явно предназначены для предсказания и коррекции ошибок.

Они моделировали элементы пути в системе визуальной обработки мозга приматов, которая состоит из иерархически организованных областей, отвечающих за распознавание лиц и объектов. Учёные показали, что модель может воспроизводить некоторые необычные модели поведения зрительной системы приматов.

Эта работа была выполнена до появления современных глубоких нейронных сетей, имеющих один входной, один выходной слой и несколько скрытых слоёв между ними. К 2012 году нейробиологи использовали глубокие нейронные сети для моделирования вентрального зрительного потока приматов. Но почти все эти модели представляли собой сети с прямым распространением, где информация поступает только от входа к выходу.

«Мозг явно не является машиной только с прямой передачей информации, — считает де Ланге. — В нём много обратной связи, примерно столько же, сколько и прямой [сигнализации]».

Поэтому неврологи обратились к другому типу моделей — рекуррентным нейронным сетям (далее РНС). По словам Канака Раджана, вычислительного нейробиолога и доцента Школы медицины Икан при Маунт Синай в Нью-Йорке, его лаборатория использует РНС для понимания работы мозга. Такие сети обладают свойствами, которые делают их «идеальным субстратом» для моделирования мозга. РНС имеют как прямые, так и обратные связи нейронов, и они активны непрерывно, независимо от входных данных.

«Способность производить эту динамику в течение очень длительного периода, по сути вечно, даёт возможность обучать такие сети», — утверждает Раджан.

Прогнозирование энергэффективно

РНС привлекли внимание Уильяма Лоттера и его консультантов по докторской диссертации Дэвида Кокса и Габриэля Креймана в Гарвардском университете. В 2016 году команда продемонстрировала РНС, которая научилась предсказывать следующий кадр в последовательности кадров видео. Они назвали сеть PredNet.

«Я беру на себя вину за то, что у меня не хватило творческого запала, чтобы придумать что-то лучшее», — сетует Лоттер.

Команда разработала РНС в соответствии с принципами предиктивного кодирования в виде иерархии из четырёх слоев, каждый из которых предсказывает ожидаемые от нижележащего слоя входные данные и в случае несоответствия посылает вверх сигнал ошибки.

Уильям Лоттер и его консультанты по докторской диссертации в Гарвардском университете создали PredNet, рекурсивную нейронную сеть с предназначенной для выполнения предиктивного кодирования архитектурой. Фото любезно предоставлено Уильямом Лоттером.Уильям Лоттер и его консультанты по докторской диссертации в Гарвардском университете создали PredNet, рекурсивную нейронную сеть с предназначенной для выполнения предиктивного кодирования архитектурой. Фото любезно предоставлено Уильямом Лоттером.

Затем они обучили сеть на видео городских улиц, снятых установленной на автомобиле камерой. PredNet научился непрерывно предсказывать следующий кадр в видео.

«Мы не знали, действительно ли это сработает, — рассказывает Лоттер. — Мы попробовали и увидели, что сеть действительно делает прогнозы. И это было очень круто».

В прошлом году в журнале Nature Machine Intelligence Лоттер и его коллеги сообщили, что PredNet демонстрирует поведение, наблюдаемое в мозге обезьян в ответ на неожиданные стимулы, включая те, которые трудно воспроизвести в простых сетях прямого распространения.

«Это фантастическая работа», — сказал Кицманн о PredNet.

Но он, Марсель ван Гервен и их коллеги из Радбуда стремились к чему-то более фундаментальному: и модель Рао и Балларда, и PredNet явно включали искусственные нейроны для предсказания и исправления ошибок; кроме того, в этих моделях присутствовали механизмы, заставляющие правильные предсказания сверху вниз тормозить нейроны с ошибкой. Но что если нейроны не были определены явно?

«Мы задались вопросом, действительно ли необходимы все эти «встраивания» архитектурных ограничений, или возможно обойтись подходом проще», — рассказывает Кицманн.

Кицманн и ван Гервен пришли к выводу, что нейронная коммуникация требует больших энергетических затрат (мозг — самый энергоёмкий орган человека). Поэтому необходимость экономить энергию может ограничивать поведение любой эволюционирующей в организмах нейросети.

Исследователи решили проверить, могут ли какие-либо вычислительные механизмы предиктивного кодирования проявиться в РНС, которые должны выполнять свои задачи, затрачивая как можно меньше энергии. Они решили, что сила связей, также известная как вес, между искусственными нейронами в их сети может служить косвенным показателем синаптической трансмиссии, из-за которой в биологических нейронах тратится большая часть энергии.

«Если вы уменьшаете вес между искусственными нейронами, это означает, что уменьшаются затраты на коммуникацию, — рассказывает Кицманн. — Мы воспринимаем это как минимизацию синаптической трансмиссии».

Когда PredNet представили кадры видеопоследовательности (вверху), она научилась предсказывать их (внизу). Фото из журнала Quanta Magazine; источник: Лоттер и др., Nature Machine Intelligence 2020Когда PredNet представили кадры видеопоследовательности (вверху), она научилась предсказывать их (внизу). Фото из журнала Quanta Magazine; источник: Лоттер и др., Nature Machine Intelligence 2020

Затем команда обучила РНС на многочисленных последовательностях цифр: 1234567890, 3456789012, 6789012345 и т. д. Каждая цифра сети показали в виде изображения размером 28 на 28 пикселей.

РНС изучила внутреннюю модель, которая могла предсказать, какой будет следующая цифра, начиная с любого случайного места в последовательности. Но сеть была вынуждена делать это с минимально возможными весами между нейронами, что в биологической нервной системе аналогично низкому уровню нейронной активности.

В этих условиях РНС научилась предсказывать следующее число в последовательности. Некоторые из его искусственных нейронов действовали как «юниты предсказания», представляя собой модель ожидаемых входных данных. Другие нейроны действовали как «юниты ошибок», которые были наиболее активны, когда единицы предсказания ещё не научились правильно предвидеть следующее число.

Эти юниты ошибок покорились, когда предсказательные единицы начали делать всё правильно. Необходимо отметить, что сеть пришла к такой архитектуре, поскольку была вынуждена сократить потребление энергии до минимума.

«Она просто учится выполнять торможение, которое люди обычно встраивают в систему явно, — говорит об этом Кицманн. — Наша система ради эффективности делает это из коробки, достигая эффекта эмерджентности».

Вывод: нейросеть, которая минимизирует потребление энергии, в итоге реализунет своего рода предиктивную обработку. Это позволяет предположить, что биологический мозг, вероятно, делает то же самое.

Раджан назвал работу Кицманна «очень ярким примером того, как ограничения сверху вниз, такие как минимизация энергии, могут косвенно привести к такой специфической функции, как предиктивное кодирование».

Он задался вопросом, может ли появление специфических юнитов ошибок и предсказаний в РНС быть непреднамеренным следствием того, что входные данные получали только нейроны на краю сети.

Если входы были распределены по всей сети, «я думаю, что вы не найдёте разделения между нейронами ошибок и нейронами прогнозирования, однако так или иначе найдёте прогностическую активность», — считает он.

Единая концепция поведения мозга

Какими бы убедительными ни казались эти выводы вычислительных исследований, в конечном счёте только данные от живого мозга могут убедить нейробиологов в существовании в нём предиктивной обработки.

Чтобы получить эти данные, Блейк Ричардс, нейробиолог и специалист в области информатики из Университета Макгилла и Мила, Квебекского института искусственного интеллекта, и его коллеги сформулировали несколько чётких гипотез о том, что они должны увидеть в мозге, который учится прогнозировать неожиданные события.

Пирамидальные нейроны в мозге анатомически подходят для предиктивной обработки, поскольку могут отдельно интегрировать сигналы «снизу вверх» от соседних нейронов и «сверху вниз» от более удалённых нейроновПирамидальные нейроны в мозге анатомически подходят для предиктивной обработки, поскольку могут отдельно интегрировать сигналы «снизу вверх» от соседних нейронов и «сверху вниз» от более удалённых нейронов

Чтобы проверить свои гипотезы, они обратились к исследователям из Института Аллена по изучению мозга в Сиэтле, которые провели эксперименты на мышах, отслеживая нейронную активность в их мозге. Особый интерес представляли определённые пирамидальные нейроны неокортекса, которые, как считается, анатомически приспособлены для предиктивной обработки информации. Они могут получать как локальные сенсорные сигналы снизу вверх от близлежащих нейронов через входы в их клеточное тело, так и сигналы предсказания сверху вниз от более отдалённых нейронов (через их апикальные дендриты).

Мышам показывали множество последовательностей пятен Габора, состоящих из светлых и тёмных полос. Все четыре пятна в каждой последовательности имели примерно одинаковую ориентацию, и мыши привыкли к этому. «Должно быть, было чертовски скучно — просто смотреть на эти последовательности», — подмечает Ричардс.

Затем исследователи ввели неожиданное событие — четвёртое пятно Габора, случайным образом изменившее ориентацию. Мыши были удивлены, но со временем стали ожидать неожиданного. Всё это время исследователи наблюдали за активностью мозга животных.

Они увидели, что множество нейронов по-разному реагируют на ожидаемые и неожиданные стимулы. Следует отметить, что это различие оказалось сильным в локальных, восходящих сигналах в первый день тестирования, но ослабло на второй и третий день.

В контексте прогностической обработки это предполагает, что вновь сформированные нисходящие ожидания начинают тормозить реакцию на поступающую сенсорную информацию, пока стимулы удивляют всё меньше.

В то же время в апикальных дендритах происходило обратное: разница в их реакции на неожиданные стимулы с течением времени увеличивалась. Выяснилось, что нейронные цепи учатся лучше представлять свойства удивительных событий, чтобы в следующий раз делать более точные прогнозы.

По словам Ричардса, это исследование поддерживает идеи о том, что в неокортексе происходит нечто вроде прогностического обучения или прогностического кодирования.

Это правда, что отдельные наблюдения за активностью нейронов или поведением животного иногда можно объяснить через другую модель мозга. Например, ослабевающие ответы нейронов на один и тот же вход могут трактоваться не как торможение ошибочных единиц, вместо этого они могут быть обусловлены адаптацией. По словам де Ланге, подход даёт вам целый телефонный справочник объяснений различных явлений.

С другой стороны, предиктивная обработка предтсавляет объединяющий фундамент, чтобы объяснить многие явления сразу, отсюда и привлекательность в качестве теории о работе мозга. По словам Ричардса, доказательства на данный момент достаточно убедительны.

Автор: @Mojsha
Источник: https://habr.com/

Понравилась статья? Тогда поддержите нас, поделитесь с друзьями и заглядывайте по рекламным ссылкам!