Знаете ли Вы как наш мозг запоминает изображения и какое количество нейронов для этого необходимо?

В современных системах машинного обучения для достижения эффективности в быстром распознавании образов часто используется метод загрузки очень большого количества различных изображений изучаемого объекта. В то же время человек способен к обобщению: увидев один пример цифры “3”, он может с лёгкостью идентифицировать её в различных форматах, размерах и ориентациях, при этом делая это быстро и точно. Возникает вопрос: как это возможно? Даже более простые организмы, такие как насекомые, демонстрируют способность к распознаванию окружающих объектов. Нельзя ли предположить, что для этого им требуется загрузка сотен различных изображений, подобно тому, как это происходит в системах машинного обучения? Очевидно, что здесь есть несоответствие с действительностью. Следует рассмотреть альтернативный подход к проблеме распознавания образов. Для этого нам понадобятся некоторые базовые знания о функционировании мозга.

Нейроны

Как известно активность мозга обеспечивают нейроны – клетки, приспособленные для передачи друг другу электрических сигналов. Нейроны связаны друг с другом через отростки двух типов – аксоны, по которым сигналы поступают от тела клетки и дендриты, по которым клетка получает входящую информацию. Место, где аксон соприкасается с дендритом называется синапсом. Через синапсы электрический сигнал передается от одного нейрона к другому.

Нервный импульс и потенциал действия

Физиологической основой нервного импульса является потенциал действия. Потенциал действия возникает при деполяризации нейрона — если достигнут некоторый порог клетка возбуждается и от её тела к аксонам и дендритам распространяется волна электрического сигнала.

Долговременная потенциация

Воспоминание это группа нейронов, которые возбуждаются всякий раз, когда возбуждается один из нейронов группы. Когда нейроны группы возбуждаются вместе, это увеличивает вероятность их следующего совместного возбуждения. Чем чаще возбуждается нейрон, тем сильнее его воздействие на другие, связанные с ним нейроны и тем выше вероятность того что он вызовет возбуждение в них. На поверхности возбужденного нейрона происходят химические изменения, делающие его чувствительнее к стимуляции со стороны тех нейронов, от которых к нему пришли импульсы. Этот процесс называется долговременной потенциацией. Многократное одновременное возбуждение может крепко связать нейроны – активность одного нейрона будет вызывать возбуждение всех нейронов группы, с которыми он связан. Так записываются воспоминания.

Саккады

Саккады это автоматические, неуправляемые, быстрые движения глаз, которые позволяют сканировать визуальную сцену. Глаз на короткое время фиксируется на элементе изображения и затем быстро переходит к следующему элементу.

На рисунке 1 показаны несколько соединенных друг с другом нейронов.

Рис. 1. Нейроны и связи между ними.

В мозге нейроны соединяются друг с другом в огромную сеть как на рисунке 2.

Рис.2 Сеть нейронов в мозге.

Очевидно что система, в которой множество нейронов посылают друг другу импульсы, имеет сложную динамику. Поэтому чтобы процесс запоминания и распознавания образа шел в нужном направлении, в данной модели используется обратная связь от глаза в нейронную сеть мозга.

Так как импульсы передаются от одного нейрона к другому в определенном направлении и система вряд ли может распознать образ за один цикл прохода импульсов от глаза по сети, то предполагается что система работает в импульсном режиме, как бы сканируя образ на некоторой частоте с обратной связью от глаза.

Запоминание образа

Предположим что человек не знает что такое цифра 3 и учится писать, запоминает ее. Учитель рисует тройку на доске и глаз ученика начинает двигаться вдоль контура тройки, как показано на рис. 3. Что при этом происходит в мозге?

Рис 3. Первый этап запоминания образа цифры 3

Глаз начинает двигаться вдоль контура тройки не сразу. Сначала нейронная сеть мозга управляет мышцами глаза так что глаз ищет направление движения вдоль контура тройки. В процессе поиска глаз может двигаться в разных направлениях, показанных на рис. 3 зелеными стрелками S1, S2, S3, S4, как бы ощупывая пространство.

Начальный процесс поиска устойчивого направления вдоль контура тройки это случайная активность сети и саккадные движения, но он управляется сигналом обратной связи от глаза. Если в данный момент нейронная сеть управляет мышцами глаза так что он движется в направлении S1, то двигаясь в этом направлении глаз выходит за контур тройки и частота импульсов, поступающих в нейронная сеть от глаза уменьшается, а значит процесс распространения импульсов в этом направлении не поддерживается сигналом обратной связи от глаза и процесс в сети N1, вызывающий движение глаза в этом направлении, затухает. Затухание происходит не сразу – уменьшающаяся частота импульсов от глаза приводит к тому, те клетки, которые управляли глазом так что он двигался в направлении S1 становятся неактивными и глаз возвращается в точку, находящуюся на контуре тройки, откуда начиналось его движение в сторону S1, эта точка подтверждается сигналом обратной связи от глаза.

Импульсы от глаза перераспределяются – активируются соседние нейроны сети N1, которые направляют глаз по направлению S2, потом S3, S4. Этот процесс поиска продолжается до тех пор пока глаз не начнет двигаться в правильном, устойчивом направлении D1 вдоль контура тройки. Когда это происходит, контур обратной связи замыкается, в сеть N1 от глаза стабильно поступают импульсы с большой частотой, система переходит в устойчивое состояние. Для запоминания, долговременной потенциации процесс распространения импульсов в сети должен быть устойчивым какое то время, то есть поддерживаться сигналом обратной связи от глаза, что и будет подтверждением того что глаз движется в правильном направлении вдоль контура тройки.

Далее глаз, двигаясь в направлении D1 доходит до места, где контур тройки делает поворот. Это приводит к тому что импульсы обратной связи от глаза ослабевает и нейронная сеть начинает искать новое направление взгляда вдоль контура тройки (синие стрелки S1-S3 на рис. 4) пока не будет найдено следующее направление D2 с устойчивой обратной связью от глаза. В процессе поиска и в устойчивом состоянии импульсы от глаза будут входить в сеть N1 и распространяться через нее в сеть N2. Когда направление D2 найдено, нейроны сети N2 продолжат управлять мышцами глаза так чтобы взгляд двигался в направлении D2.

Рис. 4 Второй этап запоминания образа цифры 3.

На следующем повороте контура тройки процесс запоминания будет таким же – сначала поиск направления движения взгляда сетью N3 (красные стрелки S1-S3 на рис. 5), затем обнаружение направления D3 и движение взгляда по этому направлению вдоль контура тройки.

Рис. 5 Третий этап запоминания образа цифры 3.

И так далее, глаз движется вдоль контура тройки до его конца и сеть запоминает образ.

“Поиск направления – движение взгляда вдоль контура тройки – поиск направления – движение взгляда вдоль контура тройки” – эти процессы в мозге должны быть простыми, похожими и повторяющимися. Если для запоминания каждого образа эти процессы были бы разными, то это привело бы к ненужному усложнению мозга. Далее в тексте я называю такие сети, участвующие в запоминании и распознавании, микроплеерами или просто плеерами, потому что они небольшие и каждый раз как бы проигрывают запомненный образ.

Распознавание образа

Процесс распознавания образа тройки в мозге выполняется теми же нейронами, сетями и путями распространения импульсов, которые были задействованы при запоминании этой цифры. Схожи и сами процессы запоминания и распознавания. Вряд ли для запоминания и распознавания используются разные группы нейронов и разные процессы. Это было бы слишком сложно, тем более что разнесение в пространстве и времени запоминающих и распознающих сетей нейронов потребовало бы копирования информации из одной группы нейронов в другую, синхронизации процессов в обоих группах клеток и так далее.

Перейдем к процессу распознавания, показанному на рис. 6.

Рис. 6 Процесс распознавания образа.

Заметим что тройка, которую нужно распознать, отличается по форме от тройки, которая использовалась при обучении. Как было сказано ранее, в распознавании тройки участвуют те же нейроны, которые участвовали в процессе обучения, и соседние с ними нейроны. Процессы запоминания и распознавания также схожи.

Когда глаз движется вдоль контура тройки, в плеер поступают частые импульсы обратной связи от глаза, что является подтверждением того что глаз движется в правильном направлении. Когда взгляд, двигаясь в текущем направлении вдоль контура тройки, подходит к месту, в котором контур тройки делает поворот, глаз начинает выходить за контур тройки и сигнал обратной связи от него ослабевает. Это приводит к тому что в плеере возникают локальные поиски немного в стороны от текущего направления, показанные маленькими стрелками, в том числе стрелками S1, S2, S3 на рис. 6. Глаз при этом как бы ощупывает взглядом окрестности точки, в которой направление взгляда вышло за пределы контура тройки, пытаясь найти точки продолжения контура. Если глаз находит такие точки то это сопровождается учащением импульсов от глаза, подтверждающим что глаз снова движется вдоль контура тройки – цепь обратной связи замыкается, локальные поиски прекращаются.

В процессе распознавания управление мышцами глаза последовательно переходит к нейронам сетей N1, N2, N3 для разных участков контура тройки. Нейроны сети N1 передают управление мышцами глаза нейронам сети N2, нейроны сети N2 передают управление нейронам сети N3 и так до конца контура тройки. При этом сигналы обратной связи от глаза в процессе распознавания все время проходят начиная с сети N1 к текущей сети, управляющей в данный момент мышцами глаза. То есть сначала по пути “глаз – сеть N1 – мышцы глаза”, потом “глаз – сеть N1 – сеть N2 – мышцы глаза”, затем “глаз – сеть N1 – сеть N2 – сеть N3 – мышцы глаза” и так далее. Еще раз отмечу, что распознавание в такой системе это процесс в котором участвуют те же нейроны и сети, которые участвовали в процессе обучения. И сам процесс распознавания такой же как при обучении – “поиск – стабильное состояние сети – поиск – стабильное состояние сети”.

В такой системе замыкание обратной связи через контур “глаз – нейронная сеть (плеер) – мышцы глаза – глаз – образ тройки – глаз” и поддержание благодаря обратной связи активности процесса в плеере это и есть распознавание – то есть соответствие процесса, запомненного в плеере, изображению тройки перед глазом.

При этом активность полного контура обратной связи в данный момент времени может поддерживать только один плеер, так как мышцы глаза одни и управлять ими может только один плеер. Этим обеспечивается правильность распознавания.

При запоминании и распознавании в нейронной сети нет понятия об ориентации образа тройки и его геометрии как таковой – плеер о них ничего не знает. Также на рис. 6 видно что при распознавании тройки геометрическая форма сети и направления распространения импульсов в ней могут быть совсем не похожи на образ тройки перед глазом.

При распознавании импульсы в плеере распространяются так, что при изменении направления контура тройки глаз ищет новое направление движения взгляда вдоль контура относительно текущего направления движения взгляда, поэтому плеер может распознавать перевернутую тройку как показано на рис. 7.

Рис.7 Распознавание перевернутого образа цифры 3 с помехами

А как такая система справится с распознаванием образа тройки, в котором часть контура разорвана (зона А на рис. 7) или, например, пересекается с линиями которые не принадлежат контуру (зона В на рис. 7) ? Как описывалось ранее, когда взгляд движется вдоль контура тройки и в плеер поступают импульсы от глаза, система находится в стабильном состоянии, контур обратной связи “глаз – плеер – мышцы глаза – глаз” замкнут. Такая система имеет инерцию – контур обратной связи не может разорваться сразу, поэтому взгляд просто пропускает разрывы и пересечения контура с посторонними линиями и движется дальше вдоль контура тройки.

При этом распознавание в плеере это относительно простой, автоматический процесс. Сам плеер не знает что именно он распознает. Если, например, распознается образ, показанный в середине рис. 8 то, в зависимости от того, в каком направлении движется взгляд на этапе поиска точек контура, плеер может распознать тройку как в форме R1 красного цвета, так и в форме R2 зеленого цвета – система способна к обобщению, то есть к распознаванию образов тройки разной формы.

Рис. 8 Обобщенное распознавание образа.

Распознавание одной из нескольких цифр

Допустим что мозг запомнил все цифры от 1 до 9. После обучения для каждой цифры в мозге есть свой плеер. Затем человеку показывают изображение одной из цифр. Система должна определить какая это цифра. При распознавании все плееры для цифр от 1 до 9 запущены и одновременно работают в мозге как показано на рис. 9.

Рис. 9. Распознавание одной из нескольких цифр.

На вход всех плееров подается сигнал от глаза и плееры пытаются распознать свою цифру независимо и параллельно. Но мышцы глаза одни и ими может управлять только один плеер. Какой именно ? А тот плеер в котором быстрее замыкается петля обратной связи распознавания. В данном случае плеер тройки первым перехватывает управление мышцами глаза. Процессы распознавания в плеерах для других цифр ослабевают и они не управляют мышцами глаза. То что процесс в плеере тройки остается активным а в других плеерах ослабевает это и есть признак того, что перед нами именно тройка а не другая цифра.

Однако это динамический процесс – если образ тройки перед глазами начнет трансформироваться в образ другой цифры, например, двойки, то активным станет плеер двойки. Он перехватит управление мышцами глаза а сигналы в плеере тройки ослабнут.

Заключение

Можно ли применить микроплееры не только для распознавания образов, но и для объяснения работы мозга в целом?

Возможно да. В статье был рассмотрен механизм распознавания зрительного образа, но тот же механизм может работать при распознавании информации от других органов чувств.

Для распознавания сложных образов и других видов когнитивной деятельности в мозге могут одновременно быть запущено большое количество плееров, работающих параллельно.

Ученые посчитали количество нейронов мозга для кодирования и запоминания лица

Мозг обладает великолепной способностью различать лица и другие сложные объекты. Вот уже несколько десятилетий учёные безрезультатно бьются над задачей и пытаются понять, как происходит такое распознавание — как кодируются и хранятся изображения в мозге. Согласно общепринятым представлениям, процесс распознавания (идентификации объектов) происходит в нижневисочной коре, то есть инферотемпоральной зоне головного мозга. Но до сих пор оставалось непонятным, какую роль в кодировании данных играют отдельные нейроны и какое количество нейронов, собственно, задействуется в процессе.

Двое биологов из Калифорнийского технологического университета опубликовали научную работу, которая во многом проливает свет на то, как работает головной мозг приматов, в том числе человека. Учёные считают, что расшифровали код, которым в мозге кодируется информация о лицах. Доказательством является то, что учёные смогли только по сигналу мозга восстанавливать (угадывать) лица, которые видит обезьяна (и, соответственно, человек).

Специалисты провели эксперимент с помощью магнитно-резонансной томографии, считывая сигналы нейронов в области коры головного мозга макак, которая отвечает за идентификацию объектов. Во время сканирования мозга подопытным макакам демонстрировали 2000 немного отличающихся лиц людей. Определяя различия в активности нейронов при визуальной обработке разных лиц, учёным удалось сделать предположения о том, каким образом кодируется сигнал. Судя по всему, система обработки визуальной информации макак очень похожа на человеческую. Согласно результатам исследования, для кодирования информации о лицах достаточно всего 205 (!) нейронов головного мозга (их назвали «лицевыми нейронами»).

Учёные научились предсказывать, какое лицо видит макака, считывая сигнал с 200 «лицевых нейронов» её мозга. Это доказывает, что они корректно определили шифр, которым кодируются характеристики лица в этих нейронах

У социальных приматов, таких как макака и человек, эволюция выработала специальный механизм для быстрого распознавания лиц, потому что от этого навыка зависит выживание животного в социальной группе — мы должны мгновенно отличать друзей от незнакомцев. Секундное промедление может стоить жизни, поэтому мозг научился решать эту задачу быстро и эффективно (то есть те, кто мог выполнять задачу быстро и эффективно — выжили).

Казалось бы, логично выделить по одному нейрону на каждое лицо, ведь в мозге действительно есть специфические нейроны, которые реагируют на конкретных людей (их называют клетками Дженнифер Энистон, потому что их открыли у пациента с эпилепсией, мозг которого именно таким уникальным образом реагировал на фотографии Дженнифер Энистон). Но нет, распознавание лиц в общем случае работает не так, потому что ему нужно обрабатывать в том числе лица, которые он никогда не видел раньше, и здесь тоже важна идентификация «свой-чужой».

У нас система распознавания лиц в мозге состоит из кластеров коры минимум по 10 тыс. нейронов. В каждом полушарии располагается шесть таких кластеров, они находятся около уха.

Как только в поле зрения человека попадается лицо другого человека, электрический сигнал немедленно активирует нейроны в этой области, он проходит через пять или шесть названных кластеров и обрабатывается в каждом из них, прежде чем достигнет «лицевых нейронов». Таким образом, в последних хранится только высокоуровневая обработанная информация о специфических характеристиках лица. И вот эти примерно 205 нейронов кодируют информацию о лицах невероятно простым и абстрактным образом.

Ключевая особенность кодирования информации о лицах в мозге — это сочетания габаритов лица и отдельных объектов на лице (межглазное расстояние и проч.). Всего мозг учитывает около 50 таких параметров при распознавании лиц. В таком «лицевом пространстве» умещается практически любое фактически допустимое количество лиц, так что спутать два лица мозг не может. По мнению учёных, для «лицевых нейронов» есть некое подобие шаблона — что-то вроде «среднего лица», и реакция нейрона на новое лицо является разницей каждой из 50-ти характеристик от этой «базы».

В процессе эксперимента учёные из Калифорнийского технологического университета смогли смоделировать лица, которые отличаются настолько минимально и конкретно, что разница в сигнале составляет всего один нейрон. То есть они смогли понять, какой нейрон отвечает за какую характеристику в распознавании лиц. Каждый «лицевой нейрон» считывает комбинированный вектор примерно шести таких параметров. Например, по одному из параметров лицо отличается от «базы» на пять пунктов, по другому параметру — на минус семь пунктов. Сигнал от 205 клеток вместе создаёт уникальный паттерн конкретного лица.

Изменение формы лица путём изменения 50-ти ключевых характеристик

Как уже было сказано, учёные научились идентифицировать, какие характеристики кодируются какими нейронами. Они смогли синтезировать лица, на которые не будут реагировать конкретные нейроны, и даже угадывать, какое лицо видит макака, просто по сигналу от «лицевых нейронов».

Эксперимент и выводы учёных нуждаются в повторении и проверке, но если они окажутся правдивыми, то мы сможем чуть лучше понять систему шифрования, которая используется в той сложной вычислительной системе, какой является мозг человека и других приматов. Это открытие может найти практическое применение в сфере робототехники и подсказать новые подходы в разработке систем машинного зрения.

«Взлом кода для распознавания лиц определённо будет иметь большое значение», — считает Брэд Дюшейн (Brad Duchaine), эксперт в области распознавания лиц из Университета Дартмута. Самое главное, что учёные получили знак, что распознавание изображений в мозге работает по чётким и понятным правилам.

Ведь последние достижения в области нейросетей показали, что после обучения нейросети человек зачастую не может понять, на какие стимулы реагирует нейросеть — это своеобразный «чёрный ящик», который функционирует по непонятным правилам. Появились опасения, что человеческий мозг может представлять собой такую же непостижимую систему. К счастью, это оказалось не так.

Научная работа опубликована в журнале Cell (doi:10.1016/j.cell.2017.05.011), pdf.

Автор: Денис Тарасов @DENEVGTAR
Источник: https://habr.com/