Можно ли обмануть и запутать искусственный интеллект: новые опасности технологии и когнитивные вирусы

До того, как появится сильный искусственный интеллект, способный полностью поработить человечество, нас ждёт ещё одна угроза, которая беспокоит меня гораздо сильнее — это когнитивные вирусы. Сегодня нам продают новый телефон с помощью уловок, которые были накоплены человечеством за десятилетия проб и ошибок. Базу знаний с такими уловками принято скромно называть Маркетинг. Но способы управления чувствами и поведением других людей накапливались не только там. Геймдизайнеры читают книги по подсаживанию игроков на дофаминовую петлю. Политики читают книги по социальной инженерии. Сценаристы читают «Историю на миллион долларов», которая буквально учит управлять чувствами. Учёные щёлкают над головой аппаратом ТМС, лишая возможности говорить, и проводят сотни тысяч других экспериментов, которые деконструируют механизмы поведения и принятия решений.

Применение ИИ в этой зоне пугает меня по-настоящему. И на то есть три причины:

  1. Поведением можно управлять. Хорошо известен эффект прайминга, при котором восприятие новой информации зависит от контекста поступивших ранее данных.
  2. Это можно делать незаметно. Вы не будете в курсе того, как просмотр фейк-ньюз изменит ваше бессознательное поведение .
  3. Это можно делать достаточно точно. Воткнув электроды в гипоталамус, можно вызвать у человека определенные негативные чувства: например, стыда и страха.

А теперь возьмите эти пункты и ускорьте их развитие в сто раз. Ещё более незаметные и ещё более простые инструменты управления. Повышение точности выполняемого действия до «Почесать голову спустя три дня ровно в 15:00». Прицельное влияние как на конкретные действия, так и на стиль мышления. Именно это может произойти, если применить ИИ к поведенческой психологии.

И меня совершенно не пугает тот факт, что этим инструментом будут пользоваться корпорации. Они и так это делают, причём весьма эффективно. Несовершенство инструментов управления компенсируется масштабным влиянием разных маркетинговых каналов на большом промежутке времени. Политику мы тоже оставим за скобками.

Меня пугает вот такой вот запрос к нейросети: «Сгенерируй картинку, которая заставит человека поднять руку через 15 минут».

Проще говоря, может появится сервис, способный создавать инструменты влияния на поведение человека. И доступ к сервису будет у каждого. Каждый сможет создавать личные способы контроля других. Так же просто, как писать диссертации с помощью Chat GPT. Мощь манипулятивных инструментов корпорации в руках каждого.

И как только где-то появится эта технология, то загнать её обратно в бутылку уже не получится. Сегодня каждый может поставить Stable Diffusion на свой компьютер и генерить картинки. Даже если кто-то на законодательном уровне запретит это делать, уже ничего не изменится.

Каждый сможет управлять каждым

Эта технология может появится в любую секунду. И в обществе не существует даже грубых инструментов защиты. Можно загнать людей по домам во время пандемии, но невозможно запретить обмениваться мемами. А любой мем, потенциально, сможет оказаться скрытым инструментом влияния.

Когда я говорю, что с помощью ИИ появятся принципиально новые способы управления людьми, то обычно мой собеседник начинает спорить, так как невозможно поверить, что ИИ-манипуляция может заставить пойти на выборы и проголосовать за нужного человека. Блин, хотел же без политики.

Но, во-первых, и современные инструменты манипуляции более чем способны добиться этого эффекта. Пусть и с погрешность. Во-вторых, пофиг на все эти сложные действия. Проблема в другом. Проблема кроется именно в супер-простых действиях, на которые повлиять будет проще всего.

Представьте, что в один прекрасный момент вы проснулись ровно в три часа ночи. Зачем? Почему? Непонятно. И на следующий день. И на следующий. Идут месяцы, а вы как петух в деревне. Маловероятно, что вы свяжете этот факт со странным видеороликом, который попался вам в интернете.

Поздравляю, теперь вы заражены когнитивным вирусом. Теперь представьте, что этот ролик посмотрели миллионы людей по всему миру. Примерно так и начнётся первая когнитивная пандемия.

Лечения от этого нет (потом появятся, но на старте нет). Антивирусов нет. Понять источник сложно. Последствия для отдельного человека и всего социума непонятны. Инструменты государственного регулирования не готовы.

Как много людей захочет создать свой вирус? Даже не для личной выгоды, а просто по приколу. Вначале промпты для вирусов будут простыми, примитивными, но дальше сообщество начнёт находить всё более и более интересные комбинации запросов.

Первым делом под удар попадёт вся психосоматика: сон, тревожность, почесывания, дергающийся глаз, заикание, смена вкусовых предпочтений, ослабление системы торможения, активация звериных инстинктов, формирование фобий. Вы никогда не боялись пауков? Это можно будет исправить.

Ну и, конечно же, люди захотят любви. К себе или к новому товару. Аяз будет первым, кто внедрит когнитивные вирусы в свои ролики. Этого же мы так жаждем. Любви.

Да, вирусы будут работать неточно. На кого-то срабатывает, на кого-то нет. У кого-то будут сильнее симптомы, а кто-то почти не заметит произошедших изменений. Всё, как с обычными вирусами. Мы разные, многие паттерны обработки сигналов в мозге индивидуальны, но универсальных тоже хватает.

Когнитивная пандемия. Ковид будет вспоминаться, как сладкий сон. У вас есть идеи, как справиться с этой ситуацией? Напишите в комментариях. Потому что у меня идей нет. Остаётся только надежда.

Надежда на то, что формат «видео со звуком» окажется недостаточно эффективным для создания когнитивных вирусов. Потребуются, например, запахи или длительное влияние. Я на это надеюсь, но не очень в это верю.

Потому что за пятнадцать лет изучения мозга и мышления, я слишком привык к мысли, что мозг — это механизм. И алгоритм работы этого механизма напрямую зависит от поступающей информации. Правильно подбери информацию, и получишь нужный результат.

Я считаю, что когнитивные вирусы — это главная опасность текущей фазы развития нейросетей. Не хотелось бы попасть в искажённую версию «Тетради смерти». Всё остальное не так страшно. С остальным более — или менее понятно, как справляться. И мне кажется, стоит обсуждать этот вопрос уже сейчас.

Эта статья лишь поверхностно касается существующих способов управления поведением. Напишите в комментариях, если вам интересно более глубокое погружение. Попробуем с Машей сделать обзорную статью на эту тему.

Как обмануть искусственный интеллект

Как это возможно? Подумайте о том, как ребенок учится распознавать цифры. Разглядывая символы один за другим, ребенок начинает подмечать некоторые общие характеристики: одни выше и стройнее, шестерки и девятки содержат одну большую петлю, а восьмерки — две, и так далее. После того как они увидят достаточно примеров, они могут быстро распознавать новые цифры в виде четверок, восьмерок или троек — даже если благодаря шрифту или почерку они не будут выглядеть точно так же, как любые другие четверки, восьмерки или тройки, которые они когда-либо раньше видели.

Алгоритмы машинного обучения учатся читать мир через несколько похожий процесс. Ученые скармливают компьютеру сотни или тысячи (обычно помеченных) примеров того, что они хотели бы обнаружить на компьютере. Когда машина просеивает данные — это число, это нет, это число, это нет — она начинает подмечать особенности, которые приводят к ответу. Вскоре она может посмотреть на картинку и сказать: «Это пять!» с высокой точностью.

Таким образом, как человеческие дети, так и компьютеры могут научиться распознавать огромное количество объектов — от цифр до кошек, от лодок до отдельных человеческих лиц.

Но, в отличие от дитяти человека, компьютер не обращает внимания на детали высокого уровня — вроде пушистых ушей кошек или отличительной угловатой формы четверки. Он не видит цельную картинку.

Вместо этого он смотрит на отдельные пиксели изображения — и на самый быстрый способ разделить объекты. Если подавляющее число единиц будет иметь черный пиксель в определенной точке и несколько белых пикселей в других точках, машина очень быстро научится их определять по нескольким пикселям.

Теперь вернемся к знаку «стоп». Незаметно поправив пиксели изображения — эксперты называют такое вмешательство «пертурбациями» — можно обмануть компьютер и заставить думать, что знака «стоп», в сущности, и нет.

Аналогичные исследования, проведенные в Лаборатории эволюционного искусственного интеллекта в Университете Вайоминга и Корнеллского университета, произвели довольно много оптических иллюзий для искусственного интеллекта. Эти психоделические образы абстрактных узоров и цветов ни на что не похожи для людей, но быстро распознаются компьютером в виде змей или винтовок. Это говорит о том, как ИИ может смотреть на что-то и не видеть объект, либо видеть вместо него что-то другое.

Эта слабость распространена во всех типах алгоритмов машинного обучения. «Можно было бы ожидать, что каждый алгоритм имеет брешь в броне», говорит Евгений Воробейчик, доцент кафедры информатики и вычислительной техники в Университете Вандербильта. «Мы живем в очень сложном многомерном мире, и алгоритмы по своей природе затрагивают лишь небольшую его часть».

Воробейчик «крайне уверен», что, если эти уязвимости существуют, кто-то выяснит, как ими воспользоваться. Вероятно, кто-то уже это сделал.

Рассмотрим спам-фильтры, автоматизированные программы, которые отсеивают любые неуклюжие электронные письма. Спамеры могут попытаться обойти этот заслон, изменив написание слов (вместо виагры — ви@гра) или добавив список «хороших слов», которые обычно встречаются в нормальных письмах: вроде «ага», «меня», «рад». Между тем спамеры могут попытаться убрать слова, которые часто появляются в спаме, например, «мобильный» или «выигрыш».

Чем опасен искусственный интеллект

До чего могут дойти мошенники в один прекрасный день? Самоуправляемый автомобиль, обманутый наклейкой на знак «стоп», является классическим сценарием, который был придуман экспертами в этой области. Дополнительные данные могут помочь порнографии проскочить через безопасные фильтры. Другие могут попытаться увеличить количество чеков. Хакеры могут подправить код вредоносного программного обеспечения, чтобы ускользнуть от органов правопорядка.

Нарушители могут понять, как создавать пропускающие данные, если заполучат копию алгоритма машинного обучения, которое хотят обмануть. Но чтобы пробраться сквозь алгоритм, это и не обязательно. Можно просто сломать его грубой силой, набрасывая на него немного разные версии электронной почты или изображений, пока они не пройдут. Со временем это можно будет даже использовать для совершенно новой модели, которая будет знать, что ищут хорошие ребята, и какие производить данные, чтобы их обмануть.

«Люди манипулируют системами машинного обучения с тех пор, как они были представлены впервые», говорит Патрик Макдэниел, профессор компьютерных наук и инженерии в Пенсильванском университете. «Если люди используют эти методы, мы можем даже об этом не знать».

Этими же методами могут воспользоваться не только мошенники — люди могут скрываться от рентгеновских глаз современных технологий.

«Если вы какой-нибудь политический диссидент при репрессивном режиме и хотите проводить мероприятия без ведома спецслужб, вам может понадобиться избегание автоматических методов наблюдения на основе машинного обучения», говорит Лоуд.

В одном из проектов, опубликованных в октябре, исследователи из Университета Карнеги — Меллона создали пару очков, которые могут тонко ввести в заблуждение систему распознавания лиц, заставив компьютер ошибочно принимать актрису Риз Уизерспун за Рассела Кроу. Это звучит смешно, но такая технология может пригодиться кому-нибудь, кто отчаянно пытается избежать цензуры со стороны власть имущих.

Как создать идеальный ИИ

Что же со всем этим делать? «Единственный способ полностью избежать этого — создать идеальную модель, которая будет всегда правильной», говорит Лоуд. Даже если мы смогли бы создать искусственный интеллект, который превзошел бы людей во всех отношениях, мир все еще может подсунуть свинью в неожиданном месте.

Алгоритмы машинного обучения обычно оценивают по их точности. Программа, которая распознает стулья в 99% случаев, будет явно лучше, чем та, которая распознает 6 стульев из 10. Но некоторые эксперты предлагают другой способ оценки возможности алгоритма справиться с атакой: чем жестче, тем лучше.

Другое решение может заключаться в том, чтобы эксперты могли задавать программам определенный темп. Создайте свои собственные примеры атак в лаборатории, исходя из возможностей преступников на ваш взгляд, а затем покажите их алгоритму машинного обучения. Это может помочь ему стать более устойчивым с течением времени — при условии, конечно, что тестовые атаки будут соответствовать типу, который будет проверен в реальном мире.

«Системы машинного обучения — инструмент для осмысления. Мы должны быть разумными и рациональными в отношении того, что мы им даем и что они нам говорят», считает Макдэниел. «Мы не должны относиться к ним как к совершенным оракулам истины».

Авторы: Кеша Скирневский @Kesha_S, Илья Хель
Источники: https://habr.com/, https://hi-news.ru/