Применение искусственного интеллекта для расшифровки поврежденных древнегреческих текстов: подробности проекта

Специалисты известной компании DeepMind неоднократно демонстрировали впечатляющие технологические достижения. Их проект под названием AlphaGo, о котором уже очень много писали, стал ярким примером того, как новые технологии способны разрушать стереотипы. Долгое время считалось, что компьютеры не могут побеждать в играх, требующих интуиции. Однако AlphaGo опроверг это убеждение, одержав многочисленные победы в чемпионатах по го. В настоящее время DeepMind разрабатывает технологию, которая производит фурор не своими ошеломляющими победами над человеком, а своими возможностями в области науки, а именно – в разных исторических исследованиях. Система под названием Ithaca помогает историкам эффективно расшифровывать поврежденные древние тексты. В запасниках музеев хранится огромное количество артефактов прошлого, которые сильно пострадали от времени.

И если оружие, доспехи, одежду можно реставрировать, то вот тексты, которые нанесены на поврежденный папирус, пергамент и другие «носители», восстановить не так просто. Но Ithaca с этим справляется.

Проблемой для историков являются не только поврежденные тексты, но и их происхождение — время и место. Для истории важное значение имеет место написания текстов, будь то пространный документ или нечто вроде бухгалтерского отчета. Но выяснить это далеко не всегда представляется возможным — просто потому, что такие документы часто перемещаются на сотни и даже тысячи километров от места своего создания. Ну и третий важный фактор для историков — время, когда текст был написан. Благодаря радиоуглеродному и другим видам анализа возраст документа можно выяснить достаточно точно. Но вот проблема — для любых видов анализа требуется образец носителя, на который нанесен текст. А в случае древних материалов достаточно небольшого воздействия, и бесценный артефакт может быть сильно поврежден или и вовсе разрушен.

Технология, о которой идет речь в материале, способна решить практически все эти задачи. Конечно, инструмент не идеален, но он способен на многое из того, чего не может сделать ученый-историк даже очень высокой квалификации.

Поврежденные тексты и Пифия

Часто документы, которые дошли до нашего времени, являются неполными. Восстановить смысл утерянного участка в обычной ситуации невозможно или очень сложно. В большинстве случаев утерянные участки, вернее, их смысл, восстанавливают при помощи сохранившегося текста, а также возможных подсказок, которые могут быть в других источниках, историческом контексте и т.п.

Несколько лет назад группа ученых и разработчиков создали систему, которая позволяет значительно ускорить этот процесс. Так, Яннис Ассаэль из DeepMind, Теа Соммершилд и Джонатан Праг совместно с исследователями из Оксфордского университета разработали Pythia. Это технология восстановления древних текстов, которая названа в честь жрицы-прорицательница при храме Аполлона в Древней Греции.

Сначала ученые начали работу с базой данных Гуманитарного института Паккарда. Это крупнейшая цифровая коллекция древнегреческих надписей. Ее решили преобразовать в машиночитаемый текст, базу, которая получила название PHI-ML. В базе, к слову, содержалось около 35 000 надписей и около 3 млн слов — с 7 века до нашей эры по 5 век нашей эры. Как только все это преобразовали в понятный для ИИ-системы текст, Pythia научили предсказывать недостающие буквы в намеренно незавершенных или поврежденных словах. В основе всего этого лежала сложная система из нейронных сетей.

Столкнувшись с проблемным словом или предложением, Pythia предлагала до 20 различных вариантов букв и слов, которые могли быть в оригинальном варианте текста. Кроме того, система выводила уровень «правдоподобности» для всех предложенных вариантов. После ряда тестов разработчики системы проверили ее в деле на реальных текстах с известной уже расшифровкой. Над этими текстами работала одновременно как, так и аспиранты по эпиграфике. Команда протестировала систему, сравнив результаты Пифии по разбору 2949 надписей. У выходных данных Pythia оказалось 30,1% ошибок по сравнению с 57,3% ошибок для аспирантов. Пифия также смогла выполнить задание намного быстрее: для расшифровки 50 надписей потребовалось всего несколько секунд, по сравнению с двумя часами для начинающих ученых.

Новый этап работы — в игру вступает Итака

Как и говорилось в начале, финальная система, которая ведет работу по расшифровке текстов, получила название Ithaca. Она занимается не только восстановлением повреждённых участков, но и помогает выяснить, где и когда были созданы восстановленные тексты. Результаты работы группа авторов проекта выложила в свой блог, где, кроме всего прочего, показала на интерактивной карте возможные места создания древних текстов. Датировка — от 800 лет до н.э. до 800 лет н.э.

Как оказалось, точность работы нового алгоритма составляет около 62%. Тогда как средняя оценка точности восстановления текстов с оценкой даты и места их происхождения учеными — всего 25%. Но есть интересный нюанс. Если система работает вместе с человеком, специалистом по эпиграфике, то точность еще выше — она поднимается до 72%. Разброс дат, то есть времени происхождения текстов — плюс-минус 30 лет. Не так и много, если учитывать временной интервал, с которым ведется работа — свыше 1500 лет.

После того, как корректность работы была подтверждена учеными, возможности Ithaca решили использовать для решения проблемы с датировкой определенного пула афинских текстов. У нескольких специалистов по Древней Греции возникли расхождения во взглядах относительно их датировки. Например, некоторые ученые считали, что тексты были написаны не позднее 446 г. до н.э., другие же утверждали, что тексты созданы раньше — примерно в 420 г. н.э. Алгоритм, проанализировав спорный пул текстов выдал датировку в 421 г. н.э.

Разница вроде бы не такая и большая, но для специалистов по Древней Греции она огромна, поскольку имеет важное значение для определения хода политической истории в древнем государстве.

Что дальше

Насколько могут судить специалисты, алгоритм работает корректно, и, как указано выше, результат работы Ithaca выше, чем результат работы ученых. Сейчас систему планируют адаптировать для работы с другими текстами на других языках, включая аккадский, иврит и майя.

Несколько ученых, проанализировав результаты работы алгоритма, созданного DeepMind, заявили, что с нетерпением ждут применения возможностей технологии в других направлениях истории. Так, в музеях достаточно много текстов, о происхождении которых не известно практически ничего — просто потому, что они стали жертвами «охотников на древности». Т.е. людей, которые покупали и продавали тексты, полученные по неизвестным каналам, ради обогащения.

В итоге ни точные даты создания таких документов, ни место происхождения ученым неизвестно. Что и говорить, мы тоже с нетерпением ждем результатов работы Ithaca в ближайшем будущем.

Автор: Ирина @Ccelebro
Источник: https://habr.com/