Как стало известно, электронная библиотека по научной тематике elibrary.ru запустила проект, позволяющий пользователям портала производть интеллектуальный поиск близких по тематике запроса публикаций, который поддерживается специально созданной для этого нейросетью SciRus-tiny, разработанной в МГУ для анализа научных текстов в рамках проекта «Математические методы анализа сложных систем», проект «Разработка математических методов машинного обучения для обработки текстовой научной информации большого объема» Междисциплинарной научно-образовательной школы МГУ. «Российские ученые теперь могут с помощью нейросетевой модели МГУ пополнять коллекции своих статей. Это оказалось очень удобно, – прокомментировал руководитель междисциплинарной группы проекта, заведующий кафедрой физического факультета МГУ академик Алексей Хохлов. –
Традиционно поиск в базах данных научной информации производится путем указания ключевых слов. Количество найденных документов и их состав сильно зависят от того, насколько точно подобраны ключевые слова. Нейросетевой поиск позволяет задать в качестве условия запроса аннотацию, полный текст научной статьи или даже подборки статей по интересующей тематике. Система автоматически подберет документы, максимально близкие по своей тематической направленности».
На портале elibrary.ru такой поиск реализован на странице с описанием публикации (пункт «Найти близкие по тематике публикации» в панели «Инструменты»). Кроме поиска с помощью нейросети, на выбор пользователя предоставляется несколько вариантов поиска — на основе совместного цитирования, просмотра публикаций пользователями и включения в подборки, соавторства и совпадения ключевых слов. Также есть возможность ограничить поиск путем указания периода выпуска научной статьи, типа публикации, ее вхождения в РИНЦ или ядро РИНЦ, а также даты размещения на портале elibrary.ru. Последнее условие удобно использовать для поиска среди свежих поступлений в Научную электронную библиотеку.
«Разработанная в рамках данного проекта модель уже широко используется в Научной электронной библиотеке для решения целого ряда задач, связанных с оценкой тематической близости научных документов. Уже протестирован специалистами полезный сервис для ученых, позволяющий для заданной статьи или подборки статей найти тематически похожие документы как среди всего массива elibrary.ru (более 55 млн научных публикаций), так и только среди новых поступлений, — прокомментировал генеральный директор НЭБ Геннадий Еременко. — Важной для нас особенностью данной модели является ее мультиязычность, поскольку Научная электронная библиотека содержит документы на различных языках. Также тестирование подтвердило высокую эффективность модели, что расширяет круг задач и приложений, где она может быть использована. В стадии разработки — применение нейросети для идентификации авторов в публикациях, тематической классификации научных статей, а также в новом интерфейсе расширенного поиска на elibrary.ru».
Напомним, что в декабре 2023 года сотрудники лаборатории машинного обучения и семантического анализа Института ИИ МГУ при поддержке портала eLibrary обучили и опубликовали в открытом доступе нейронную сеть для получения семантических векторных представлений (эмбеддингов) научных текстов на русском языке SciRus-tiny. С ее помощью можно решать множество прикладных задач, начиная с поиска и классификации и заканчивая извлечением научных терминов.
Справка
eLIBRARY.RU – это крупнейшая в России электронная библиотека научных публикаций, обладающая богатыми возможностями поиска и анализа научной информации. Библиотека интегрирована с Российским индексом научного цитирования (РИНЦ) – созданным по заказу Минобрнауки РФ бесплатным общедоступным инструментом измерения публикационной активности ученых и организаций. eLIBRARY.RU и РИНЦ разработаны и поддерживаются компанией “Научная электронная библиотека”.
НАУЧНАЯ ЭЛЕКТРОННАЯ БИБЛИОТЕКА
Платформа eLIBRARY.RU была создана в 1999 году по инициативе Российского фонда фундаментальных исследований для обеспечения российским ученым электронного доступа к ведущим иностранным научным изданиям. С 2005 года eLIBRARY.RU начала работу с русскоязычными публикациями и ныне является ведущей электронной библиотекой научной периодики на русском языке в мире.
На сегодня посетителям eLIBRARY.RU доступны рефераты и полные тексты более 38 млн научных публикаций и патентов, в том числе электронные версии более 5600 российских научно-технических журналов. Общее число зарегистрированных институциональных пользователей (организаций) – более 2800. В системе зарегистрированы 1,7 миллиона индивидуальных пользователей из 125 стран мира. Ежегодно читатели получают из библиотеки более 12 миллионов полнотекстовых статей и просматривают более 90 миллионов аннотаций.
Свыше 4500 российских научных журналов размещены в бесплатном открытом доступе. Для доступа к остальным изданиям предлагается возможность подписаться или заказать отдельные публикации.
РОССИЙСКИЙ ИНДЕКС НАУЧНОГО ЦИТИРОВАНИЯ
Российский индекс научного цитирования (РИНЦ) – это национальная информационно-аналитическая система, аккумулирующая более 11 миллионов публикаций российских авторов, а также информацию о цитировании этих публикаций из более 6000 российских журналов. Она предназначена не только для оперативного обеспечения научных исследований актуальной справочно-библиографической информацией, но является также и мощным инструментом, позволяющим осуществлять оценку результативности и эффективности деятельности научно-исследовательских организаций, ученых, уровень научных журналов и т.д.
Проект стартовал в 2005 году, когда Научная электронная библиотека стала победителем конкурса Министерства образования и науки России на создание национального индекса научного цитирования. Основной целью запуска проекта была необходимость создания объективной системы оценки и анализа публикационной активности и цитируемости отечественных исследователей, организаций и изданий. Решение о создании национального индекса научного цитирования было обусловлено тем фактом, что лишь одна десятая от всех публикаций российских ученых попадает в международные базы данных научного цитирования, такие как Web of Science или Scopus. Кроме того многие направления российской науки (например, общественно-гуманитарные, технические) там вообще практически не представлены.
В основе системы лежит библиографическая реферативная база данных, в которой индексируются статьи в российских научных журналах. В последние годы в РИНЦ стали включаться также и другие типы научных публикаций: доклады на конференциях, монографии, учебные пособия, патенты, диссертации. База содержит сведения о выходных данных, авторах публикаций, местах их работы, ключевых словах и предметных областях, а также аннотации и пристатейные списки литературы. Интеграция РИНЦ с Научной электронной библиотекой позволяет в большинстве случаев ознакомиться и с полным текстом оцениваемой публикации.
РИНЦ позволяет на основе объективных данных оценивать результативность исследовательской работы и детально исследовать статистику публикационной активности более 800 тысяч российских ученых и 12 тысяч научных организаций, относящихся ко всем отраслям знаний. Хронологический охват системы – с 2005 года по настоящий день, по многим источникам глубина архивов больше. Ежегодно в РИНЦ добавляется более полутора миллионов публикаций российских ученых.
Для всех российских журналов в РИНЦ рассчитывается как классический импакт-фактор, который широко используется во всем мире для оценки уровня научных журналов, так и более сложные библиометрические показатели, учитывающие целый ряд дополнительных факторов, влияющих на величину импакт-фактора, и позволяющие скорректировать это влияние. В частности, учитывается тематическое направление исследований, объем, состав и хронологическое распределение журналов в базе данных, самоцитирование и цитирование соавторами, возраст публикации, число соавторов, авторитетность ссылок (кто процитировал) и т.д. Аналогичные показатели рассчитываются и для научных организаций и отдельных ученых. Кроме того, списки публикаций и цитирований каждого автора, организации или журнала могут быть проанализированы путем построения распределений по тематике, году, журналу, в котором была опубликована работа, соавторам, организациям, в которых выполнялись работы, типу публикаций и т.д.
РИНЦ имеет соглашения с компаниями Clarivate Analytics и Elsevier, позволяющие делать запросы непосредственно в базы данных Web of Science и Scopus и получать оттуда текущие значения показателей цитирования публикаций. Таким образом, в интерфейсе РИНЦ можно увидеть одновременно число цитирований публикации в РИНЦ, Web of Science и Scopus. Эта бесплатная возможность доступна для всех зарегистрированных в РИНЦ авторов.
В 2010 году достигнута договоренность с крупнейшим международным издателем научной литературы компанией Elsevier об импорте сведений о публикациях российских авторов и ссылающихся на них работах из международного индекса цитирования Scopus с целью их совместного анализа при оценке публикационной активности и цитируемости российских ученых и научных организаций. Это позволило учесть не только публикации в российских журналах, индексируемых в РИНЦ, но и публикации российских ученых в зарубежных журналах.
С 2011 года авторы научных публикаций получили возможность зарегистрироваться и самостоятельно проверять и уточнять списки своих публикаций и цитирований в РИНЦ, на основании которых проводятся наукометрические расчеты. С момента открытия регистрации уже более 430 тысяч авторов воспользовались этой возможностью, что составляет примерно 90% от общего количества публикующихся в настоящее время российских ученых. Каждый зарегистрированный ученый получает уникальный идентификатор (SPIN-код), позволяющий в дальнейшем однозначно идентифицировать его как автора научных публикаций.
На базе РИНЦ разработана информационно-аналитическая система SCIENCE INDEX. Эта система в первую очередь рассчитана на научные организации, которые получают целый набор инструментов для управления списком своих публикаций и его анализа, в том числе возможность добавления публикаций, отсутствующих в РИНЦ, причем не только статей в научных журналах, но и других видов научных публикаций. С момента запуска этой системы в конце 2012 года к этому сервису подключились уже более 1000 российских научных организаций.
В 2015 году Научная электронная библиотека eLIBRARY.RU заключила договор с компанией Thomson Reuters (Сейчас Clarivate Analytics) о размещении 1000 лучших российских научных журналов из РИНЦ на платформе Web of Science в виде отдельной базы данных Russian Science Citation Index. Этот проект позволит значительно улучшить видимость и цитируемость российских журналов в международном информационном пространстве и будет способствовать повышению их качества за счет приведения их к международным стандартам. Журналы, отобранные в эту базу данных в результате тщательной экспертизы, составили также основу для выделения в РИНЦ ядра лучших публикаций российских ученых.
Благодаря всем этим шагам РИНЦ на данный момент времени уже достаточно полно и объективно отражает публикационную активность большинства российских авторов и научных организаций. Немаловажным является также и то, что РИНЦ является некоммерческим проектом и находится в открытом доступе, что позволяет всем российским ученым без ограничений использовать этот мощный аналитический инструмент.
Автор: Ирина Усик
Источник: https://scientificrussia.ru/, https://www.elibrary.ru/