Новости

Ученые создали нейросеть для распознавания химических формул в научных статьях
Ученые создали нейросеть для распознавания химических формул в научных статьях
2 марта 2022

Исследователи из Университета «Сириус», МГУ и стартапа «Синтелли» из Сколтеха разработали нейронную сеть для автоматического распознавания химических формул на сканах научных статей. В ближайшее время нейросеть сможет «читать» и «понимать» статьи не хуже высококвалифицированного специалиста. Результаты совместного научного труда опубликованы в журнале Chemistry-Methods, выпускаемом издательством Европейского химического общества.

Кажется, что цифровизация проникла уже во все области нашей жизни, однако до сих пор не редкой является ситуация, когда химикам приходится искать оригиналы научных журналов или диссертаций, в которых можно получить информацию о малоизученных молекулах. До сих пор множество печатных источников остаются не оцифрованными, что сильно усложняет жизни исследователям.

При разработке нейросети ученые столкнулись с проблемой – не существует единого стандарта представления химических формул. В арсенале химиков есть целый набор приемов для сокращения записи известных химических групп. Это создает проблемы при попытке расшифровать химические формулы очередной научной статьи. Тем более сложной эта задача кажется для алгоритмов.

Однако в ходе работы нейросеть смогла удивить исследователей – ей удалось выучить практически все варианты написания тех или иных формул, если выбранный стиль отображения был представлен в обучающем наборе данных. Но такой подход требует десятки миллионов примеров для обучения, а вырезать все эти примеры из журналов просто невозможно. Тогда ученые разработали генератор данных, который будет создавать случайные молекулярные шаблоны, комбинируя различные фрагменты молекул и стили отрисовки.

Разработанный алгоритм комбинирует молекулы, функциональные группы, шрифты, стили и даже погрешности печати, фрагменты других молекул, фрагменты аннотаций и так далее. По словам разработчиков, даже экспертам будет сложно определить взяли ли молекулу из существующей статьи или ее рисунок был создан генератором.

Распознавание искусственным интеллектом молекулярных структур и их перевод в понятный компьютеру язык освободит ученых от затратных по времени задач и ускорит развитие химии, ведь формулы станут доступны широкому кругу специалистов.

1
Смотрите также:
04.12.2025
Исследователи Сириуса запатентовали технологию, ускоряющую разработку лекарств для терапии сахарного диабета и ожирения
03.12.2025
«Очеловеченные» мыши и медицина будущего: в Сириусе обсудили прорывные методы тестирования лекарств
02.12.2025
Студенческие команды в Сириусе предложили свои ответы на глобальные вызовы
01.12.2025 17:00:00
Колледж Университета «Сириус» вошёл в ТОП-20 лучших организаций среднего профессионального образования в России
01.12.2025 10:00:00
В Сириусе завершилась школа-конференция для учёных-океанологов
28.11.2025 20:00:00
Исследователь из Университета «Сириус» — на встрече Президента России с молодыми учёными
Обратная связь

Нажимая на кнопку «СОГЛАСЕН», Вы подтверждаете, что проинформированы об использовании на нашем сайте файлов cookie, а также ознакомлены с нашей Политикой конфиденциальности.

Согласен