Новости
Магистрант Факультета информационных технологий (ФИТ) НГУ Даниил Лютаев под научным руководством Владимира Борисовича Барахнина, доктора технических наук, профессора кафедры системы информатики ФИТ НГУ, разработал алгоритм, который позволяет автоматизировать процесс межъязыкового переноса разметки именованных сущностей (названий, имен, дат и так далее) с использованием больших языковых моделей. Данный метод найдет применение во многих областях — создании национальных поисковых систем, классификации документов, построении сетей связей, переводе и других сферах.
Распознавание именованных сущностей (то есть слов и словосочетаний, которые обозначают уникальные или единичные объекты, такие как люди, организации, локации, даты и другое) является ключевой задачей обработки естественного языка, решение которой зависит от наличия качественно размеченных корпусов текста. Создание таких корпусов для новых языков, особенно для тех, у которых недостаточно цифровых данных для обработки и анализа, ресурсоемко, что актуализирует задачу автоматического межъязыкового переноса существующей разметки. Даниил Лютаев в своей работе исследует эффективность подхода на основе больших языковых моделей (Large Language Model, LLM), чтобы автоматизировать процесс переноса разметки с узбекского языка на русский и английский.
Разработанный подход может внести свой вклад в достижение информационного суверенитета и создание национальных поисковых систем. Помимо Google, который сейчас фактически охватил весь мир, свои полноценные национальные поисковики есть только в России (Яндекс) и в Китае (Baidu). Однако на земном шаре есть достаточно большое население, которое говорит на испанском, арабском, индийском, немецком языках. При этом суверенных поисковых систем в таких странах нет.