ПРОЕКТ СНО ИИЯМС ПРЕДСТАВЛЕН НА ХIV МЕЖДУНАРОДНОЙ КОНФЕРЕНЦИИ «TURKLANG 2026» В АСТАНЕ

ПРОЕКТ СНО ИИЯМС ПРЕДСТАВЛЕН НА ХIV МЕЖДУНАРОДНОЙ КОНФЕРЕНЦИИ «TURKLANG 2026» В АСТАНЕ

Астана – Томск. 13 мая 2026 года на базе Евразийского национального университета имени Л.Н. Гумилёва (г. Астана, Казахстан) состоялась ХIV Международная конференция по компьютерной обработке тюркских языков «TurkLang 2026». В работе форума приняли участие ведущие специалисты в области компьютерной лингвистики, разработчики систем машинного перевода и морфологических анализаторов.

ТГПУ, подведомственный Министерству просвещения Российской Федерации, на конференции представила заместитель директора Института иностранных языков и международного сотрудничества Валерия Михайловна Лемская и приглашённый эксперт из Омского государственного технического университета Иван Павлович Убалехт. Их совместный доклад стал логическим продолжением серии междисциплинарных исследований, инициированных Студенческим научным обществом (СНО) ИИЯМС.

От круглого стола — к международному взаимодействию
Напомним, что 9 февраля 2026 года в ИИЯМС состоялся Международный круглый стол, приуроченный ко Дню российской науки, — «Компьютерная лингвистика: программы лингвистической разметки (на примере разноструктурных языков)». Именно тогда студенческий проект по использованию парсеров (морфологических процессоров) тувинского языка, выполненный под руководством В. М. Лемской, получил высокую оценку коллег. Участник круглого стола, И. П. Убалехт, предложил расширить исследование и опробовать различные инструменты автоматической разметки. Полученные результаты и выявленные системные проблемы легли в основу заявки на авторитетную конференцию «TurkLang 2026», которая была принята программным комитетом.



Когда технологии требуют «ручного управления»
В центре внимания докладчиков оказались три популярных морфологических процессора для тувинского языка (относящегося к тюркской группе и насчитывающего около 250–300 тысяч носителей): инструменты в рамках проектов UralicNLP, Apertium и платформа Lingvodoc. Все они основаны на технологии конечных трансдьюсеров (finite-state transducers), однако, как показало исследование на материале тувинских фразеологических единиц, реальное использование этих инструментов лингвистами сталкивается с серьезными барьерами.

К ним относятся, во-первых, наличие навыков программирования у исследователей (большинство анализаторов требуют установки сред разработки, например, Python, работу с командной строкой и сборки из исходных кодов), отсутствие автоматического снятия морфологической омонимии (системы нередко выдают все возможные варианты разбора слова, заставляя исследователя вручную выбирать нужный, что многократно замедляет анализ корпусов), отсутствие готового к использованию настроенного анализатора (некоторые инструменты требуют сложной компиляции), неудобный вывод результатов (форматы представления данных не адаптированы для визуального анализа лингвистического материала).

Доклад томских и омских исследователей вызвал оживлённую дискуссию. Участники конференции сошлись во мнении, что создание «дружелюбного» интерфейса и внедрение механизмов автоматического снятия неоднозначности — необходимое условие для эффективного использования морфологических процессоров в полевой лингвистике и при наращивании национальных корпусов.
«Мы не просто критически оцениваем существующие решения, — отметила Валерия Лемская. — Наша задача — наладить взаимодействие между разработчиками и лингвистами-пользователями. Дальнейшие исследования будут направлены на эксперименты с нейросетевыми моделями, которые совмещают анализ и снятие омонимии».

В планах научной группы — продолжение работы над корпусами и адаптация существующих алгоритмов под реальные нужды исследователей, работающих с языками народов России.