Рейтинг@Mail.ru
Ученые обучили ИИ сложным правилам русского языка - РИА Новости, 26.11.2025
Регистрация пройдена успешно!
Пожалуйста, перейдите по ссылке из письма, отправленного на
Ученые обучили ИИ сложным правилам русского языка

Ученые МГУ и "Яндекса" нашли способ обучить ИИ сложным правилам русского языка

CC0 / / Работа за компьютером
Работа за компьютером - РИА Новости, 1920, 26.11.2025
Работа за компьютером. Архивное фото
Читать ria.ru в
ДзенMaxTelegram
МОСКВА, 26 ноя - РИА Новости. Исследователи МГУ и "Яндекса" нашли способ обучить искусственный интеллект сложным правилам русского языка, для этого они создали набор данных с примерами реальных ошибок, характерных даже для носителей языка - это, например, пунктуация в сложноподчиненных предложениях, слитное и раздельное написание, редкие синтаксические конструкции, рассказали РИА Новости в компании.
"Стандартное обучение, когда модели показывают несколько случайных пар "ошибка - исправление", плохо справляется со сложными правилами русского языка. Для системного решения этой проблемы исследователи Института ИИ МГУ и "Яндекса" создали первый открытый датасет LORuGEC с примерами сложных ошибок русского языка... LORuGEC включает примеры реальных ошибок, трудных даже для носителей языка: пунктуация в сложноподчиненных предложениях, слитное и раздельное написание, редкие синтаксические конструкции", - сказали в компании.
Институт русского языка имени А. С. Пушкина - РИА Новости, 1920, 01.11.2025
Институт Пушкина назвал самое длинное слово в русском языке
Созданный датасет охватывает 48 правил русского языка, в том числе те, которые проверяются на Едином государственном экзамене и олимпиадах. Также там есть почти 1000 предложений, каждое из которых связано с конкретной нормой языка.
Ученые придумали новый метод, который позволяет исправлять сложные ошибки без сложного переобучения на созданном датасете - он основан на поиске релевантных примеров в датасете. Так, вспомогательным поисковиком выступает еще одна ИИ-модель Gector: она находит в датасете предложения с тем же типом ошибок и подсказывает их большой языковой модели. Например, если пропущена запятая перед "что", то модель получает пример именно с таким же нарушением, а не любую пунктуационную ошибку.
"Мы использовали справочную литературу, а также привлекли студентов-лингвистов в качестве экспертов и составили датасет из 1000 примеров, в которых не только исправлены ошибки, но и указаны соответствующие правила русского языка. Следующей задачей было научить модели исправлять эти ошибки без долгого переобучения... Этот проект - пример успешной коллаборации между наукой и технологическими компаниями", - прокомментировал на полях Конгресса молодых ученых старший научный сотрудник Института ИИ МГУ, разработчик в отделе "Поиска Яндекса" Алексей Сорокин.
Исследователи протестировали новый метод на собственных моделях "Яндекса", а также на зарубежной Qwen2.5. Точность ответов YandexGPT 5 Pro достигла 83%, YandexGPT 5 Lite - поднялась до 71% с 66%, а Qwen2.5-7B - до 56% с 42%.
Логотип Google - РИА Новости, 1920, 10.10.2025
ИИ-модели от Google обогнали ChatGPT-5 по качеству работы с русским языком
 
 
 
Лента новостей
0
Сначала новыеСначала старые
loader
Онлайн
Заголовок открываемого материала
Чтобы участвовать в дискуссии,
авторизуйтесь или зарегистрируйтесь
loader
Обсуждения
Заголовок открываемого материала