МОСКВА, 25 июн – РИА Новости. Российские математики и лингвисты создали систему машинного обучения, которая очень точно оценивает уровень удобочитаемости текстов. Это позволит создать более понятные, интересные и удобные учебники для школьников и студентов, пишут ученые в Journal of Intelligent & Fuzzy Systems.
«
"Мы впервые предложили математически обоснованный и экспериментально проверенный метод оценки сложности текстов на русском языке. Он поможет повысить качество образования и уровень обучения в России и ускорит ее продвижение в международных рейтингах", – отмечает Валерий Соловьев, профессор Казанского федерального университета.
В последние годы, благодаря развитию математики и росту вычислительных мощностей компьютеров, у ученых появилась возможность "собирать" сложные нейросети, системы искусственного интеллекта, способные исполнять нетривиальные задачи и даже "мыслить" креативно, создавая новые образцы искусства и технологий.
К примеру, только за последние два года ученые создали ИИ, способные обыграть человека в "непросчитываемую" древнекитайскую игру Го и шутер Quake III Arena, отыскивать важнейшие события в истории по газетам, писать сценарии к компьютерным играм и раскрашивать фотографии и видеоролики под Ван Гога, и рисовать свои собственные картины.
Помимо картин и игр, нейросети начали осваивать и музыкальное искусство. К примеру, несколько лет назад программисты "Яндекса" создали нейросети, записавшие музыкальные альбомы в стиле "Нирваны" и "Гражданской обороны", а в начале этого года они создали новую систему ИИ, способную писать симфонические произведения.
Соловьев и его коллеги еще больше расширили возможности искусственного разума, создав систему машинного обучения, способную оценивать удобочитаемость и сложность текста для определенной категории публики не хуже, чем это делает человек.
Как отмечает пресс-служба Российского научного фонда, поддерживавшего работу казанских ученых, сегодня для этих целей используются два подхода, так называемые индексы Флеша и Флеша-Кинкейда. Изначально они были созданы для работы с материалами на английском языке, однако впоследствии их адаптировали под русский и прочие наречия народов мира.
Российские ученые и их коллеги из Мексики решили создать свою версию подобных индексов, которая учитывала бы не два параметра, такие как число слов в предложениях и слогов в словах, а большее число различных особенностей текста.
К примеру, в их число вошло то, как много глаголов содержит текст, доля слов в именительном и родительном падеже, пропорции различных частей речи и многие другие факторы, которые так или иначе влияют на удобочитаемость.
Для подобных экспериментов ученые выбрали учебники по обществознанию и социологии, так как они почти не содержат в себе схем, формул, карт и других нетекстовых форм подачи информации, и активно используются школьниками сегодня при подготовке к ЕГЭ. Уровень их удобочитаемости, соответственно, будет напрямую влиять на качество сдачи экзаменов и то, какие знания смогут усвоить их читатели.
Удалив из этих текстов цитаты из конституции и прочие сложные фразы, не имеющие отношения к творчеству авторов этих учебников, ученые использовали эти пособия в качестве материала для тренировки их системы машинного обучения. Это позволило Соловьеву и его коллегам подготовить ИИ, способный очень точно оценивать удобочитаемость текста.
Данная система, как отмечают исследователи, позволит не только подготовить более понятные и доступные учебники для школьников, но и создать качественные пособия для иностранцев, желающих выучить русский язык. Для них уровень удобочитаемости особенно критичен, так как они знают далеко не все слова, речевые обороты и синтаксические конструкции.