МОСКВА, 18 сен — РИА Новости. Пользователи "Яндекса" чаще всего ошибаются в словах "комментарий", "девчонка" и "жесткий", сообщает издание Digit.ru, исходя из статистики поисковика за август 2013 года.
Различные ошибки при написании этих слов, согласно данным "Яндекса", пользователи совершали примерно в каждом четвёртом случае. Из них "комментарий" оказалось самым сложным, его в 27% запросов писали с одной буквой м.
Для определения ошибок в поиске "Яндекса", по данным компании, используются данные о частоте и сочетаемости слов в запросах, история исправлений и уточнений запросов, которые делают сами пользователи, а также статистика употребления слов на крупных сайтах, таких как Википедия. Основная задача исправления ошибок — восстановить правильное написание запроса, чтобы поиск находил именно то, что нужно пользователю, несмотря на ошибки при вводе. Ошибки или опечатки поиск определяет примерно в каждом десятом запросе.
Иногда правила автоматического исправления могут противоречить словарным нормам. Например, "Таиланд" в 85 случаях из 100 пишут в поиске через "й", и с недавних пор поиск Яндекса перестал исправлять эту ошибку — по запросу "Тайланд" он ищет оба варианта написания.
Для относительно новых слов часто существует несколько вариантов написания — одно и то же слово в разных словарях может писаться по-разному. Поиск "Яндекса", руководствуясь статистикой запросов, автоматически определяет вариант, которого придерживается больше всего пользователей, и предлагает исправления для менее распространенных вариантов. Например, по статистике за август, слова "хэллоуин", "фэнтези" и "шоппинг" написали в таком виде в двух третях случаев. Остальные запросы были набраны в других вариантах. Слова "спиннинг" и "хэтчбек" вызвали у пользователей меньше затруднений, их набрали в других вариантах или с ошибками в 20% запросов.
Как ранее сообщало РИА Новости, лидером по количеству ошибок в августе стало слово "одноклассники". Но число ошибок и опечаток связано, прежде всего, с популярностью запроса: более 70 миллионов за месяц. При этом разные ошибки и опечатки допускались менее чем в 3% случаев.