Ученые обучили нейросеть определять пол человека по написанному тексту

© Fotolia / Mopic Искусственный интеллект. Иллюстрация дизайнера MopicИскусственный интеллект. Иллюстрация дизайнера Mopic
Подпишись на ежедневную рассылку РИА Наука

Спасибо за подписку

Пожалуйста, проверьте свой e-mail для подтверждения подписки

МОСКВА, 24 апр – РИА Новости. Коллектив ученых Национального исследовательского ядерного университета "МИФИ", Национального исследовательского центра "Курчатовский Институт" и Воронежского государственного университета  разработали метод, обучающий компьютер распознавать пол человека по написанному им тексту с точностью до 80 процентов. Научная разработка относится к области компьютерной лингвистики. Исследование проводилось по гранту Российского Научного Фонда. Результаты  опубликованы в журнале Procedia Computer Science

Искусственный интеллект. Архивное фото
Российские ученые заставили нейросеть сомневаться по-человечески
Многочисленные научные исследования показывают, что в письменном тексте неизбежно отражаются характеристики его автора – пол, психологические особенности, уровень образования. Речь является ценным психодиагностическим инструментом, который используют специалисты кадровых служб крупных компаний, а также служб безопасности.

На основе анализа речи можно диагностировать наличие у человека некоторых заболеваний (деменции, депрессии) и склонность к суицидальному поведению. Потребность в установлении характеристик автора текста также растет с развитием интернет-коммуникаций: компаниям важно знать, каким группам лиц нравятся их товары и услуги.

Ученые, работающие в данном направлении (лингвисты, психологи, специалисты по информационным технологиям), на основе численных значений различных параметров текста строят математические модели для диагностирования тех или иных параметров личности.

Коллектив специалистов проанализировал эффективность различных технологий машинного обучения с использованием нейронных сетей для анализа текстов.

Так художник представил себе работу искусственного интеллекта на базе нейронной сети
Искусственный разум: чего ждать людям от умного железа
В ходе исследования они сравнили точность решения задачи гендерной идентификации текстов на основе двух подходов к моделированию на основе данных: с одной стороны, алгоритмы машинного обучения (метод опорных векторов и градиентный бустинг), с другой стороны – нейронные сети глубокого обучения (сверточные нейронные сети и рекуррентные нейронные сети с долгой краткосрочной памятью).

"Мы достигли высоких результатов в определении пола автора текста благодаря продвинутым нейросетевым моделям, в условиях, когда  автор не скрывает свой пол. На очереди задача определения пола в условиях его намеренного сокрытия", – говорит доцент НИЯУ МИФИ Александр Сбоев.

Так, в следующих текстах, размещенных изначально на сайте знакомств, нейросеть без труда находит подвох в десяти случаях из десяти, притом, что автор намеренно ставит в подписи имя противоположного пола.

Текст написан девушкой: "Я красивый, накачанный мужчина 30 лет. Работаю в крупной нефтегазовой компании на хорошей должности с приличной зарплатой. Живу в собственной квартире в Москве. В собственности также находится небольшой, но симпатичный домик в одной из деревушек Италии. Увлекаюсь спортом, в частности, футболом. Люблю выбираться куда-нибудь на выходные, не терплю домоседок. Девушка, которая мне бы подошла, должна обладать скромным нравом, красивой внешностью и привлекательной фигурой по современным стандартам. Она должна разделять мои интересы, не должна быть ревнивой и не должна пытаться вызвать чувство ревности у меня. Содержать девушку я не собираюсь, так как считаю, что в семье должны работать оба. Бюджет также предпочитаю вести раздельно. Не потерплю измены".

Робот Waybot
Машина или искусственный человек: ростовский вуз создал "умного" робота
Текст написан мужчиной: "Здравствуйте! Я крайне недовольна, крайне! Почему вы так себя с нами ведете?! Мы же тоже люди, мы все равны! Вы сексист? Я больше не буду это терпеть! Я твою машину вообще всю разобью, разрисую. Жди, нелюдь. Финишу таким быть".

Результаты этого исследования показали, что подход, основанный на использовании сверточной нейронной сети и методов глубокого обучения для распознавания пола человека, написавшего текст, является наиболее оптимальным.

Сейчас группа исследователей работает над задачей распознавания возраста.

РИА Наука
Комментарии
2 пользователя оставили 2 комментария
Наверх
Авторизация
He правильное имя пользователя или пароль
Войти через социальные сети
Регистрация
E-mail
Пароль
Подтверждение пароля
Введите код с картинки
He правильное имя пользователя или пароль
* Все поля обязательны к заполнению
Восстановление пароля
E-mail
Инструкции для восстановления пароля высланы на
Смена региона
Идет загрузка...
Произошла ошибка... Повторить
правила комментирования материалов

Регистрация пользователя в сервисе РИА Клуб на сайте Ria.Ru и авторизация на других сайтах медиагруппы МИА «Россия сегодня» при помощи аккаунта или аккаунтов пользователя в социальных сетях обозначает согласие с данными правилами.

Пользователь обязуется своими действиями не нарушать действующее законодательство Российской Федерации.

Пользователь обязуется высказываться уважительно по отношению к другим участникам дискуссии, читателям и лицам, фигурирующим в материалах.

Публикуются комментарии только на тех языках, на которых представлено основное содержание материала, под которым пользователь размещает комментарий.

На сайтах медиагруппы МИА «Россия сегодня» может осуществляться редактирование комментариев, в том числе и предварительное. Это означает, что модератор проверяет соответствие комментариев данным правилам после того, как комментарий был опубликован автором и стал доступен другим пользователям, а также до того, как комментарий стал доступен другим пользователям.

Комментарий пользователя будет удален, если он:

  • не соответствует тематике страницы;
  • пропагандирует ненависть, дискриминацию по расовому, этническому, половому, религиозному, социальному признакам, ущемляет права меньшинств;
  • нарушает права несовершеннолетних, причиняет им вред в любой форме;
  • содержит идеи экстремистского и террористического характера, призывает к насильственному изменению конституционного строя Российской Федерации;
  • содержит оскорбления, угрозы в адрес других пользователей, конкретных лиц или организаций, порочит честь и достоинство или подрывает их деловую репутацию;
  • содержит оскорбления или сообщения, выражающие неуважение в адрес МИА «Россия сегодня» или сотрудников агентства;
  • нарушает неприкосновенность частной жизни, распространяет персональные данные третьих лиц без их согласия, раскрывает тайну переписки;
  • содержит ссылки на сцены насилия, жестокого обращения с животными;
  • содержит информацию о способах суицида, подстрекает к самоубийству;
  • преследует коммерческие цели, содержит ненадлежащую рекламу, незаконную политическую рекламу или ссылки на другие сетевые ресурсы, содержащие такую информацию;
  • имеет непристойное содержание, содержит нецензурную лексику и её производные, а также намёки на употребление лексических единиц, подпадающих под это определение;
  • содержит спам, рекламирует распространение спама, сервисы массовой рассылки сообщений и ресурсы для заработка в интернете;
  • рекламирует употребление наркотических/психотропных препаратов, содержит информацию об их изготовлении и употреблении;
  • содержит ссылки на вирусы и вредоносное программное обеспечение;
  • является частью акции, при которой поступает большое количество комментариев с идентичным или схожим содержанием («флешмоб»);
  • автор злоупотребляет написанием большого количества малосодержательных сообщений, или смысл текста трудно либо невозможно уловить («флуд»);
  • автор нарушает сетевой этикет, проявляя формы агрессивного, издевательского и оскорбительного поведения («троллинг»);
  • автор проявляет неуважение к русскому языку, текст написан по-русски с использованием латиницы, целиком или преимущественно набран заглавными буквами или не разбит на предложения.

Пожалуйста, пишите грамотно — комментарии, в которых проявляется пренебрежение правилами и нормами русского языка, могут блокироваться вне зависимости от содержания.

Администрация имеет право без предупреждения заблокировать пользователю доступ к странице в случае систематического нарушения или однократного грубого нарушения участником правил комментирования.

Пользователь может инициировать восстановление своего доступа, написав письмо на адрес электронной почты moderator@rian.ru

В письме должны быть указаны:

  • Тема – восстановление доступа
  • Логин пользователя
  • Объяснения причин действий, которые были нарушением вышеперечисленных правил и повлекли за собой блокировку.

Если модераторы сочтут возможным восстановление доступа, то это будет сделано.

В случае повторного нарушения правил и повторной блокировки доступ пользователю не может быть восстановлен, блокировка в таком случае является полной.

Чтобы связаться с командой модераторов, используйте адрес электронной почты moderator@rian.ru или воспользуйтесь формой обратной связи.

Заявка на размещение пресс-релиза
Компания
Контактное лицо
Контактный телефон или E-mail
Комментарий
Введите код с картинки
Все поля обязательны к заполнению. Услуга предоставляется на коммерческой основе.
Заявка успешно отправлена