Рейтинг@Mail.ru
Самообучающийся интеллект AlphaZero научился играть в Quake III Arena - РИА Новости, 03.06.2019
Регистрация пройдена успешно!
Пожалуйста, перейдите по ссылке из письма, отправленного на
Супертег Наука 2021январь
Наука

Самообучающийся интеллект AlphaZero научился играть в Quake III Arena

© DeepMindТак художник представил себе ботов AlphaZero, играющих в CTF-режим игры Quake III Arena
Так художник представил себе ботов AlphaZero, играющих в CTF-режим игры Quake III Arena
Читать ria.ru в
Дзен
МОСКВА, 3 июн – РИА Новости. Компания DeepMind заявила о том, что созданный ей самообучающийся искусственный интеллект AlphaZero научился играть в сетевой шутер Quake III Arena не хуже, чем это делают самые успешные геймеры. Результаты их экспериментов были опубликованы в журнале Science.
"Мы показали, что машина может самостоятельно начать очень хорошо играть в полноценные трехмерные игры, используя для обучения лишь те пиксели, которые выводятся на экран монитора. Наша работа открывает дорогу для действительно "человеческого" уровня производительности в тех задачах, которые раньше считались недоступными для ИИ", — заявил Дэвид Сильвер (David Silver), главный разработчик стартапа DeepMind.

Сияние чистого разума

Система ИИ AlphaGo была разработана Дэвидом Сильвером и его коллегами в конце 2014 года. Сначала ее работа была "протестирована" на чемпионе Европы Фане Хое (Fan Hui), который проиграл все пять матчей машине. Вскоре после этого она обыграла Ли Седола, чемпиона мира по го из Южной Кореи, уступив ему лишь один матч.
Искусственный интеллект
Математики усомнились во всемогуществе искусственного интеллекта
Сильвер и его коллеги смогли достичь этих успехов, построив свой ИИ на базе не одной, а сразу двух нейронных сетей – особых алгоритмов, имитирующих работу цепочек нейронов в мозге человека. Одна из них отвечает за оценку текущей позиции на доске, а вторая использует результаты анализа, подготовленные первой сетью, для того чтобы выбирать следующий шаг.
Позже ученые перестроили его работу таким образом, что их искусственный разум научился самостоятельно учиться играть в го, без помощи и участия человека, зная лишь общие правила игры и небольшой набор примитивных стратегий.
Первая версия этой системы, AlphaGo Zero, очень быстро достигла и превзошла своего "прародителя", а ее потомок, AlphaZero, научился играть и в другие настольные игры, в том числе обычные и японские шахматы. Она успешно освоила эти игры и достигла гроссмейстерского уровня еще быстрее, чем ее предшественники.
Добившись подобного успеха, Сильвер и его коллеги не стали скрывать амбиции и сразу же заявили, что следующей "жертвой" их системы станет одна из популярных онлайн-игр, подобных Dota 2, Starcraft 2 или другие двумерные MOBA-игры или стратегии.

Идеальный бот

Вместо этого ученые усложнили себе задачу и попытались заставить AlphaZero научиться играть в полноценную трехмерную игру, знаменитую Quake III Arena. Эта игра, выпущенная компанией id Software в декабре 1999 года, давно стала образцом для подражания и своеобразным эталоном среди сетевых шутеров, наследие которой можно найти в любой современном проекте такого рода.
В рамках этого эксперимента AlphaZero училась играть не в обычный дезматч, игру на выживание, а в кооперативный режим CTF. В его рамках игроки объединяются в две команды, каждая из которых пытается проникнуть на базу противника, выкрасть его знамя и доставить его на свою территорию, обороняя ее от аналогичных атак.
Решение подобных задач, как отмечает Сильвер, особенно сложно дается системам машинного обучения, особенно если они находятся в тех же условиях, что и игроки-люди, и у них нет "читов" – возможности напрямую "общаться" с другими ботами, иметь встроенную карту местности или способность видеть через стену.
Как показали первые же эксперименты, даже AlphaZero не могла в принципе научиться действовать лучше, чем игроки-новички в подобных условиях. Это заставило ученых внести некоторые изменения в ее работу, позволившие ей в очередной раз достигнуть "гроссмейстерских" показателей.
Для этого специалисты DeepMind встроили в AlphaZero своеобразную систему целеполагания – каждое действие в игре, приближающее команду к победе или улучшающее ее диспозиции, оценивалось в определенное число очков, которые начислялись каждому боту. Эти оценки не были заданы "свыше", а тоже вырабатывались самой системой, используя нейросеть с системой обратных связей и "внешней" памятью.
Искусственный интеллект: сможет ли он когда-нибудь заменить Творца?
Унутре нейронка: "Яндекс" превратил искусственный разум в реставратора
Весь искусственный интеллект, в свою очередь, был запрограммирован на то, чтобы получать максимальное число этих баллов. Подобный подход, который ученые назвали популярным геймерским акронимом FTW, сделал систему самообучения более гибкой, "научил" машину более стратегически воспринимать игровое поле и синхронизировать свои действия с другими игроками, не общаясь с ними.

Игра на победу

Эти изменения привели к потрясающим результатам – всего за десять тысяч игр AlphaZero достигла уровня компьютерных ботов, чье поведение было запрограммировано создателями игры, и примерно через 45 тысяч попыток она достигла уровня игроков-новичков. Через 200 тысяч игр она начала побеждать геймеров-профессионалов и стала неотличимой в стиле игры и поведении от людей.
Что интересно, одним из следствием появления системы FTW стало то, что машина начала планировать свои действия вперед и самостоятельно выработала несколько стратегий и тактик, которыми часто пользуются реальные игроки.
К примеру, AlphaZero достаточно быстро научился так называемому "флаг-кемпингу" – когда бот достигал комнаты с чужим флагом, где его сейчас не было, он не убегал, а ждал, пока он возвратится на место, если его команда его потеряла. Аналогичным образом, "опытный" ИИ больше уделял внимания обороне базы, чем другим действиям.
Окончательную проверку AlphaZero прошла в рамках небольшого чемпионата по Quake III, в котором участвовали различные версии этой системы ИИ, другие боты, а также несколько десятков реальных опытных игроков. Игры проходили как на уже знакомых картах, так и на новых площадках, случайно сгенерированных для этого турнира.
Несмотря на то, что ученые искусственно замедлили скорость реакции AlphaZero и уменьшили точность прицеливания, игроки всех уровней не могли победить машину, если их команда состояла только из случайно подобранных людей или комбинации геймеров и простых ботов. Они достигали победы только в том случае, если в команде был хотя бы один искусственный интеллект, и даже в этом случае вероятность их победы составляла всего 5%.
Так художник представил себе процесс мышления AlphaZero
Ученые создали самообучающийся ИИ, способный играть во все игры
Если игроки могли общаться друг с другом и координировать свои действия, они начинали побеждать чаще, но делали это только после очень длительных тренировок и при очень высоком уровне игры. В лучшем случае они выигрывали всего один из четырех матчей.
Эти же принципы и подходы, как отмечает Сильвер, можно применять и для работы с другими компьютерными играми, а также для решения различных сложных задач и в реальном мире, часто не имеющих четкой формулировки или очень сложных по своей сущности.
 
 
 
Лента новостей
0
Сначала новыеСначала старые
loader
Онлайн
Заголовок открываемого материала
Чтобы участвовать в дискуссии,
авторизуйтесь или зарегистрируйтесь
loader
Обсуждения
Заголовок открываемого материала