https://ria.ru/20181206/1547553218.html
Ученые создали самообучающийся ИИ, способный играть во все игры
Ученые создали самообучающийся ИИ, способный играть во все игры - РИА Новости, 06.12.2018
Ученые создали самообучающийся ИИ, способный играть во все игры
Разработчики революционной самообучающейся системы искусственного разума AlphaGo Zero объявили о создании новой версии этой машины, способной самостоятельно... РИА Новости, 06.12.2018
2018-12-06T22:00
2018-12-06T22:00
2018-12-06T22:00
наука
интеллект
https://cdnn21.img.ria.ru/images/154755/18/1547551835_0:719:2048:1871_1920x0_80_0_0_d18f0b8ed4e2c2eaa80f08d76af7e41c.jpg
МОСКВА, 6 дек – РИА Новости. Разработчики революционной самообучающейся системы искусственного разума AlphaGo Zero объявили о создании новой версии этой машины, способной самостоятельно учиться играть в любую настольную игру и обыгрывать человека. Ее описание было представлено в журнале Science."Люди учились играть в шахматы, го, сёги и многие другие игры сотни и тысячи лет. AlphaZero самостоятельно достигла вершин мастерства во всех этих играх без какой-либо помощи с нашей стороны. Моя мечта — создать такую же систему, которая бы не просто умела играть, но и решать повседневные задачи, к примеру, создавала бы новые лекарства", — заявил Дэвид Сильвер (David Silver), главный разработчик компании DeepMind.Глубины разумаСистема ИИ AlphaGo была разработана Дэвидом Сильвером и его коллегами в конце 2014 года, и ее работа была "протестирована" на чемпионе Европы Фане Хое (Fan Hui), который проиграл все пять матчей машине. В марте 2016 года AlphaGo победил чемпиона мира по го, Ли Седола, в серии из пяти матчей, только один из которых завершился победой человека. Сильвер и его коллеги смогли достичь этих успехов, построив свой ИИ на базе не одной, а сразу двух нейронных сетей – особых алгоритмов, имитирующих работу цепочек нейронов в мозге человека. Одна из них отвечает за оценку текущей позиции на доске, а вторая использует результаты анализа, подготовленные первой сетью, для того чтобы выбирать следующий шаг.Следующим логическим шагом в развитии AlphaGo стала ликвидация главного недостатка всех существующих сегодня нейросетей и систем искусственного интеллекта – необходимости обучать их тому, что они должны делать, используя огромные архивы данных, вручную обработанные человеком, или при непосредственном участии человека, как это происходило на первых этапах развития AlphaGo.Сильвер и его команда решили эту задачу, создав принципиально новую нейронную сеть, которая базируется на так называемых алгоритмах обучения с подкреплением. Эта нейросеть, в отличие от ее звездного предшественника, который изначально обучался в играх с добровольцами и имел некоторые встроенные примитивные стратегии игры, начала свою работу с состояния абсолютного новичка с нулевым багажом знаний. Иными словами, ей были известны лишь правила игры в го, начальные условия и условия победы, и затем компьютер самостоятельно учился играть в эту древнекитайскую стратегию, играя сам с собой и действуя методом проб и ошибок. Единственным ограничением в ее работе было максимальное время на обдумывание хода – оно составляло примерно 0,4 секунды.После каждой подобной игры, система ИИ анализировала все свои ходы и запоминала те, которые приближали одну из ее "половинок" ее к победе, и заносила в своеобразный "черный список" те шаги, которые были откровенно проигрышными. Используя эти данные, нейросеть перестраивала себя, постепенно достигнув того уровня, на который вышла первая версия AlphaGo перед серией игр с Ли Седолом.Переход на алгоритмы самообучения не только позволил AlphaGo Zero превзойти уровень своей предшественницы и обыграть ее со счетом 100-0, но и улучшил многие другие аспекты ее работы. В частности, процесс ее обучения занял всего три дня и примерно пять миллионов игр, что было на порядок меньше запросов первой версии ИИ.Путь к совершенствуУспешное завершение экспериментов с AlphaGo Zero заставило Сильвера и его команду задуматься о том, можно ли применить аналогичную нейросеть для завоевания короны чемпиона в других типах стратегических и настольных игр.Для этого ученые встроили в AlphaGo Zero еще один новый элемент – эвристические алгоритмы случайного поиска решений, а также код, учитывавший существование ничьи в некоторых играх. Вдобавок, новая версия "альфы" непрерывно совершенствовала свою структуру, а не обновлялась этапами, как ее предшественница.Эти относительно простые изменения, как показали дальнейшие опыты, значительно повысили скорость самообучения этой системы искусственного разума и превратили ее в универсальную машину, способную играть во все виды настольных стратегий.Ее работу ученые проверили на трех типах игр – го, обычных шахматах и их японской разновидности, сёги. Во всех трех случаях новое детище Сильвера достигло уровня гроссмейстера меньше чем за миллион игр, достигнув почти человеческой избирательности при выборе возможных ходов всего за 9-12 часов тренировок для шахмат, и за 13 дней для го.Еще раньше она обыграла самые совершенные компьютерные программы, играющие в эти игры – алгоритм Stockfish "сдался" на четвертый час тренировки AlphaZero, а система Elmo, текущий чемпион в сёги, протянул всего два часа. И наконец, первая версия AlphaGo начала уступать ее "внуку" примерно на 30 часу его обучения.Следующими "жертвами" AlphaZero, как отметили ученые, могут стать "настоящие" компьютерные игры, такие как Starcraft II и Dota 2. Взятие чемпионства в подобных киберспортивных дисциплинах, по их мнению, откроет дорогу для проникновения самообучающихся ИИ в менее формализуемые области науки, культуры и техники.
https://ria.ru/20180602/1521875364.html
https://ria.ru/20170109/1485306412.html
РИА Новости
internet-group@rian.ru
7 495 645-6601
ФГУП МИА «Россия сегодня»
https://xn--c1acbl2abdlkab1og.xn--p1ai/awards/
2018
РИА Новости
internet-group@rian.ru
7 495 645-6601
ФГУП МИА «Россия сегодня»
https://xn--c1acbl2abdlkab1og.xn--p1ai/awards/
Новости
ru-RU
https://ria.ru/docs/about/copyright.html
https://xn--c1acbl2abdlkab1og.xn--p1ai/
РИА Новости
internet-group@rian.ru
7 495 645-6601
ФГУП МИА «Россия сегодня»
https://xn--c1acbl2abdlkab1og.xn--p1ai/awards/
https://cdnn21.img.ria.ru/images/154755/18/1547551835_0:527:2048:2063_1920x0_80_0_0_03f9ecb91deac04d62c6a669f57bdc77.jpgРИА Новости
internet-group@rian.ru
7 495 645-6601
ФГУП МИА «Россия сегодня»
https://xn--c1acbl2abdlkab1og.xn--p1ai/awards/
РИА Новости
internet-group@rian.ru
7 495 645-6601
ФГУП МИА «Россия сегодня»
https://xn--c1acbl2abdlkab1og.xn--p1ai/awards/
интеллект
МОСКВА, 6 дек – РИА Новости. Разработчики революционной самообучающейся системы искусственного разума AlphaGo Zero объявили о создании новой версии этой машины, способной самостоятельно учиться играть в любую настольную игру и обыгрывать человека. Ее описание было представлено в журнале
Science.
«
"Люди учились играть в шахматы, го, сёги и многие другие игры сотни и тысячи лет. AlphaZero самостоятельно достигла вершин мастерства во всех этих играх без какой-либо помощи с нашей стороны. Моя мечта — создать такую же систему, которая бы не просто умела играть, но и решать повседневные задачи, к примеру, создавала бы новые лекарства", — заявил Дэвид Сильвер (David Silver), главный разработчик компании DeepMind.
Система ИИ AlphaGo была разработана Дэвидом Сильвером и его коллегами в конце 2014 года, и ее работа была "протестирована" на чемпионе Европы Фане Хое (Fan Hui), который проиграл все пять матчей машине. В марте 2016 года AlphaGo победил чемпиона мира по го, Ли Седола, в серии из пяти матчей, только один из которых завершился победой человека.
Сильвер и его коллеги смогли достичь этих успехов, построив свой ИИ на базе не одной, а сразу двух нейронных сетей – особых алгоритмов, имитирующих работу цепочек нейронов в мозге человека. Одна из них отвечает за оценку текущей позиции на доске, а вторая использует результаты анализа, подготовленные первой сетью, для того чтобы выбирать следующий шаг.
Следующим логическим шагом в развитии AlphaGo стала ликвидация главного недостатка всех существующих сегодня нейросетей и систем искусственного интеллекта – необходимости обучать их тому, что они должны делать, используя огромные архивы данных, вручную обработанные человеком, или при непосредственном участии человека, как это происходило на первых этапах развития AlphaGo.
Сильвер и его команда решили эту задачу, создав принципиально новую нейронную сеть, которая базируется на так называемых алгоритмах обучения с подкреплением. Эта нейросеть, в отличие от ее звездного предшественника, который изначально обучался в играх с добровольцами и имел некоторые встроенные примитивные стратегии игры, начала свою работу с состояния абсолютного новичка с нулевым багажом знаний.
Иными словами, ей были известны лишь правила игры в го, начальные условия и условия победы, и затем компьютер самостоятельно учился играть в эту древнекитайскую стратегию, играя сам с собой и действуя методом проб и ошибок. Единственным ограничением в ее работе было максимальное время на обдумывание хода – оно составляло примерно 0,4 секунды.
После каждой подобной игры, система ИИ анализировала все свои ходы и запоминала те, которые приближали одну из ее "половинок" ее к победе, и заносила в своеобразный "черный список" те шаги, которые были откровенно проигрышными. Используя эти данные, нейросеть перестраивала себя, постепенно достигнув того уровня, на который вышла первая версия AlphaGo перед серией игр с Ли Седолом.
Переход на алгоритмы самообучения не только позволил AlphaGo Zero превзойти уровень своей предшественницы и обыграть ее со счетом 100-0, но и улучшил многие другие аспекты ее работы. В частности, процесс ее обучения занял всего три дня и примерно пять миллионов игр, что было на порядок меньше запросов первой версии ИИ.
Успешное завершение экспериментов с AlphaGo Zero заставило Сильвера и его команду задуматься о том, можно ли применить аналогичную нейросеть для завоевания короны чемпиона в других типах стратегических и настольных игр.
Для этого ученые встроили в AlphaGo Zero еще один новый элемент – эвристические алгоритмы случайного поиска решений, а также код, учитывавший существование ничьи в некоторых играх. Вдобавок, новая версия "альфы" непрерывно совершенствовала свою структуру, а не обновлялась этапами, как ее предшественница.
Эти относительно простые изменения, как показали дальнейшие опыты, значительно повысили скорость самообучения этой системы искусственного разума и превратили ее в универсальную машину, способную играть во все виды настольных стратегий.
Ее работу ученые проверили на трех типах игр – го, обычных шахматах и их японской разновидности, сёги. Во всех трех случаях новое детище Сильвера достигло уровня гроссмейстера меньше чем за миллион игр, достигнув почти человеческой избирательности при выборе возможных ходов всего за 9-12 часов тренировок для шахмат, и за 13 дней для го.
Еще раньше она обыграла самые совершенные компьютерные программы, играющие в эти игры – алгоритм Stockfish "сдался" на четвертый час тренировки AlphaZero, а система Elmo, текущий чемпион в сёги, протянул всего два часа. И наконец, первая версия AlphaGo начала уступать ее "внуку" примерно на 30 часу его обучения.
Следующими "жертвами" AlphaZero, как отметили ученые, могут стать "настоящие" компьютерные игры, такие как Starcraft II и Dota 2. Взятие чемпионства в подобных киберспортивных дисциплинах, по их мнению, откроет дорогу для проникновения самообучающихся ИИ в менее формализуемые области науки, культуры и техники.