Играющий в игры искусственный интеллект DeepMind может обыграть лучших людей в шахматы, Го и покер

Одна искусственная интеллектуальная система может победить человека в шахматах, Го, покере и других играх, требующих разнообразных стратегий для победы. ИИ, называемый «Ученик игр», был создан Google DeepMind, который говорит, что это шаг к искусственному общему интеллекту, способному выполнять любую задачу с сверхчеловеческой производительностью.

Мартин Шмид, который работал в DeepMind над ИИ, но теперь работает в стартапе под названием EquiLibre Technologies, говорит, что модель «Ученик игр» (SoG) может проследить свое происхождение до двух проектов. Один из них был DeepStack, ИИ, созданный командой, включая Шмида, в Университете Альберты в Канаде, который первым победил профессиональных игроков в покер. Другой — AlphaZero от DeepMind, который победил лучших человеческих игроков в шахматы и Го.

Разница между этими двумя моделями заключается в том, что одна сосредоточена на играх с неполной информацией — тех, в которых игроки не знают состояния других игроков, например, их карт в покере, а другая сосредоточена на играх с полной информацией, таких как шахматы, где оба игрока могут видеть положение всех фигур в любое время. Эти два подхода требуют фундаментально разных подходов. DeepMind наняла всю команду DeepStack с целью создания модели, которая могла бы обобщаться на оба типа игр, что привело к созданию SoG.

Шмид говорит, что SoG начинается как «чертеж» того, как учиться играм и затем улучшаться в них через практику. Эта стартовая модель может быть запущена на разных играх и научиться играть против другой версии самой себя, изучая новые стратегии и постепенно становясь более способной. Но в то время как предыдущий AlphaZero от DeepMind мог адаптироваться к играм с полной информацией, SoG может адаптироваться как к играм с полной, так и к играм с неполной информацией, что делает его более обобщаемым.

Исследователи протестировали SoG на шахматах, Го, покере Texas hold’em и настольной игре под названием Scotland Yard, а также на покере Leduc hold’em и специальной версии Scotland Yard с другой доской, и обнаружили, что он может победить несколько существующих моделей ИИ и человеческих игроков. Шмид говорит, что он должен быть способен научиться играть и в другие игры. «Есть много игр, которые вы можете просто бросить ему, и он будет в них действительно хорош», — говорит он.

Эта широкая способность имеет небольшую стоимость в производительности по сравнению с более специализированными алгоритмами DeepMind, но SoG все равно легко побеждает даже лучших человеческих игроков в большинстве игр, которые он изучает. Шмид говорит, что SoG учится играть против самого себя, чтобы улучшаться в играх, но также для исследования возможных сценариев от текущего состояния игры — даже если он играет в игру с неполной информацией.

«Когда вы находитесь в игре, например, в покере, гораздо сложнее понять, как же я буду искать (лучший стратегический следующий ход в игре), если я не знаю, какие карты держит противник?» — говорит Шмид. «Так что здесь был набор идей, исходящих от AlphaZero, и набор идей, исходящих от DeepStack, в этой большой смеси идей, которая называется Ученик игр».

Майкл Роватсос из Университета Эдинбурга, Великобритания, который не участвовал в исследовании, говорит, что хотя это впечатляет, до того, как ИИ можно считать общим интеллектом, еще очень далеко, потому что игры — это среды, в которых все правила и поведение четко определены, в отличие от реального мира.

«Важно подчеркнуть, что это контролируемая, самодостаточная искусственная среда, где все значения и результат каждого действия ясны», — говорит он. «Проблема — это игрушечная проблема, потому что, хотя она может быть очень сложной, она не реальная».

Играющий в игры искусственный интеллект DeepMind может обыграть лучших людей в шахматы, Го и покер

Добавить комментарий Отменить ответ

Дэвид Коулман побеждает в основном событии турнира Card Player Poker Tour Venetian

Пансионат в Техасе награждает 100 000 долларов счастливому игроку в покер

Мичиганский игрок в покер говорит, что стал жертвой шантажной схемы на 2 миллиона долларов.