Wired: Либратус, покерный алгоритм, который обыгрывает в блефе человека

Автор: Кейд Метц

Почти три недели Дон Ким сидел в казино Питтсбурга и играл в покер против машины. Но Ким — не просто игрок в покер. Против него сражалась не просто машина. И это была необычная игра.

28-летний Ким — один из лучших игроков в мире. Машина, построенная двумя компьютерными разработчиками из Карнеги Меллон — система искусственного интеллекта, запущенная на ресурсах суперкомпьютера Питтсбурга. 20 дней они играли в Техасский Холдем с нефиксированной ставкой, особенно сложный вид покера, в котором стратегия ставок превалирует над вариантами совпадения карт.

Примерно к середине соревнования, которое завершилось в конце декабря, у Кима появилось ощущение, что Либратус может видеть его карты. «Я не обвиняю машину в обмане» — говорит он — «просто она очень хороша«. Хороша настолько, что смогла одолеть Кима и ещё трёх топовых человеческих игроков — впервые в истории искусственного интеллекта.

В ходе матча создатели Либратуса не рассказывали о принципе работы системы и о том и как ей удалось добиться подобных успехов, как она мимикрирует под человеческую интуицию — лучше, чем любой другой механизм. Но, как выяснилось после игры, этот искусственный интеллект достиг столь значительных высот потому что это не просто единичный ИИ.

Либератус — это три различные системы, которые работают вместе, что является напоминанием о том, что современный ИИ (искусственный интеллект, Artifical Intelligence — прим.перев.) движим не одной технологией, но множеством. Большинство внимания сегодня приковано к глубоким нейронным сетям, и тому есть причина: они добиваются успехов во всём, от распознавания изображений до перевода и поиска на основе разработок крупнейших мировых технокомпаний. Но успех нейронных сетей дал толчок к развитию множества новых техник искусственного интеллекта, которые помогают машинам имитировать и даже превосходить возможности человека.

Либратус, например, не использует нейронные сети. В основном он опирается на алгоритм, известный как подкрепляющее обучение, метод экстремальных проб и ошибок. В сущности он играл игру за игрой против себя. Лаборатория Deep Mind компании Google использовала подкрепляющее обучение при создании системы AlphaGo, которая победила в древней игре Го на десятилетие раньше чем предсказывалось, но между этими системами есть ключевое различие. AlphaGo обучался игре анализируя 30 миллионов шагов в Го, которые сделали человеческие игроки и только затем оттачивал свои навыки играя против себя. В противоположность этому Либратус изучал всё с нуля.

Благодаря алгоритму под названием «контрафактическая минимизация сожаления» он начал играть в случайном порядке, и в конце концов, после нескольких месяцев тренировок и триллионов покерных рук достиг такого уровня, когда не просто смог бросить вызов лучшим человеческим игрокам мира, но и играть таким образом, который они и представить не могли — используя столь широкий диапазон возможных ставок и рандомизируя их таким образом, что соперники испытывали серьёзные проблемы, пытаясь понять какие карты у машины на «руках». «Мы дали ИИ описание игры. Но не рассказывали ей как успешно играть» — говорит Ноам Браун, выпускник Университета Карнеги Меллон, который построил систему вместе с профессором Туомасом Сандхолмом — «он абсолютно самостоятельно разрабатывает стратегию и может вести игру совершенно иным образом чем люди«.

Но это только первая стадия. В ходе игр в Питтсбурге вторая система анализировала состояние игры и внимательно следила за первой. С помощью второй системы, подробно описанной в научной работе Сандхолма и Брауна, которая вышла в прошлом месяце, первая система не имела возможности прорабатывать все возможные сценарии, которые произошли в прошлом. Она могла изучать лишь некоторые из них. Либратус не просто учился до матча. Он делал это во время него.

Уже две эти системы были эффективны. Но Ким и другие игроки всё же могли найти закономерности в игре машины и использовать их. Вот почему Браун и Сандхолм построили третью. Каждый вечер Браун запускал алгоритм, который мог идентифицировать эти паттерны и удалять их. «Система могла заниматься вычислениями всю ночь и так и не прийти к результату на следующий день» — говорит он.

Если это и выглядит нечестным, то что поделать, так работает ИИ. И дело не только в охвате множества технологий. Люди также смешивают различные подходы, активно улучшая их и создавая в результате новое поколение ИИ, которое может играть значительную роль во всём, от трейдинга на Уолл-Стрит до кибербезопасности, от аукционов до политических переговоров. «Покер был для искусственного интеллекта одной из самых сложных игр, потому что игрок может видеть лишь часть информации об игре» — говорит Эндрю НГ, который принимал участие в создании центральной лаборатории Искусственного Интеллекта Google а сейчас работает главным научным сотрудником в Baidu — «нет единого оптимального хода. Вместо этого ИИ рандомизирует свои действия, чтобы запутать соперника и не дать понять ему когда блефует«.

Либратусу удалось это сделать крайне успешно. Он рандомизировал свои ставки таким образом, что они привели в тупик даже лучших человеческих игроков. А когда это не работало, ночной алгоритм Брауна находил проблему. Финансовый трейдер действует схожим образом. Как и дипломат. Это мощное и также пугающее достижение: машина теперь может переблефовать человека.

Оригинал: Wired

Похожие Записи

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *

Последние <span>истории</span>

Поиск описаний функциональности, введя ключевое слово и нажмите enter, чтобы начать поиск.