Libratus: история искусственного интеллекта в покере до первой победы над человеком

С момента появления первых компьютеров их возможности пытались сравнивать с работой человеческого мозга. Игры были своего рода критерием высокого интеллекта, и в этом противостоянии задавался вектор развития программирования. AI в то время еще не воспринимался как угроза, несмотря на предупреждения некоторых мыслителей и фантастов. Напротив, его потенциал вдохновлял ученых на новые открытия.

Предыстория: шахматы

Самой очевидной дисциплиной для проверки машинного «разума» были шахматы. Классическая логическая игра с максимально прямолинейными правилами и сложнейшим деревом решений представлялась достойной задачей для деятелей науки.

Первой программой, относительно успешно сражавшейся с живым оппонентом в 1952 году, был MANIAC I. Правда, использовалась не стандартная доска 8×8, а урезанная версия без слонов — 6×6. Партия длилась почти десять часов. Победу одержал человек, но для только формировавшегося цифрового мира это был грандиозный прорыв.

Всего через пять лет Алекс Бернштейн представил первую программу для полноформатной доски, а в 1958-м Аллен Ньюэлл, Клифф Шоу и Герберт Саймон создали революционный алгоритм «альфа-бета-отсечение», сокративший время расчетов дерева решений.

В 1974 году прошел первый в истории чемпионат по шахматам, в котором соревновались компьютерные программы. Но только с 1983 года они начали составлять достойную конкуренцию человеку, а в 1989 Deep Thought обыграла гроссмейстера Дэвида Леви. В 1996-м прошел матч между алгоритмом Deep Blue и Гарри Каспаровым.

Каспаров против Deep Blue
Гроссмейстер Гарри Каспаров против компьютера Deep Blue

Хотя первая партия осталась за машиной, профессионал смог перестроиться, одержал три победы, а два последних сражения завершились ничьей. Но уже через год компьютер взял реванш. С начала 2000-х превосходство программ стало безоговорочным, а внедрение в алгоритмы нейронных сетей не оставило человеку ни единого шанса.

Впрочем то, что это скоро произойдет, было понятно уже в 1980-х: победа AI стала вопросом времени. Тогда же ученые стали искать игру, способную предложить куда более высокие требования к вычислительным алгоритмам.

Первые пробы в покере

Очевидными кандидатами стали карточные дисциплины. В частности, интерес ученых был прикован к Техасскому Холдему. По сравнению с шахматами, он имел несколько значительных усложнений:

  • Руки оппонентов и будущие ранауты неизвестны.
  • Разные стратегии ставок.
  • Необходимость выявления паттернов соперника для эксплуатации.
  • Блефы.
  • Вскрытие обманных действий противников.

Кроме того, у покера могут меняться вводные. Лимитный и безлимитный формат — по сути — две разных игры. А ведь на стратегию влияют также размеры стеков, количество участников за столом. В общем, задача была не из легких, и остается таковой до сих пор.

Исследователь искусственного интеллекта в Университете Карнеги-Меллона Ноам Браун подсчитал, что в безлимитном Холдеме существует 10^163 ситуаций для стеков в 20,000 фишек. Для понимания, это число состоит из десятки и еще 163 нулей.

Первая программа была разработана покерным игроком и теоретиком Майком Каро в 1984 году. Она называлась Orac (анаграмма от фамилии), а ее целью было участие в Мировой серии. Высоких результатов в соревновании с профессионалами компьютер не показал, но на то время сообщество было удивлено реализацией в алгоритме не самой сложной, но уверенной стратегии.

А далее в дело вступили ученые, началось настоящее соревнование между университетами Альберты, Окленда и Карнеги-Меллона (CMU). Первый из них приступил к разработке в 1991 году, а в 1997-м презентовал своего бота Loki. В составе группы был научный деятель и профессиональный покерист Дарс Биллингс. Эта программа рассчитана на противостояние за столом из девяти участников по правилам лимитного Холдема. Стоит заметить, что даже сегодня эта игра для Full Ring остается нерешенной, а уровень Loki был ниже среднего регуляра.

Ученые университета Альберты осознали, что стоит идти от более простого к сложному. На базе предыдущей программы они запустили новую — Poki. Этот был бот для хедз-апа с алгоритмом на основе поиска равновесия Нэша. Он сумел показать более высокий результат, без вариантов проигрывая профессионалам, но с переменным успехом соревнуясь с покеристами среднего уровня. Последующие версии — PsOpti и Sparbot — не слишком продвинулись вперед, но позволили выбрать новый вектор для работы. Против них играл профессионал Гаутама Рао, который отметил, что если программу научить адаптироваться под оппонентов, она уничтожит за столом любого. Именно этим представители университета Альберты занимались в последующие годы.

От шахматной модели расчета к искусственному интеллекту

2003 год считается переломным для AI в покере. Меняется методология: использовавшийся для «решения» шахмат алгоритм помог в развитии первых программ, но в новом тысячелетии уже изжил себя в разрезе карточных дисциплин. В этом году из университета Карнеги-Меллона в Альберту перебирается Майкл Боулинг, который станет главной движущей силой исследований в области AI для покера. Но с потерей специалиста CMU, который до этого создал победившего Гарри Каспарова Deep Blue, не только не отказывается от борьбы, но форсирует ее. Профессор Туомас Сандхолм и его подопечные — Эндрю Гилпин, Сэм Ганцфрид и Ноам Браун внесут значительный вклад в развитие направления.

Туомас Сандхолм
Туомас Сандхолм — «локомотив» развития покерного AI

В 2005 году проходит Мировая серия для роботов. В ходе первого «бума», после победы Манимейкера и старта телетрансляций с обзором карт участников, все, что касалось Холдема, вызывало огромный интерес. Соревнование с заявленным призом в $100 тыс. прошло в культовом казино Binion’s Horseshoe. Победу одержала разработка 37-летнего продавца автомобилей Хилтона Гивенса из Индианы. Его PokerProbot с небольшим преимуществом переиграл Poki-X — наспех адаптированную под формат турнира версию Loki. После этого триумфатор провел показательный матч против профессионала Фила Лаака. Машина уступила человеку.

«Через три-пять лет они победят», — сказал в то время в интервью LA Times Кеннет «Клон» Джонс, профессиональный игрок в покер и бывший инженер-программист.

В 2007 году появляется Polaris. Это совершенно новый продукт, результат долгой работы ученых университета Альберты, который на тот момент стал вершиной в области применения искусственного интеллекта, притом в безлимитном Холдеме. Программа содержала несколько разных стратегий, то есть, грубо говоря, состояла из целой команды ботов. В зависимости от действий оппонента, машина переключалась между ними, выбирая самый выгодный с ее точки зрения вариант.

И снова противником AI выступают Фил Лаак и его коллега Али Эслами. Для уменьшения влияния дисперсии участникам сдавались попеременные наборы рук: после партии с Лааком робот в игре с Эслами получал те же стартеры, что и Фил до этого. В результате сложного матча победа снова остается за людьми, но сказать, что она была легкой, уже нельзя. А через год обновленный Polaris играет против шести профессионалов на выставке Gaming Life Expo, на этот раз сумев трижды одержать верх над человеком, при двух поражениях и одной ничьей.

В 2009 году в гонку врывается университет Окленда. Его разработка — программа Sartres — успешно конкурировала с другими роботами в соревнованиях. В 2014 году производитель игровых автоматов IGT выпускает Texas Hold ‘Em Heads Up Poker. ПО было создано Фредриком Далем из университета Осло.

Наибольшую выгоду от игры с Texas Hold ‘Em Heads Up Poker получил Том Дван, заработавший миллионы на пари с теми, кто не верил в его победу. В числе проигравших по кросс-букингу был Даниэль Кейтс.

Предположительно, аппарат использовал нейронную сеть для изучения новых стратегий. Фил Хельмут и Джонни Чен нашли продукт достаточно интересным, но широкого распространения он не получил.

Искусственный интеллект берет верх

Ученые университета Альберты продолжают изыскания и в 2015 году выпускают нового робота — Cepheus. Программа на протяжении двух месяцев обучалась, играя против себя же. Как итог, AI просчитал равновесные стратегии для всех возможных ситуаций в хедз-апе FLH. То есть, по сути, этот вид игры был «решен» на 100%. И это первый в истории пример, когда подобное случилось с настолько сложной дисциплиной. Впрочем, такой итог для лимитного формата был предсказан еще в начале тысячелетия. С NLHE все оказалось намного сложнее.

В это же время Туомас Сандхолм добивается прорыва. Его Claudico, точно так же как Cepheus, использует не заложенные алгоритмы, а самообучение на основе искусственного интеллекта. Но разработка университета Карнеги-Меллона направлена на безлимитный Холдем. Задача была настолько сложной, что для ее выполнения потребовался суперкомпьютер Pittsburgh Supercomputing Center Blacklight с 16 терабайтами оперативной памяти.

Проверить силу Claudico было предложено четырем профессионалам хедз-апа, среди которых был Даг Полк — на тот момент сильнейший регуляр в этом формате. Ежедневно проходило два матча по 750 рук в течение восьми часов против каждого из людей, в общей сложности 20,000 рук на игрока за 13 суток.

Команда людей
Команда людей в противостоянии с Claudico

Три из четырех живых участников оказались в плюсе, один — Джейсон Лес — закончил с небольшим отставанием. Но так как по условиям матча люди работали как единая команда, победа досталась им. Профессионалы отметили, что машина действовала довольно сильно, но в некоторых моментах теряла логику.

«Там, где человек мог бы сделать бет в половину или три четверти банка, Claudico иногда ставил жалкие 10% или заоблачные 1,000%», — объяснял Полк. — «Ставка в $19,000, чтобы выиграть банк в $700, — это явно не то, что сделает человек».

Впрочем, получив опыт в противостоянии с машиной, Даг высказал уверенность, что в ближайшем будущем AI станет непобедим.

Наконец, наступил 2017 год, ставший самым знаковым в истории противостояния между людьми и покерным искусственным интеллектом. Началось все программы DeepStack AI, разработанной командой университета Альберты. Использовался опыт AlphaGo — робот, переигравший живых соперников в другой логической дисциплине — го. DeepStack использует глубокие нейронные сети для имитации человеческой интуиции и обучения по ходу матча. При этом он не перенимал опыт реальных чемпионов, а применяет только собственные расчеты.

Впрочем, среди оппонентов новой программы не было действительно топовых профессионалов, поэтому ее победы в рамках закрытых исследований требуют более детального анализа.

А вот команда университета Карнеги-Меллона два года занималась доработкой Claudico и наконец представила новую версию, названную Libratus. Вычисления для нее проводились на новом суперкомпьютере «Bridges» в Питтсбургском центре. Технически робот не имеет фиксированной встроенной стратегии, а вычисляет собственную по методам CFR+ и новой техники, решающей проблему эндшпиля на ривере.

Для испытания они пригласили Джейсона Леса, Донг Кима, Дэниела МакОлея и Джимми Чоу. Были сформированы две подкоманды по два игрока в каждой. Одна группа находилась на открытом воздухе, вторая — в комнате, названной «Подземельем». Обитателям последней не разрешалось использовать мобильные телефоны или другие внешние средства связи.

Джейсон Лес
Джейсон Лес против Libratus

По ночам после игры бот самостоятельно совершенствовал свою стратегию, анализируя предыдущую сессию. Таким образом, он постоянно исправлял недостатки. Впрочем, тем же в перерывах занимались и люди. В итоге матч проходил в режиме своеобразной «гонки вооружений».

С первых же часов преимущество оказалось у машины. На 16-е сутки она преодолела отметку в миллион выигранных условных долларов, а последний, 20-й день закончила с плюсом в $1,766,250. В более понятном формате перевес робота над людьми составил 14.7 ББ/100. Это колоссальный показатель, говорящий о безоговорочном превосходстве искусственного интеллекта над человеческим. Меньше всех проиграл Дон Ким — -$85,649.

«Я не осознавал, насколько он хорош, до сегодняшнего дня. — говорил он после матча. Я чувствовал, что играю против кого-то, кто жульничает, как будто он видит мои карты. Я не обвиняю его в мошенничестве. Просто он был действительно хорош».

Интересно, что перед началом матча букмекеры отдавали перевес человеческой команде. Коэффициент на победу машины превышал 4. Но уже после первого дня соревнования рейтинг людей рухнул.

На этом развитие AI для покера не остановилось. В 2019 году вышла новая, более совершенная версия Libratus, для игры уже на 6 участников. Этот формат намного сложнее, и казалось, что с первого раза добиться успеха не выйдет. Но бот под названием Pluribus не оставил ни единого шанса пятерым соперникам, в числе которых были Джимми Чоу, Джейсон Лес и Крис Фергюсон.

Таким образом, на сегодня противостояние искусственного интеллекта и человеческого разума складывается не в пользу последнего. По крайней мере, за покерными столами. Насколько эти научные разработки вредят самой игре, сказать сложно. Но нужно понимать, что само создание ботов для Холдема изначально не преследовало меркантильных целей вроде трофеев или заработка денег.

Как и равновесие Нэша в Теории игр, такие разработки могут применяться в самых разных областях, от экономики до медицины. И в этом смысле можно поблагодарить покер за то, что заставляет технологии AI прогрессировать. Холдем, как в свое время шахматы, стал причастен к возможным будущим открытиям, которые смогут положительно повлиять на жизнь человечества.

Форум Poker.Ru
У Вас есть вопросы и желание их обсудить?
Тогда переходите на наш форум, где каждый пользователь может проявить себя!
Обсудить на форуме
Материал подготовлен
Екатерина Осипова
Автор, эксперт Poker.ru
Всем привет! Я — Катерина Осипова, эксперт Poker.ru и победитель турниров на мировых покерных сериях. Я никогда не предполагала, что покер может стать неотъемлемой частью моей жизни. Я познакомилась с ним на простой домашней вечеринке, в кругу друзей. Математическая и психологическая часть покера сразу привлекла меня. Я быстро выучила все правила и открыла для себя онлайн-покер.
Познакомился с покером около пяти лет назад, но, как это часто бывает, долгое время относился к нему как к хобби. По мере обучения игре стал понимать, что в ней скрыты не только математическое совершенство и красота, но и возможности для изменения качества жизни. Основной дисциплиной выбрал кеш, хотя в карьере есть и несколько заносов в МТТ. Кроме того, всю жизнь дружил с языком, что позволило совместить покер с написанием статей о нем.

Хотите поделиться своим мнением или оставить комментарий?

Написать