Покерный бот Pluribus обыграл 15 мировых покер-про в 6-max NLH

Два года назад искусственный интеллект Libratus обыграл в хедз-апе лучших покер-про в мире, выиграв почти $2,000,000. Но теперь у бота появился еще более сильный оппонент — его новая версия, которую разработали ученые из университета Карнеги-Меллона и исследователи искусственного интеллекта Facebook.

Содержание:

Удачный эксперимент
Секрет Pluribus
Не суперкомпьютер
Бот выбирает донк-беты
Будущее бота

Новый бот Pluribus также соревновался против лучших покер-про в мире, но уже не один на один, а за 6-max столом. Против него сыграло 15 профессионалов NLH, но искусственный интеллект оказался сильнее.

Все 15 игроков — профессионалы онлайна и офлайна, как кэш-игр, так и турниров. Каждый из них выиграл более $1,000,000 за карьеру, а некоторые перешагнули отметку в $10,000,000. В этом списке есть игрок «LLinusLLove», которого многие покер-про признают сильнейшим в мире кэш-игроком NLH в 6-max.

Список оппонентов Pluribus:

Линус «LLinusLLove» Лелигер;
Крис «Иисус» Фергюсон;
Грег Мерсон;
Даррен Элиас;
Джейсон Лес;
Майкл Гаглиано;
Сэт Дэйвис;
Тревор Севедж;
Джимми Чау;
Энтони Грэг;
Донг Ким;
Ник Петранжело;
Шон Руане;
Джейк Туле;
Дэниел МакОлей.

Удачный эксперимент

Покерная сессия Pluribus проходила в двух форматах:

пять покер-про против одного бота ИИ;
один покер-про против пяти ботов ИИ.

В первом формате бот показал средний винрейт в 5 BB/100 раздач. Покерные профессионалы в среднем теряли 2.3 BB/100 раздач, при этом их индивидуальные результаты варьировались от -0.5 до -4 BB на 100 раздач.

За 10,000 рук все покер-про ушли в минус на $500,000. Игру Pluribus и 5 покерных профессионалов можно оценить в видео.

Во втором формате игроки поодиночке катали 5,000 раздач против 5 ботов, и результаты оказались аналогичными. Ботам не сумел противостоять обладатель 6 браслетов WSOP Крис Фергюсон, а также рекордсмен по количеству титулов WPT Даррен Элиас (4 титула).

Секрет Pluribus

Разработчики кардинально перестроили логику работы и обучения Pluribus по сравнению с «хедз-ап-чемпионом» Libratus. «Стержень» ИИ остался прежним — покеру и покерным стратегиям он обучался самостоятельно, на основе игры с самим собой.

Принцип работы Pluribus на математическом языке можно назвать «минимизацией сожалений». ИИ вычисляет разницу между принятым им решением и оптимальной стратегией действий и стремится к уменьшению этого значения.

Даррен Элиас рассказал, что главным преимуществом бота является умение комбинировать различные стратегии. У покерных профессионалов это редко получается делать, чтобы играть в плюс.

Не суперкомпьютер

Предыдущие высокоуровневые ИИ требовали миллионов долларов на разработку и немалые вычислительные мощности. Facebook и университет Карнеги-Меллона представили затраты на разработку Pluribus, затраты оказались просто смешными.

На программирование бота ушло 8 дней, 512 ГБ оперативной памяти и $150. Деньги потратили исключительно на аренду вычислительного «облака».

Для работы самого сильного покерного бота хватит ПК с 28-ядерным процессором. При этом его скорость принятия решений в 2 раза больше, чем у покер-про — от 1 до 33 секунд. На сессии за 6-max столом Pluribus в среднем тратил 20 секунд на раздачу.

Бот выбирает донк-беты

Pluribus подтвердил одну традиционную покерную мудрость: лимпить не самый лучший ход, по сравнению с фолдом или рейзом на префлопе. Исключением, конечно, является случай, когда игрок находится на SB, и колл стоит вдвое меньше, чем для других игроков.

Еще одно интересное наблюдение — бот делал гораздо больше донк-бетов, чем его оппоненты-люди. Считается, что если префлоп-агрессор продолжает делать несущественную ставку на следующих улицах — это не совсем оптимальное решение. Однако Pluribus посчитал донк-беты плюсовыми решениями.

Будущее бота

Разработчики Pluribus решили не размещать его код в открытый доступ, чтобы он не попал не в те руки. Потому что этот искусственный интеллект действительно опасен для покерного сообщества.

Создатели бота преследуют цель изучить покер настолько глубоко, насколько это возможно, и понять те принципы игры, которые еще не открылись даже самым лучшим игрокам в мире. Бот также может использоваться для выявления покерных мошенников, сговоров и других ботов.

Покерные способности Pluribus ярко выражены в отчете эксперимента с покер-про:

«Если бы каждая фишка стоила $1, Pluribus выигрывал бы в среднем около $5 за раздачу и зарабатывал бы около $1,000 долларов в час, играя против пяти людей. Эти результаты считаются пределом для покерных профессионалов».

13 июля 2019

2 942

У Вас есть вопросы и желание их обсудить?

Тогда переходите на наш форум, где каждый пользователь может проявить себя!

Обсудить на форуме

Материал подготовлен

Автор с большим опытом игры на низких и средних лимитах. Пишет о базовой стратегии, банкролл-менеджменте, покерной математике и психологии. Его статьи ориентированы на тех, кто выстраивает прочную основу для долгосрочного роста.

Хотите поделиться своим мнением или оставить комментарий?

Написать