
Виктория Лившиц — покеристка, предпринимательница и основательница обучающего покерного сайта Octopi Poker. Кроме того, с 2015 года она возглавляла одну из первых исследовательских лабораторий по передовым языковым моделям LLM (Language Learning Models).
На прошлой неделе Виктория опубликовала эксклюзивную статью с разбором недавнего «покерного баттла» между чат-ботами. Подробнее о его итогах можно прочитать здесь.
Вводные данные
Необычная онлайн-битва по покеру проходила в течение пяти дней начиная с 27 октября 2025 года. Девять ведущих крупных языковых моделей (LLM) играли друг против друга в кеш (NL Холдем, $10/$20). Организатор этой битвы Макс Павлов обозначал цель эксперимента так: «Получить четкие выводы о том, насколько хорошо разные универсальные LLM умеют рассуждать в покерных ситуациях: разбирать раздачи, объяснять решения и фактически интегрировать все элементы игры в единую связную картину».
Девять моделей, а именно: OpenAI o3 (ChatGPT), Grok 4, Claude Sonnet 4.5, Gemini 2.5 Pro, DeepSeek R1, Kimi K2, Mistral Magistral, Z.AI GLM 4.6 и Meta LLAMA 4 играли в кеш пять дней подряд. Каждый бот начинал со стека $2,000 (100 ББ). Если стек опускался ниже, LLM автоматически докупались, имея в распоряжении банкролл $100,000.

За время битвы каждая модель отыграла по 3,799 раздач, за исключением LLAMA. Последняя выбыла из состязания, растратив весь банкролл, к 3,501-й руке. Итоговые результаты каждого бота представлены в таблице.
| Место | Игрок | Результат |
| 1-е | OpenAI o3 | +$36,691 |
| 2-е | Claude Sonnet 4.5 | +$33,641 |
| 3-е | Grok 4 | +$28,796 |
| 4-е | DeepSeek R1 | +$18,416 |
| 5-е | Gemini 2.5 Pro | +$14,655 |
| 6-е | Mistral Magistral | +$3,281 |
| 7-е | Kimi K2 | -$14,370 |
| 8-е | Z.AI GLM 4.6 | -$21,510 |
| 9-е | Meta LLAMA 4 | -$100,000 |
На основе результатов и истории игры были выведены ключевые статистические показатели для каждой модели. Стоит учитывать, что эти результаты не вполне объективны, так как дистанция в 4,000 рук слишком мала.
| Игрок | VPIP | PFR | 3-Bet | F3B | C-Bet | FCB | WTSD |
| OpenAI | 26.6% | 18.1% | 16.3% | 31.0% | 62.1% | 22.5% | 19.5% |
| Claude | 27.1% | 15.7% | 11.1% | 49.8% | 84.2% | 28.2% | 16.3% |
| Grok 4 | 29.7% | 19.6% | 12.5% | 62.5% | 82.7% | 26.1% | 19.1% |
| DeepSeek | 19.9% | 10.6% | 8.8% | 37.0% | 66.7% | 24.9% | 16.9% |
| Gemini | 28.1% | 21.4% | 20.6% | 40.2% | 57.4% | 14.5% | 28.3% |
| Magistral | 15.9% | 13.6% | 10.1% | 83.9% | 87.9% | 16.4% | 19.4% |
| Kimi K2 | 20.0% | 10.9% | 10.9% | 36.2% | 79.5% | 40.5% | 12.4% |
| GLM 4.6 | 31.0% | 15.5% | 10.0% | 59.5% | 66.8% | 22.5% | 20.8% |
| LLAMA 4 | 62.8% | 28.2% | 18.2% | 35.4% | 75.4% | 12.2% | 33.9% |
| GTO Baseline | 18-22% | 14-18% | 6-8% | 55-65% | 55-70% | 40-55% | 24-28% |
Полные результаты и детальные истории раздач, включая обоснование каждого решения, принятого моделями, находятся в открытом доступе на официальном сайте PokerBattle AI.
Виктория начала анализ с макроуровня — сравнения частотных характеристик игры каждой модели между собой и с ориентиром на теорию оптимальной игры (GTO). Она провела детальный разбор нескольких раздач, начиная с самых крупных банков. Цель — выявление общих паттернов в игре всех моделей, а также уникальных особенностей, которые объясняли бы их преимущества или слабости.
Языковые модели хороши, но не идеальны
Самое яркое наблюдение — то, насколько компетентно топовые ИИ играли в покер с глубокими стеками. При отсутствии специального обучения лучшие модели понимали и применяли базовую теорию, отслеживали действия оппонентов, подстраивали свою игру и крайне редко допускали критические ошибки.
Особенное впечатление производит префлоп-игра. В большей степени LLM действовали безупречно, включая розыгрыш 3-бет, 4-бет и 5-бет банков. Вероятно, они уже способны обыгрывать людей на самых низких лимитах. Но даже у ИИ есть серьезные лики.
Псевдомастера эксплойта
Почти все, кроме самых слабых LLM, играют крайне эксплойтно. Они скрупулезно ведут учет частотности действий оппонентов в типичных узлах дерева решений и регулярно делают значительные, порой очень смелые подстройки на основе этих наблюдений. Но данные по оппонентам собираются на базовом уровне и недостаточны для настолько серьезных выводов, тем более при небольшом объеме раздач.
При этом LLM игнорируют часть важной информации — например, показанные руки на шоудауне. В результате возникает устойчивый перекос в сторону эксплойта и игнорирования принципов балансировки. Это помогало лучшим моделям за счет участия слабейших, но в целом приводило к серьезным ликам, которые довольно легко смог бы эксплуатировать разумный игрок-человек.
Пробелы в базовой теории
Постфлоп-теория ботов очень примитивна. Они действительно учитывают рейндж оппонента в каждой точке принятия решения, но собственную стратегию практически всегда строят вокруг конкретной руки, а не диапазона. Попытки задать спектр соперника при этом тоже остаются довольно поверхностными.
Растерянность и путаница
Чат-боты часто путают свои карманные карты, позицию, силу руки, а иногда даже испытывают трудности с элементарной покерной математикой вроде перевода размера ставки из фишек в проценты от банка. Как итог — часть их стратегических решений была основана на неверных фактах. Например, довольно часто они путали AJo с AJs или решали, что AJ старше QQ на доске J-хай.
«Баг» агрессии и отсутствие баланса
Нейросети — своего рода оптимисты. В целом они играют слишком широко и агрессивно. Им гораздо интереснее попытаться забрать крупный банк у оппонента, когда они считают, что у них есть преимущество, чем защититься.
Они буквально одержимы пот-оддсами: их радует возможность заколлировать со спекулятивной рукой в любой точке дерева решений, при этом они игнорируют риск обратных имплайд-оддсов.
Баланс… какой баланс? Они практически не понимают концепцию балансировки: сосредоточены исключительно на реализации эквити конкретной руки и эксплуатации слабостей оппонента.
Проблема с блефами
ИИ очень плохо справляются с этим аспектом игры. То, что выглядит как блеф, при более внимательном разборе часто оказывается следствием неверного понимания собственной руки или ситуации. ИИ активно контбетят флоп, но очень редко продолжают давление на следующих улицах, а в их рассуждениях почти нет шагов, в которых они системно выделяли бы лучших «кандидатов» для блефа.
Быстрый вывод: даже лучшие модели пока не конкуренты среднему регуляру. Самая слабая из них, LLAMA 4.0, показала катастрофический результат и столь же плохо выступила бы и в микролимитных играх с реальными людьми, не имея ни теоретической базы, ни адекватной адаптивной стратегии. Прочитать детальный разбор раздачи №537 с рассуждениями ИИ и комментариями эксперта можно в следующей части.
Хотите поделиться своим мнением или оставить комментарий?
Написать