Новость

Хэдз-ап против бота: люди пока сильнее

GipsyTeam

13.05.2015 16:55 5435 26 комментариев

8 мая в казино Rivers в Питтсбурге завершился марафонский матч по дубликатному покеру между четырьмя регулярами HU NLHE во главе с Дугласом Полком и ботом Клодико, разработанным в университете Карнеги – Меллон. О правилах и первых днях поединка мы писали в конце апреля.

Каков результат матча? Оказывается, тут возможны варианты...

Представители человечества – Дуглас Полк, Донг Ким, Бьорн Ли и Джейсон Лес – играя на лимите 50-100 со стеками 200 бб, суммарно выиграли у компьютера 732,713 фишек, показав винрейт 9.16 бб/100. По меркам игроков в покер, результат близок к разгромному, учитывая количество сыгранных рук (80,000) и «зеркальность» матчей, игравшихся по дубликатному покеру – то есть каждой из команд сдавали одинаковые карманные и общие карты. Именно поэтому не стоит так уж сильно акцентировать внимание на том, кто из участников команды людей выступил лучше, а кто – хуже, ведь итоги отдельных матчей с Клодико как раз можно объяснить везением и невезением. Но стоит отметить, что больше половины выигрыша принёс людям Бьорн Ли – 529,033. Дуглас Полк выиграл 213,671, Донг Ким – 70,491. В минусе остался Джейсон Лес, проигравший 80,482. Каждый из игроков получил одинаковую оплату своего труда – $25,000. Спонсорами выступили Microsoft Research и Rivers Casino.

Однако учёные настаивали на 95%-ном доверительном интервале для окончательного определения победителя. Как выяснилось, чтобы соблюсти это условие, профессионалы должны были выиграть с винрейтом 10.35 бб/100. И хотя их фактический результат соответствует 92%-ному доверительному интервалу, это позволило руководителю проекта профессору Туомасу Сандхольму провозгласить «статистическую ничью».

По заверению другого участника проекта, Ноама Брауна, профессионалы согласились с этой формулировкой. «Мы обсудили её с игроками, прежде чем сделать заявление для прессы, и они были удовлетворены. В заголовке сообщалось, что профессионалы завершили состязание с преимуществом по фишкам, а в подзаголовке уточнялось, что этот результат нельзя считать статистически значимым».

Другой программист, Сэм Ганцфрид, активнее других следивший за дискуссиями на форуме 2+2 (http://forumserver.twoplustwo.com/29/news-views-gossip/wcgrider-dong-kim-jason-les-bjorn-li-play-against-new-hu-bot-1526750/), придерживается особого мнения: «Хочу уточнить, что я не имею отношения к применяемому другими сотрудниками университета Карнеги – Меллон термину “статистическая ничья”. Я считаю, что команда людей одержала очевидную победу, которая является статистически значимой при доверительном интервале 90%, а не 95%».

Ему возразил Браун: «95% – это не случайно выбранное число, а широко применяемый в научных исследованиях стандарт. Лично я избегал бы термина “статистическая ничья”, предпочитая говорить о недостаточной достоверности результата с точки зрения статистики, но не я писал этот пресс-релиз.

Ещё до начала поединка мы понимали, что попасть в доверительный интервал будет непросто, однако вполне возможно. Эксперименты показали, что необходимый для этого винрейт будет находиться в районе 8.5 бб/100. Однако точное значение мог установить только матч, ведь оно зависит от того, как именно будут играть профессионалы. Они, как и бот, играли очень агрессивно и очень по-разному, и это, вероятно, заметно увеличило дисперсию.

Если бы мы отказались от дележа банка по эквити в олл-инах, необходимый для статистической победы винрейт повысился бы до 10.72 бб/100, а винрейт команды профессионалов, что интересно, упал бы до 7.0 бб/100.

Думаю, мы сделали всё возможное, чтобы добиться значимого результата: пригласили четырёх игроков, дали им играть в дубликатный покер, делили банки по эквити в олл-инах, наиграли максимально приемлемую для людей дистанцию. Возможно, в следующий раз можно пригласить больше игроков, дать возможность мультитейблинга, испробовать другие идеи, направленные на снижение дисперсии.

Мы выбрали для соревнования стек в 200 бб, потому что с таким стеком боту играть сложнее, чем с более коротким, из-за более разветвлённого дерева решений. Этим же объясняется приглашение игроков мирового класса. Мы не хотели лёгкой жизни для Клодико.

Также скажу, что преимущество людей, на мой взгляд, было более существенным, чем показывает статистика. Они выявили очевидные недостатки бота, которые нельзя исправить, добавив ему память или увеличив мощность процессора. Для меня как исследователя это отличная новость, потому что от нас требуются новые идеи по работе над трудностями безлимитного холдема. Нам ждёт очень напряжённая пара лет!»

Для иллюстрации дисперсии Браун предоставил результаты отдельных сессий:

«Я бы не решился продолжать ставить на людей в таких матчах, – сказал профессор компьютерных технологий университета Альберты Майкл Боулинг, ведущий разработчик сильнейшего бота по лимитному холдему. – На мой взгляд, для победы над лучшими игроками мира компьютеру понадобится от одного до трёх лет. До сих пор мы просто не сознавали, насколько сильно успели к ним приблизиться».

Дуглас Полк о матче

Я выбрался из рабства и могу, наконец, ответить на вопросы.

Для начала отвечу на самый популярный – о статистической ничьей. Я много беседовал со специалистами университета, мне нравится их команда. Как я понимаю, в научной работе они обязаны быть предельно точными. 95%-ный доверительный интервал использовался в других матчах. Они не имеют права утверждать, что поражение бота было статистически значимым, ведь это была бы ложь.

Однако кое-какие вопросы у меня остались. Может быть, требование к статистической значимости итогового результата было напечатано мелким шрифтом, но по ходу матча я считал, что мы просто должны играть в свою игру, а результат определит плюс или минус. Если мы выиграем – отлично, если проиграем – снимем шляпы перед командой CMU. О том, что для настоящей победы мы должны показать определённый винрейт, я узнал всего за пару дней до окончания поединка, когда уже был на грани помешательства из-за объема игры.

Я согласен с тем, что наша победа не может быть признана значимой при доверительном интервале 95%, но меня не покидает ощущение, что при другом исходе о «статистической ничьей» никто бы не вспомнил. Например, в твиттере факультета информатики CMU написали: «Дуглас Полк на пресс-конференции сказал, что его впечатлил винрейт Клодико». (Лол, винрейт!) Конечно, я предпочитаю хорошо отзываться об оппоненте, и мне понравились многие элементы игры бота. Но в его стратегии были и серьёзные проблемы. Твит удалили по моей просьбе.

Добавлю, что на заключительном отрезке огромную роль сыграла усталость. У меня практически не было времени анализировать игру, и были дни, когда я начинал адски тильтовать из-за того, как рутинно и скучно шёл игровой процесс. Члены команды Клодико делали вид, что не замечают этого... Ещё один момент: хотя в конце игрового дня нам предоставляли историю раздач, но сама игра шла без статистики, и я в первый раз за пять или шесть лет играл без HUD'а, вслепую.

На мой взгляд, правильный заголовок был бы таким: «Люди побеждают компьютер с 92%-ной значимостью». Если посмотреть на заголовки большинства СМИ, почти никто не упоминает о ничьей (кроме принадлежащей Microsoft NBC).

В общем, я своё дело сделал и покидаю поле битвы с честью. Команда людей победила, и я не хочу ломать копья из-за частностей.

Меня часто спрашивают, соглашусь ли я повторить эксперимент. Мой ответ – скорее всего, нет. Это оказалось слишком тяжёлым испытанием, не говоря уже о том, как пострадало моё ожидание на других фронтах. Не то чтобы $210 в час это плохая оплата, просто само занятие не выходит в число наиболее эффективных вариантов моего времяпрепровождения, учитывая, как серьёзно я работаю.

Недостатки и особенности Клодико

WCGRider выделил в качестве достоинства бота нечеловеческий уровень агрессии и особенно необычную манеру овербетить даже маленькие банки. Неоднократно Клодико ставил на ривере олл-ин порядка 19,000, чтобы забрать банк 700-800 фишек.

Большой пост написал пользователь 2+2 TimTamBiscuit. По его мнению, не следует считать, что Клодико силён во всех аспектах игры только потому, что он хорошо играл отдельные раздачи. Нужно систематически тестировать бота в различных ситуациях. Многие из раздач матча показали, что Клодико в некоторых ситуациях играет не по GTO (т. е. его игру можно легко эксплойтить). В частности, в одной из раздач (полностью она не приводится) Полк запушил 9-9, и машина ошибочно выкинула А4о, несмотря на то, что имела достаточные шансы банка для автоматического колла. По мнению читателя, знаменитые 11-кратные овербеты Сlaudico также являются следствием какой-то программной ошибки, связанной с недостаточной вариативностью сайзингов. Бот плохо боролся с мини-донками на флопах, и люди использовали этот лик на протяжении всего матча. Клодико постоянно попадал в ловушки Дага и Бьорна, ставя плохие олл-ины на ривере...

Объяснил TimTam и результаты игроков команды людей. Дуглас Полк, по его мнению, полностью утратил мотивацию играть серьёзно примерно на середине дистанции. Только Бьорн провёл весь матч в полную силу. Джейсон Лес закончил в маленьком минусе, но на второй половине дистанции показал винрейт 21 бб/100, что, возможно, говорит о запоздалом понимании типичных слабостей соперника.

Ещё один программный лик Клодико обнаружил пользователь 2+2, удивившийся тому, что машина заколлировала небольшую ставку на ривере с 5-хай. Сэм Ганцфрид подтвердил, что бот интерпретировал ставки ниже определённого процента банка как чек и не имел в этом случае опции фолда. Проблему оперативно устранили по ходу матча.

Речь WCGRider'а на закрытии матча

Некоторые выдержки:

Мы часто говорим о балансе. На мой взгляд, силу Клодико можно определить именно этим словом: «баланс». Играя в покер, нужно сбалансировать влияние многих факторов. То, чем мы на самом деле занимаемся во время игры – решаем проблемы. Каждый раз, когда у нас рука средней силы и противник применяет агрессивную линию, у нас проблемы. В этом матче таких проблем было множество. Мы должны были решать эти проблемы с помощью творческой и умной игры. Но мы – люди, и наши возможности ограничены. Мы можем размышлять о стратегии, думать, с какими категориями рук мы применяем ту или иную стратегию, какие руки добавляем для баланса. Но в своем балансе мы не можем быть совершенны. В отличие от Клодико.
Программисты также хорошо делали свою работу. Поправки, которые они вносили в программу по ходу матча, привели к тому, что борьба во второй половине матча шла гораздо более упорная, чем в первой.
Наконец, хочу сказать об искючительной агрессивности Клодико. Бот постоянно заставлял нас принимать трудные решения. Люди так не играют – мы слишком привязаны к деньгам. Мы не любим рисковать 19,250 долларами, чтобы выиграть 700 долларов. Это чисто компьютерный приём. Я всегда старался обогащать свой арсенал приёмами, которые не использует большинство игроков, но Клодико поднялся на новый уровень.

Если говорить о недостатках Клодико, я уверен, многие из них были исправлены по ходу матча или будут исправлены в ближайшее время. В частности, во многих больших банках мы, можно сказать, получали от бота подарки. Программисты сказали мне, что если такие ситуации повторятся, на столь щедрую оплату наших олл-инов мы можем не рассчитывать. Второй вопрос касается card removal. Как нам кажется, влияние card removal на решения бота можно было запрограммировать точнее. Но не буду углубляться в терминологию...

Винрейт нашей команды против Клодико составил 9 бб/100. Я считаю, что люди имели преимущество над машиной, но в целом матч получился достаточно упорным. Для сравнения, винрейты большинства регуляров на моих лимитах выше. Играя с Клодико, мы все чувствовали, что это очень сильный соперник...

Матч в полном объеме и с открытыми картами транслировался на соответствующих каналах Twitch.TV:

Клодико – Дуглас Полк http://www.twitch.tv/claudico_vs_dougpolk/profile/past_broadcasts
Клодико – Донг Ким http://www.twitch.tv/claudico_vs_dongkim/profile/past_broadcasts
Клодико – Бьорн Ли http://www.twitch.tv/claudico_vs_bjornli/profile/past_broadcasts
Клодико – Джейсон Лес http://www.twitch.tv/claudico_vs_jasonles/profile/past_broadcasts

Следите за обновлениями GipsyTeam в телеграме, инстаграме, вконтакте, на YouTube, на фейсбуке, и в твиттере.

18.11.2014 13:51

Временный колодец Дугласа Полка: ответы

6334 64 комментария

16.10.2013 17:00

Рейтинг регуляров от WCGRider

39 комментариев

24.11.2011 13:31

Боты в покере: настоящее и будущее

9235 113 комментариев

Лучшие комментарии

BadSeed
Профиль

GIPSYTEAM

На сайте: 14 лет

1,092
15,249

Каждая секунда нашей жизни это начало конца.

13.05.2015 17:33

Показать в ленте

35
shrekpoker91
Профиль

На сайте: 12 лет

80
9,216

Я думаю 9бб на 100 это они еще на отъебись играли,если бы ученые отвечали бабками на блайндах хотя бы 100/200$ то ребята показали бы винрейт побольше

13.05.2015 20:01

Показать в ленте

34
asperatus
Профиль

sad fish

На сайте: 11 лет

183
710

"Ещё один программный лик Клодико обнаружил пользователь 2+2, удивившийся тому, что машина заколлировала небольшую ставку на ривере с 5-хай"

а что ИИ уже и миксликнуть нельзя.

13.05.2015 17:46

Показать в ленте

30
iskander
Профиль

GIPSYTEAM

На сайте: 14 лет

1,359
19,386

Сообщение от Dimitrij
Где скачать этого Клодико?
на торрентах

13.05.2015 19:11

Показать в ленте

29
serdebronce
Профиль

На сайте: 12 лет

4
361

Как человек связанный с it проектами и машинным обучением я до сих пор не могу поверить, что Полк и ко согласились так дешево дать разработчикам столь качественную структурированную выборку. Если они так будут продолжать, то в хедзапе компьютер их обыграет очень быстро, думаю за пару лет.

13.05.2015 18:13

Показать в ленте

16

26 комментариев

kaldorey
Профиль

На сайте: 12 лет

7
98

эта новость даже на ленте раньше появилась.

Ссылка скопирована
13.05.2015 17:06

Ответить Цитировать

-2
BeStupidLikeMe
Профиль

Новичок

На сайте: 11 лет

140
11,354

А шлем то когда сифея нагнёт?

Ссылка скопирована
13.05.2015 17:12

Ответить Цитировать

8
sect0id
Профиль

На сайте: 14 лет

200
37

знаю ребят которые делают НЛ бота

они говорят что исправление таких ошибок, как делал этот бот, займет еще много времени

вообще не парьтесь, еще лет 5-10 боты точно не побьют нл покер

Ссылка скопирована
13.05.2015 17:19

Ответить Цитировать

0
Flommaster
Профиль

На сайте: 11 лет

63
451

Это начало конца.

Ссылка скопирована
13.05.2015 17:22

Ответить Цитировать

1
BadSeed
Профиль

GIPSYTEAM

На сайте: 14 лет

1,092
15,249

Каждая секунда нашей жизни это начало конца.

Ссылка скопирована
13.05.2015 17:33

Ответить Цитировать

35
FroZer
Профиль

Pro-друг GipsyTeam

На сайте: 14 лет

442
35,772

суммарно выиграли у компьютера 732,713 фишки, показав винрейт 9.16 бб/100. По меркам игроков в покер, результат близок к разгромному, учитывая количество сыгранных рук (80,000) и «зеркальность» матчей, игравшихся по дубликатному покеру – то есть каждой из команд сдавали одинаковые карманные и общие карты
Осмелюсь не согласиться на счет "разгромный". На каком-нибудь нл100 победитель бы ничего не выиграл (или остался в минусе? точно не знаю) с учетом рейка.
Может я недооценивал возможности ботов на нынешнем этапе, но кажется результат очень крутой. 200бб стеки однозначно усложняли игру+столько явных ликов было выявлено.
Круто)

Ссылка скопирована
13.05.2015 17:35

Ответить Цитировать

8
asperatus
Профиль

sad fish

На сайте: 11 лет

183
710

"Ещё один программный лик Клодико обнаружил пользователь 2+2, удивившийся тому, что машина заколлировала небольшую ставку на ривере с 5-хай"

а что ИИ уже и миксликнуть нельзя.

Ссылка скопирована
13.05.2015 17:46

Ответить Цитировать

30
just_pro
Профиль

NeverNothingToRegret

На сайте: 10 лет

75
735

Сообщение от sect0id
вообще не парьтесь, еще лет 5-10 боты точно не побьют нл покер
Заметь что это только хэдзап!

Ссылка скопирована
13.05.2015 17:48

Ответить Цитировать

5
serdebronce
Профиль

На сайте: 12 лет

4
361

Как человек связанный с it проектами и машинным обучением я до сих пор не могу поверить, что Полк и ко согласились так дешево дать разработчикам столь качественную структурированную выборку. Если они так будут продолжать, то в хедзапе компьютер их обыграет очень быстро, думаю за пару лет.

Ссылка скопирована
13.05.2015 18:13

Ответить Цитировать

16
JannyMayHL
Профиль

На сайте: 9 лет

6
0

Одно слово:ботаны.
Лучший игрок в мире не удосужился прочитать контракт и вообще заранее хоть как-то подумать, что же его ждет.
И да Доуг, $210 в час, это хреновая почасовку для лучшего игрока в мире. Мог или попросить уже больше или по гриндить онлайн в конце концов, тебя же не забанили на старзах, как одного из участников.

Ссылка скопирована
13.05.2015 18:29

Ответить Цитировать

1
val
Профиль

На сайте: 13 лет

52
1,495

25000$ и небольшая слава - цена за уроки лучшего игрока в покер. Надо брать!

Ссылка скопирована
13.05.2015 18:32

Ответить Цитировать

2
Dimitrij
Профиль

На сайте: 14 лет

218
1,881

Где скачать этого Клодико?

Ссылка скопирована
13.05.2015 19:01

Ответить Цитировать

4
iskander
Профиль

GIPSYTEAM

На сайте: 14 лет

1,359
19,386

Сообщение от Dimitrij
Где скачать этого Клодико?
на торрентах

Ссылка скопирована
13.05.2015 19:11

Ответить Цитировать

29
EV0
Профиль

РЕГРЕАЦИОННЫЙ ИГРОК

На сайте: 12 лет

538
9,489

Райдер играл вполсилы, а потом узнал, что надо было показать больший винрейт, эго взыграло и начались кудахтанья.

Ссылка скопирована
13.05.2015 19:45

Ответить Цитировать

-2
shrekpoker91
Профиль

На сайте: 12 лет

80
9,216

Я думаю 9бб на 100 это они еще на отъебись играли,если бы ученые отвечали бабками на блайндах хотя бы 100/200$ то ребята показали бы винрейт побольше

Ссылка скопирована
13.05.2015 20:01

Ответить Цитировать

34
Kuzjayo
Профиль

На сайте: 11 лет

4
1,224

Сообщение от FroZer
Осмелюсь не согласиться на счет "разгромный". На каком-нибудь нл100 победитель бы ничего не выиграл (или остался в минусе? точно не знаю) с учетом рейка.

Видимо это чистый профит.

Ссылка скопирована
13.05.2015 20:29

Ответить Цитировать

-2
re-spectrez
Профиль

На сайте: 13 лет

165
1,956

Добавлю, что на заключительном отрезке огромную роль сыграла усталость. У меня практически не было времени анализировать игру, и были дни, когда я начинал адски тильтовать из-за того, как рутинно и скучно шёл игровой процесс. Члены команды Клодико делали вид, что не замечают этого... Ещё один момент: хотя в конце игрового дня нам предоставляли историю раздач, но сама игра шла без статистики, и я в первый раз за пять или шесть лет играл без HUD'а, вслепую.
Вот-вот. Боту отдых не нужен. И 10бб\100 это против лучших из лучших. Бот и рейк месить может неплохо, если его качнуть немного. И я даже боюсь подумать, что владельцы румов запустят своих ботов - рейк себе, профит себе. А потом из боте еще и легенду 18 летнего паренька сделают =) Кто мешает? =)

Ссылка скопирована
13.05.2015 20:31

Ответить Цитировать

0
2GARIN89
Профиль

На сайте: 11 лет

39
1,550

Сообщение от shrekpoker91
Я думаю 9бб на 100 это они еще на отъебись играли,если бы ученые отвечали бабками на блайндах хотя бы 100/200$ то ребята показали бы винрейт побольше
Если бы они отвечали деньгами, Трутеллер их бы уже обнулил, хули там того универа...

Ссылка скопирована
13.05.2015 20:37

Ответить Цитировать

13
Maddy
Профиль

На сайте: 13 лет

71
2,559

Даг вообще молодцом держался, я часто наблюдал. На заключительном этапе, когда были зачитаны некоторые вопросы зрителей - шутил, улыбался. А рядом с ним сидел представитель университета, которого вечно передергивало, отвлекался куда-то, на шутки не реагировал совсем. Как будто на бота свой дом вгрузил.
А сейчас еще понеслось "статистической ничьей".. Все прекрасно понимают, что если бы играли в нормальном графике, с серьезным разбором и с ХУДом, и если бы люди не рассказывали разработчикам о ликах, там бы было на 10бб, а все 30.

Ссылка скопирована
13.05.2015 21:21

Ответить Цитировать

8
Cash_Magnetic
Профиль

На сайте: 13 лет

183
2,421

Мы не любим рисковать 19,250 долларами, чтобы выиграть 700 долларов
Почему-то вспомнился Фил Лаак :D
https://www.youtube.com/watch?v=FTu5m-3Rvoo

Ссылка скопирована
14.05.2015 01:39

Ответить Цитировать

0
darkj
Профиль

На сайте: 14 лет

145
2,415

хз как люди сильнее, если ещё 3 года назад на этом же форуме были вот такие темы например
https://matt.gipsyteam.ru/blog/3217-doktor-u-nas-problema/cpage/8#/cpage=1

Ссылка скопирована
14.05.2015 03:06

Ответить Цитировать

1
Wingood
Профиль

На сайте: 10 лет

10
179

Здесь тоже WCGRider за Донг Кима играл?

Ссылка скопирована
14.05.2015 04:46

Ответить Цитировать

3
Ardel
Профиль

На сайте: 14 лет

58
0

Насколько я понял, бот много проиграл паре Д.Полк - Б.Ли, но выиграл у зеркальной пары Д.Ким - Д.Лес плюс 10К. Кажется это тоже результат.

Ссылка скопирована
14.05.2015 12:07

Ответить Цитировать

0
taniya445
Профиль

На сайте: 8 лет

1
1

dddddddd

Ссылка скопирована
14.05.2015 21:20

Ответить Цитировать

0
halva1
Профиль

На сайте: 14 лет

70
1,245

Сообщение от shrekpoker91
Я думаю 9бб на 100 это они еще на отъебись играли,если бы ученые отвечали бабками на блайндах хотя бы 100/200$ то ребята показали бы винрейт побольше
если бы там отвечали 100-200 посмотрел бы я как ребята коллировали овербеты в 19000 за банк 700)))

Ссылка скопирована
14.05.2015 21:58

Ответить Цитировать

1

Войти или Зарегистрироваться

Зачем регистрироваться на GipsyTeam?

Вы сможете оставлять комментарии, оценивать посты, участвовать в дискуссиях и повышать свой уровень игры.
Если вы предпочитаете четырехцветную колоду и хотите отключить анимацию аватаров, эти возможности будут в настройках профиля.
Вам станут доступны закладки, бекинг и другие удобные инструменты сайта.
На каждой странице будет видно, где появились новые посты и комментарии.
Если вы зарегистрированы в покер-румах через GipsyTeam, вы получите статистику рейка, бонусные очки для покупок в магазине, эксклюзивные акции и расширенную поддержку.