Новость

Эксперимент Facebook AI: Плурибус побеждает профессионалов, включая Линуса Лёлигера, в 6-макс

GipsyTeam

12.07.2019 16:41 25513 63 комментария

Эксперимент Facebook AI: Плурибус побеждает профессионалов, включая Линуса Лёлигера, в 6-макс

Новое и, видимо, последнее слово в покорении безлимитного холдема программами университета Карнеги – Меллона: бот Плурибус показал 5 бб/100 на коротком столе против пяти профессиональных игроков.

TL/DR

Учёные, которые ранее сделали Либратуса для NLHE HU, научили новую программу бить 6-макс. Плурибус учился покеру, восемь дней играя сам с собой на сервере c 64-ядерным процессором, после чего состоялся эксперимент. В ходе тестов Плурибус обыграл группу профессионалов, среди которых были Линус Лёлигер, Ник Петранджело, Даррен Элиас, Грег Мерсон и др. Программа работала не на суперкомпьютере, а на двух 14-ядерных процессорах и с памятью 128 Гб.

Победа над людьми в 6-макс NLHE – более впечатляющее достижение программирования, чем победы в Starcraft 2, Dota 2, го и шахматы.

Детали алгоритма публиковаться не будут, чтобы не навредить индустрии онлайн-покера. Авторы программы закончили эксперименты с покерным ИИ – для них эта игра пройдена.

Менее суток назад на сайте журнала Science и в блоге отдела искусственного интеллекта компании Facebook появились статьи Ноама Брауна и Туомаса Сандхольма, посвящённые завершению эксперимента по созданию программы, которая обыграет профессиональных игроков в безлимитный холдем за 6-макс-столом.

Эти фамилии нам хорошо знакомы – именно эти джентльмены работали над покерными проектами университета Карнеги – Меллона. Путь ИИ в покере начался с успехов в лимитном холдеме один на один – самой простой для машины игры ввиду отсутствия вариативности в ставках. Затем исследователи покорили сияющую вершину безлимитного холдема один на один. Хэдз-ап (если он без рейка) – игра с нулевой суммой, стратегическая задача была ясной, но бесконечное разнообразие сайзингов добавляло сложности. Тем не менее Либратус одолел группу ведущих профессионалов. Мы об этом тоже писали.

6-макс считался камнем преткновения – увеличение количества играющих за столом несоизмеримо усложняет вычисления традиционными методами. Кроме того, при выходе за пределы хэдз-апа возможны ситуации, при которых игра по равновесию Нэша может быть минусовой, что делает работу программистов ещё менее тривиальной. Поэтому победа новой программы Брауна-Сандхольма, которую назвали Плурибус, стала новым и, видимо, последним в покере рубежом. Впечатляет, что люди были обыграны с использованием куда меньших вычислительных ресурсов, чем в предыдущем проекте.

Работа над Плурибусом началась после того, как Ноам Браун получил работу в Facebook в подразделении по искусственному интеллекту. Туомас Сандхольм по-прежнему работает в университете Карнеги – Меллона, однако успел основать две компании по ИИ. Strategic Machine помогает усиливать ИИ в компьютерных играх и оптимизировать цены на товары на конкурентных рынках. Чем конкретно занимается другая компания, Strategic Robot, не раскрывается, но в прошлом году она заключила контракт с Пентагоном на $10 млн.

На стадии разработки активное участие принимал Даррен Элиас, звёздный МТТ-игрок и победитель четырёх турниров WPT, что является рекордом этой серии.

Сначала я играл против пяти ботов – каждый день, по много тысяч раздач на четырёх столах. Программа усиливалась очень быстро и буквально за несколько дней прошла путь от посредственности до игрока мирового класса. Прогресс был по-настоящему пугающим!

После этого авторы программы решили провести основной тест. Соревнования между Плурибусом и профессиональными игроками проходили в двух форматах. В одном из них пять Плурибусов играли против одного профессионального игрока. Таких экспериментов было три. В них приняли участие Даррен Элиас, бывший совладелец Full Tilt Poker, победитель главного турнира Мировой серии Крис Фергюсон, а также не имеющий достижений и титулов человек, имя которого при рассказе о событии редко упоминают непокерные СМИ – Линус Лёлигер. (Любителей тайн заинтересует тот факт, что об участии Линуса в этом формате говорится только в блоге на Facebook, но не в статье в Science.)

Второй формат – пять профессионалов играют за одним столом с одним Плурибусом. В этом эксперименте участвовали 13 человек: Линус Лёлигер, топовый МТТшник и инструктор Upswing Ник Петранджело, бывший мидстейкс-гриндер и чемпион главного турнира Мировой серии Грег Мерсон, а также достаточно известные (преимущественно турнирной игрой, но не только и не все) Сет Дэвис, Майкл Гальяно, Тони Грегг, Джейсон Лес, Донг Ким, Шон Руане, Тревор Сэведж, Джейкоб Тул, Даниэль МакОлэй и Джимми Чоу. Каждый игрок получал псевдоним, который просили скрывать от остальных участников эксперимента, компьютер играл под своим именем. Каждый день играли от трёх до восьми часов, в среднем часа четыре. Рассадка выбиралась в начале дня случайным образом, выбор соперников специально не рандомизировали, а руководствовались желанием и возможностями игроков.

Финансовая мотивация тоже присутствовала. Каждый игрок получал не меньше 40 центов за раздачу, но оплата росла в зависимости от результата (максимум – $1.6 за раздачу). В ходе обоих экспериментов было сыграно 10,000 раздач. Игра шла с блайндами 50/100 и стеком 10,000, одинаковым в каждой раздаче.

В первом эксперименте слабее других выступил Даррен Элиас, проигравший 4.02 бб/100 (стандартное отклонение 2.19 бб/100), Крис Фергюсон проиграл 2.52 бб/100 (стандартное отклонение 2.02). В статье в журнале Science эти результаты объединяют, что даёт Плурибусу винрейт 3.27 бб/100 со стандартным отклонением 1.49 бб/100 и обеспечивает общую победу с доверительным интервалом 95%.

В статье в блоге AI Facebook есть нюанс – третий участник эксперимента, LLinusLLove, показал винрейт -0.5 бб/100 со стандартным отклонением 1 бб/100. Возможно, объединение этого результата с двумя другими вело к какой-нибудь «статистической ничьей», так что в Science обошлись без Линуса. В любом случае, респект таким парням!

Во втором эксперименте Плурибус выиграл 4.77 бб/100 при стандартном отклонении 2.5 бб/100. Вероятность того, что он играет в плюс, превысила доверительный интервал 95%. Если бы игра шла на NL10k, Плурибус выигрывал бы около $1,000 в час.

Изменение винрейта машины по ходу второго эксперимента

Винрейты людей, участвовавших во втором эксперименте (без фамилий)

В расчётах винрейтов использовался метод AIVAT , с помощью которого сглаживалось влияние везения при сдаче карт, что позволяло получать достоверные винрейты на дистанциях, в десять раз меньше привычных для покерных профессионалов.

Любители технических подробностей могут разобраться в тонкостях идей программистов самостоятельно (см. список источников в конце стати). Сообщается, что авторы использовали алгоритм минимизации потерь (Monte Carlo counterfactual regret minimization) и сократили глубину перебора – раздачи при анализе считались не до конца, а до некоего горизонта, чтобы снизить требовательность к вычислительной мощности. Благодаря этому обучение Плурибуса на одном из коммерческих облачных серверов обошлось бы всего в $150, а против людей он играл хоть и на очень мощном, но вполне обычном компьютере с двухъядерным процессором и 128 Гб памяти. Для сравнения, решение задач, которые ставились в предыдущих экспериментах команды, требовали вычислительной мощности стоимостью в несколько миллионов долларов.

Особо отмечается, что алгоритм не будет опубликован, чтобы не усложнять жизнь индустрии онлайн-покера.

При обучении Плурибус превзошёл среднего игрока в покер за 7 часов, превзошёл элитный уровень через 20 часов и... окончательно отказался от лимпов со свободных позиций через 60 часов.

В статье в блоге AI Facebook приводится также четырёхминутное видео с некоторыми раздачами Плурибуса против пяти человек. Среди них – пуш 97 бб на флопе с мелким флеш-дро, после того, как соперник на первой позиции ставит контбет в трёх оппонентов; рэйз и 4-бет с As 7s с тремя улицами на постфлопе; три чека без позиции с топ-парой с третьим кикером – флоп чек-колл, тёрн чек-чек, ривер чек-рэйз на полстека. Все раздачи эксперимента можно найти по ссылкам в конце этой статьи.

Победа Плурибуса выделяется и на фоне других громких побед компьютера над человеком. Шахматы и го – игры с полной информацией для двух человек, прохождение которых упиралось только в глубину перебора и применение проходящих методов, когда достаточно глубокий перебор становился невозможным. В Starcraft 2 и Dota 2 специально разработанные программы не демонстрировали ничего особенного в стратегическом плане, но в боевых столкновениях управляли своими юнитами на сверхчеловеческом уровне, что гарантировало общую победу, если научиться исключать заведомо невыгодные стычки. Если бы в покерных олл-инах требовался микроконтроль, компьютер выигрывал бы у людей 100% выставлений Ax Kx в Qx Qx и выработать плюсовую стратегию стало бы совсем просто.

В целом ни для любителей, ни для профессионалов ничего особенного, наверное, не произошло. И до Плурибуса большинство играющих в покер остались бы в минусе против сильного бота. Теперь в зоне риска оказались и небожители самых высоких лимитов. Однако игра бота всё равно резко отличается от игры человека, и задача выявления искусственного интеллекта по базам раздач относительно тривиальна, нужны лишь желание рума и компетентная служба безопасности.

Цитаты

Даррен Элиас:

– Бот не просто обыграл группу средних профессионалов. Среди его соперников были некоторые из тех, кого считают лучшими в мире.

Сет Дэвис:

– Интереснее всего было бороться со смешанной стратегией на префлопе: в отличие от людей, Плурибус использовал разные сайзинги рэйза. Необходимость подстраиваться под нелинейные диапазоны опенрэйза делала эти матчи особенно интересными.

Тревор Сэведж:

– Игра с ботом стала для меня большим и очень полезным опытом. Бот играет в очень солидный покер на здоровой стратегической основе. Он часто заставлял меня принимать сложные решения, когда у меня была пограничная рука, и прекрасно добирал с лучшими руками. Я бы хотел поиграть с ним ещё раз!

Крис Фергюсон:

– Плурибус – очень трудный соперник. Ему почти невозможно положить руку. Он великолепно умеет тонко добирать на ривере.

Джейсон Лес:

– Плурибус невероятно хорошо блефует, намного эффективнее, чем любой человек. Именно поэтому с ним так тяжело. Ты регулярно оказываешься в ситуации, когда он делает большие ставки, и при этом знаешь, что он вполне может блефовать в любой момент.

Джимми Чоу:

– Когда я играю против бота, всегда стараюсь подсмотреть у него какие-то идеи. Люди склонны чрезмерно упрощать игру, ведь иначе выучить и успешно применять стратегию невозможно. Боту не нужно искать лёгких путей, и его варианты решения для каждой ситуации не только невероятно сбалансированные, но и исключительно сложные.

Шон Руане:

– В этой игре успех очень часто зависит от дисциплины мышления, концентрации, выносливости. Часами противостоять компьютеру, который не сталкивается с подобными проблемами в принципе – очень тяжелая задача. Технические находки и глубина игры бота, конечно, заслуживают похвал, но перед началом испытания сильнее всего я недооценивал именно его безупречную стабильность.

Майкл Гальяно:

– Плурибус применял некоторые приёмы, которые люди почти не используют, особенно касательно бетсайзинга. Стратегические приёмы от ИИ ускоряют эволюцию покера. Было приятно оказаться на переднем крае.

Дополнительные материалы

Статья на сайте TechCrunch

Основная статья в Science

Приложения к статье – постановка эксперимента и все раздачи с участием бота и его соперников

Ответы Ноама Брауна на Hacker News

Следите за обновлениями GipsyTeam в телеграме, инстаграме, вконтакте, на YouTube, на фейсбуке, и в твиттере.

13.05.2015 16:55

Хэдз-ап против бота: люди пока сильнее

26 комментариев

16.02.2017 12:46

Секреты Либратуса

7485 34 комментария

19.10.2017 06:48

Где пропадал Фил Айви: обзор новостей

9 комментариев

Лучшие комментарии

smotrov911
Профиль

Команда А

На сайте: 8 лет

13
1,170

Они бы так не радовались, если бы посадили его за 6макс на NL2.

12.07.2019 16:53

Показать в ленте

128
ПодЖабрамиРыб
Профиль

На сайте: 12 лет

103
5,387

кто считает, что разъебал бы этот никчемный кусок кода - ставь лайк!

12.07.2019 17:26

Показать в ленте

40
MakeMeBelive
Профиль

На сайте: 14 лет

177
2,797

12.07.2019 17:15

Показать в ленте

28
swordfish
Профиль

GIPSYTEAM

На сайте: 14 лет

2,079
22,314

Сообщение от sandr1x
Жаль, что статью писали второпях и не отдали Бэдсиду.
Всё расписывать лень, просто перепроверьте.
Статью писал Бэдсид - ты что-то совсем плохо читаешь наши руки (видимо, не бот). Написать такой текст меньше чем через сутки после выхода всех материалов - это большое достижение. Там огромный объем, и ты вроде в курсе, судя по многозначительному комментарию. Если появилось желание помочь, нет проблем - странно лениться в такой тревожной ситуации для индустрии.

12.07.2019 19:08

Показать в ленте

27
alexandrelop
Профиль

На сайте: 10 лет

85
654

3-4 бб против МТТ-шников,
Спасибо, поржал)))
Р-разорвали

12.07.2019 18:10

Показать в ленте

25
Minicooper
Профиль

На сайте: 8 лет

3
100

Неделя вэлью рейзов на пол стэка -открыта!))

12.07.2019 17:19

Показать в ленте

19

63 комментария

smotrov911
Профиль

Команда А

На сайте: 8 лет

13
1,170

Они бы так не радовались, если бы посадили его за 6макс на NL2.

Ссылка скопирована
12.07.2019 16:53

Ответить Цитировать

128
kotvasilio
Профиль

На сайте: 7 лет

23
579

Стоп, так лимпить со свободных позиций минусово?

Ссылка скопирована
12.07.2019 16:54

Ответить Цитировать

6
MakeMeBelive
Профиль

На сайте: 14 лет

177
2,797

Ссылка скопирована
12.07.2019 17:15

Ответить Цитировать

28
4skyman
Профиль

На сайте: 11 лет

24
693

Куплю Плурибуса дорого!

Ссылка скопирована
12.07.2019 17:19

Ответить Цитировать

7
Minicooper
Профиль

На сайте: 8 лет

3
100

Неделя вэлью рейзов на пол стэка -открыта!))

Ссылка скопирована
12.07.2019 17:19

Ответить Цитировать

19
ПодЖабрамиРыб
Профиль

На сайте: 12 лет

103
5,387

кто считает, что разъебал бы этот никчемный кусок кода - ставь лайк!

Ссылка скопирована
12.07.2019 17:26

Ответить Цитировать

40
sandr1x
Профиль

7 7

Horsepower

На сайте: 12 лет

177
52,602

Жаль, что статью писали второпях и не отдали Бэдсиду.

Всё расписывать лень, просто перепроверьте.

Ссылка скопирована
12.07.2019 17:33

Ответить Цитировать

1
alexandrelop
Профиль

На сайте: 10 лет

85
654

3-4 бб против МТТ-шников,
Спасибо, поржал)))
Р-разорвали

Ссылка скопирована
12.07.2019 18:10

Ответить Цитировать

25
dark_light
Профиль

На сайте: 13 лет

98
1,390

Ну в этот раз точно уже - покеру осталось 2-3 года...

Ссылка скопирована
12.07.2019 18:56

Ответить Цитировать

7
ArtemYakovlev
Профиль

На сайте: 14 лет

105
7,887

расстрелять !

Ссылка скопирована
12.07.2019 18:57

Ответить Цитировать

0
swordfish
Профиль

GIPSYTEAM

На сайте: 14 лет

2,079
22,314

Сообщение от sandr1x
Жаль, что статью писали второпях и не отдали Бэдсиду.
Всё расписывать лень, просто перепроверьте.
Статью писал Бэдсид - ты что-то совсем плохо читаешь наши руки (видимо, не бот). Написать такой текст меньше чем через сутки после выхода всех материалов - это большое достижение. Там огромный объем, и ты вроде в курсе, судя по многозначительному комментарию. Если появилось желание помочь, нет проблем - странно лениться в такой тревожной ситуации для индустрии.

Ссылка скопирована
12.07.2019 19:08

Ответить Цитировать

27
Mickey_Mouse
Профиль

На сайте: 6 лет

3
0

Сообщение от smotrov911
Они бы так не радовались, если бы посадили его за 6макс на NL2.
или в спины по доллару

Ссылка скопирована
12.07.2019 19:30

Ответить Цитировать

0
lotob1ngo
Профиль

На сайте: 10 лет

41
11,815

а где ссылка на историю раздач в конце статьи? сылки на журналы, но там что-то тоже не нашел истории всех раздач

Ссылка скопирована
12.07.2019 19:32

Ответить Цитировать

3
swordfish
Профиль

GIPSYTEAM

На сайте: 14 лет

2,079
22,314

Сообщение от lotob1ngo
а где ссылка на историю раздач в конце статьи? сылки на журналы, но там что-то тоже не нашел истории всех раздач
В дополнительных материалах к статье на Science:
https://science.sciencemag.org/content/suppl/2019/07/10/science.aay2400.DC1

Ссылка скопирована
12.07.2019 19:50

Ответить Цитировать

3
Marat-Marat
Профиль

На сайте: 13 лет

24
1,225

Ссылка скопирована
12.07.2019 20:00

Ответить Цитировать

4
Kazrich
Профиль

На сайте: 4 года

18
8,176

Как я понял дистанция была 10к рук. Которая прямо скажем нихрена не значит (мб у бота апстрик был)
Считаю что для реального эксперимента этого бота нужно выкинуть на ПС. Чтобы люди могли смотреть статистику на него. Разбирать его базу. И миллион рук. Вот если тут разьебет, значит победил. Потом разумеется вернуть всем пострадавшим бабки.

Ссылка скопирована
12.07.2019 20:00

Ответить Цитировать

1
holden1989
Профиль

На сайте: 13 лет

103
7,163

и с помощью какой проги открыть эти файлы? лично у меня они в формате блокнота отображаются
https://gyazo.com/f352d9af12e45e8bdcfca8430766545d

Ссылка скопирована
12.07.2019 20:02

Ответить Цитировать

2
Legaste
Профиль

На сайте: 13 лет

18
991

holden1989, файлик readme все разжевывает

Ссылка скопирована
12.07.2019 20:10

Ответить Цитировать

0
art28
Профиль

На сайте: 14 лет

261
1,471

Kazrich, надо было на самом деле хотя бы по 50 тысяч рук сыграть в каждом эксперименте.

Ссылка скопирована
12.07.2019 20:15

Ответить Цитировать

3
manner_elk
Профиль

На сайте: 14 лет

14
1,097

"Любителей тайн заинтересует тот факт, что об участии Линуса в этом формате говорится только в блоге на Facebook, но не в статье в Science" Хм, разве могут в блоге на ФБ написать вранье? Ну нет, бред какой-то, такого никогда не было. Гораздо вероятнее, что подтасовка будет в статье в рецензируемом журнале.

Ссылка скопирована
12.07.2019 20:15

Ответить Цитировать

2
waterbee174
Профиль

На сайте: 12 лет

28
1,259

holden1989, читать)

STATE:149:r211ffffr975f:KhJd|JsJh|Td9d|3d6s|2c8h|Ks5s:-50|261|-211|0|0|0:Pluribus|MrBlue|MrPink|Bill|Eddie|Joe

MrPink "UTG" KhJd raise 211, MrBlue "BB" JsJh re-raise 975, fold, fold, fold, fold

пс. программист-покерист за вечер обработает такую хистори, но в паблике не скоро еще появится))

Ссылка скопирована
12.07.2019 20:20

Ответить Цитировать

0
CRuDeLiSsS
Профиль

На сайте: 5 лет

17
1,132

Збс конечно МТТшников и прочих на бой в 6макс выставлять, небось еще и ГСЧ подкрутили Главное, чтобы заголовки были красивее, и разработки свои подороже потом загнать, а то что многие любители, не разобравшись, побегут выводить свои банкроллы это уже не их проблема.

Ссылка скопирована
12.07.2019 20:32

Ответить Цитировать

2
SimpleR
Профиль

На сайте: 14 лет

97
2,410

Сообщение от waterbee174
holden1989, читать)

STATE:149:r211ffffr975f:KhJd|JsJh|Td9d|3d6s|2c8h|Ks5s:-50|261|-211|0|0|0:Pluribus|MrBlue|MrPink|Bill|Eddie|Joe

MrPink "UTG" KhJd raise 211, MrBlue "BB" JsJh re-raise 975, fold, fold, fold, fold

пс. программист-покерист за вечер обработает такую хистори, но в паблике не скоро еще появится))
Только MrPink открылся с Td9d на UTG, насколько я понимаю. А рука KhJd на SB отправилась в пас.

Ссылка скопирована
12.07.2019 20:34

Ответить Цитировать

0
waterbee174
Профиль

На сайте: 12 лет

28
1,259

SimpleR, не похоже. думаешь вальтов тут сбросили?

Ссылка скопирована
12.07.2019 20:36

Ответить Цитировать

0
Noooob25
Профиль

Весна идет!

На сайте: 11 лет

59
17,718

чето не нашел раздач по ссылке, может еще статью с описанием конкретных раздач? и комментариями топчиков например

Ссылка скопирована
12.07.2019 20:37

Ответить Цитировать

10

Войти или Зарегистрироваться

Зачем регистрироваться на GipsyTeam?

Вы сможете оставлять комментарии, оценивать посты, участвовать в дискуссиях и повышать свой уровень игры.
Если вы предпочитаете четырехцветную колоду и хотите отключить анимацию аватаров, эти возможности будут в настройках профиля.
Вам станут доступны закладки, бекинг и другие удобные инструменты сайта.
На каждой странице будет видно, где появились новые посты и комментарии.
Если вы зарегистрированы в покер-румах через GipsyTeam, вы получите статистику рейка, бонусные очки для покупок в магазине, эксклюзивные акции и расширенную поддержку.