Pluribusと呼ばれるAIは、ほとんどのワールドポーカーツアータイトルの記録を保持しているポーカープロのDarren Eliasと、六つのワールドシリーズのポーカーイベントの勝者であるChris”Jesus”Fergusonを破った。 各プロは別々にPluribusの五つのコピーに対してポーカーの5,000ハンドを果たしました。

13人のプロを含む別の実験では、すべてが1万ドル以上のポーカーを獲得しており、Pluribusは合計10,000ハンドで一度に五つのプロをプレイし、再び勝利した。

Facebook AIの研究科学者としてカーネギーメロン大学のコンピュータサイエンス部門で博士号を取得しているNoam BrownとともにPluribusを開発したAngel Jordanコンピュータサイエンス教授のTuomas Sandholmは、”Pluribusはマルチプレイヤーポーカーで超人的なパフォーマンスを達成しました。 “これまでのところ、戦略的推論における超人的AIのマイルストーンは、二者の競争に限定されていました。 このような複雑なゲームで他の5人のプレイヤーを倒す能力は、さまざまな現実世界の問題を解決するためにAIを使用する新しい機会を開きます。昨年Facebook AIに参加したBrown氏は、”

“頭から頭までではなく、六つのプレイヤーゲームをプレイするには、AIがプレイ戦略をどのように開発するかに根本的な変更が必 “我々はそのパフォーマンスに大喜びしており、Pluribusのプレイ戦略のいくつかは、プロがゲームをプレイする方法を変えるかもしれないと信じています。”

Pluribusのアルゴリズムは、その戦略にいくつかの驚くべき機能を作成しました。 例えば、ほとんどの人間のプレイヤーは”ドンクベッティング”を避けます-つまり、コールで1ラウンドを終了しますが、ベットで次のラウンドを開始します。 それは通常戦略的な意味をなさない弱い動きとして見られています。 しかし、Pluribusは、それが敗北した専門家よりもはるかに頻繁にdonkベットを置きました。

“その主な強みは、混合戦略を使用する能力です」とElias氏は先週、2019World Series of Pokerメインイベントの準備をしていたと述べました。 「それは人間がやろうとしているのと同じことです。 それは人間のための実行の問題です-これを完全にランダムな方法で行い、一貫して行うことです。 ほとんどの人はできません。”

Pluribusは統計的有意性を持つ堅実な勝利を記録しましたが、これはその反対を考えると特に印象的です、とEliasは言いました。 “ボットは、道路のプロのいくつかの真ん中と対戦していませんでした。 それは世界で最高の選手の何人かを演じていました。”

マイケル”ギャグ”ガグリアーノは、キャリア収入でほぼearned2万ドルを獲得している、また、Pluribusと競った。

“ポーカーボットと対戦し、それが選んだ戦略のいくつかを見ることは信じられないほど魅力的でした”とGagliano氏は述べています。 “人間は単に全く作っていないいくつかの演劇がありました,特にその賭けのサイジングに関連します. ボット/AIはポーカーの進化において重要な部分であり、将来に向けたこの大きなステップで最初の手の経験を持っていることは驚くべきことでした。”

Sandholmは、16年以上にわたってコンピュータポーカーを研究する研究チームを率いてきました。 彼とブラウンは以前にLibratusを開発し、二年前に決定的にヘッドアップノーリミットテキサスホールデム、ゲームの二人のプレイヤーバージョンの組み合わせ120,000手を再生する四つのポーカーのプロを破った。

広告

チェスや囲碁などのゲームは、長い間AI研究のマイルストーンとして役立ってきました。 これらのゲームでは、すべてのプレイヤーがプレイボードの状態とすべてのピースを知っています。 それは不完全な情報ゲームであるため、しかし、ポーカーは大きな挑戦です。 これは、より厳しいAIの課題であり、複数の関係者や情報の欠落を含む多くの現実世界の問題により関連性が高くなります。

ツープレイヤーゲームで超人的スキルを表示したAiはすべて、ナッシュ均衡と呼ばれるものを近似することによってそうしました。 カーネギーメロン大学の卒業生でノーベル賞受賞者のジョン-フォーブス-ナッシュ-ジュニアにちなんで命名されたナッシュ均衡は、他のプレイヤーの戦略が同じままである限り、どちらのプレイヤーも戦略を変更することから利益を得ることができない戦略のペア(プレイヤーごとに一つ)である。 AIの戦略は同点よりも悪くない結果しか保証しませんが、相手が誤算をして平衡を維持できない場合、AIは勝利します。

二人以上のプレイヤーがいるゲームでは、ナッシュ均衡をプレイすることは負ける戦略になる可能性があります。 だからPluribusは成功の理論的な保証を省略し、それにもかかわらず、一貫して相手を上回ることを可能にする戦略を開発しています。

Pluribusはまず、ベッティングの最初のラウンドに十分である自分自身の六つのコピーを再生することにより、”青写真”戦略を計算します。 その時点から、Pluribusはゲームのより細かい抽象化の中で可能な動きのより詳細な検索を行います。 それはそうするようにいくつかの動きを先に見ていますが、計算上法外なゲームの終わりまで先を見る必要はありません。 限定先読み検索は、完璧な情報ゲームでは標準的なアプローチですが、不完全な情報ゲームでは非常に困難です。 新しい限定先読み検索アルゴリズムは、Pluribusが超人的なマルチプレイヤーポーカーを達成することを可能にした主な画期的なものです。

具体的には、検索は限られた先読みサブゲームの不完全な情報ゲーム解決です。 そのサブゲームの葉で、AIは各対戦相手とそれ自身がゲームの残りの部分に採用するかもしれない五つの可能な継続戦略を考慮します。 可能な継続戦略の数ははるかに大きいが、研究者らは、彼らのアルゴリズムは、強力でバランスのとれた全体的な戦略を計算するために、各リーフでプレ

Pluribusも予測不可能であることを目指しています。 たとえば、AIが可能な限り最高のハンドを保持している場合、賭けは意味がありますが、AIが最高のハンドを持っている場合にのみ賭けた場合、対戦相手はすぐにキャッチされます。 だからPluribusは、それが保持できるすべての可能な手でどのように行動するかを計算し、それらの可能性のすべてにわたってバランスのとれた戦略を計

ポーカーは非常に複雑なゲームですが、Pluribusは計算を効率的に使用しました。 ゲームで最近のマイルストーンを達成したaiは、多数のサーバーおよび/またはGpuのファームを使用しています; Libratusは約1,500万コア時間を使って戦略を策定し、ライブゲームプレイ中には1,400CPUコアを使用しました。 Pluribusはわずか12,400コア時間を使用して8日間でblueprint戦略を計算し、ライブプレイ中はわずか28コアを使用しました。

コメントを残す

メールアドレスが公開されることはありません。