AI, Kalt Pluribus, beseiret poker profesjonell Darren Elias, som holder rekorden for de fleste World Poker Tour titler, Og Chris «Jesus» Ferguson, vinner av seks World Series Of Poker events. Hver pro spilte separat 5000 hender poker mot fem kopier Av Pluribus.

I et annet eksperiment som involverte 13 proffer, som alle har vunnet mer enn $1 million ved å spille poker, Spilte Pluribus fem proffer om gangen for totalt 10 000 hender og kom igjen seirende ut.

» Pluribus oppnådde overmenneskelig ytelse på multi-player poker, som er en anerkjent milepæl i kunstig intelligens og i spillteori som har vært åpen i flere tiår,» Sa Tuomas Sandholm, Angel Jordan Professor I Datavitenskap, som utviklet Pluribus med Noam Brown, som fullfører Sin Ph. D. i Carnegie Mellons Datavitenskapsavdeling som forsker Ved Facebook AI. «Hittil har superhuman ai milepæler i strategisk resonnement vært begrenset til to-parti konkurranse. Evnen til å slå fem andre spillere i et så komplisert spill åpner nye muligheter for Å bruke AI til å løse et bredt spekter av virkelige problemer.»

«Å Spille et seks-spiller spill i stedet for head-to-head krever grunnleggende endringer i HVORDAN AI utvikler sin spillstrategi,» Sa Brown, som ble Med I Facebook AI i fjor. «Vi er opptatt av ytelsen og tror at Noen Av Pluribus’ spillstrategier kan til og med endre måten proffene spiller spillet på.»

Pluribus’ algoritmer skapte noen overraskende funksjoner i sin strategi. For eksempel unngår de fleste menneskelige spillere «donk betting» – det vil si å avslutte en runde med en samtale, men deretter starte neste runde med en innsats. Det er sett på som et svakt trekk som vanligvis ikke gir strategisk mening. Men Pluribus plasserte donk-spill langt oftere enn de profesjonelle det beseiret.

annonse

«dens største styrke er dens evne til å bruke blandede strategier,» Sa Elias forrige uke da Han forberedte Seg til 2019 World Series Of Poker main event. «Det er det samme som mennesker prøver å gjøre. Det er et spørsmål om henrettelse for mennesker – å gjøre dette på en helt tilfeldig måte og å gjøre det konsekvent. De fleste kan bare ikke. »

Pluribus registrerte en solid seier med statistisk signifikans, noe som er spesielt imponerende gitt motstanden, Sa Elias. «Boten spilte ikke bare mot noen midt i veien proffene . Det spilte noen av de beste spillerne i verden.»

Michael «Gags» Gagliano, som har tjent nesten $2 millioner i karriereinntekter, konkurrerte også Mot Pluribus.

» det var utrolig fascinerende å få spille mot pokerboten og se noen av strategiene den valgte», sa Gagliano. «Det var flere spill som mennesker rett og slett ikke gjør i det hele tatt, spesielt knyttet til innsatsstørrelsen. Bots / AI er en viktig del av utviklingen av poker, og det var fantastisk å ha førstehånds erfaring i dette store skrittet mot fremtiden.»

Sandholm har ledet et forskerteam som studerer datamaskinpoker i mer enn 16 år. Han og Brown utviklet Tidligere Libratus, som for to år siden slo fire pokerproffer som spilte en kombinert 120 000 hender med heads-up No-limit Texas hold ‘ em, en to-spiller versjon av spillet.

annonse

Spill som sjakk og Go har lenge tjent som milepæler FOR AI forskning. I disse spillene kjenner alle spillerne statusen til spillebrettet og alle brikkene. Men poker er en større utfordring fordi det er et ufullstendig informasjonsspill; spillere kan ikke være sikre på hvilke kort som er i spill og motstandere kan og vil bløffe. Det gjør DET både en tøffere AI-utfordring og mer relevant for mange virkelige problemer som involverer flere parter og manglende informasjon.

Alle Ai-Ene som viste overmenneskelige ferdigheter på tospillerspill, gjorde det ved å tilnærme det som kalles En Nash-likevekt. Oppkalt etter Den avdøde Carnegie Mellon alumnus Og Nobelprisvinner John Forbes Nash Jr., Er En nash likevekt et par strategier (en per spiller) der ingen av spillerne kan dra nytte av å endre strategi så lenge den andre spillerens strategi forblir den samme. SELV OM ais strategi garanterer bare et resultat ikke verre enn et slips, kommer AI seirende hvis motstanderen gjør feilberegninger og ikke kan opprettholde likevekten.

i et spill med mer enn to spillere, kan det å spille En nash-likevekt være en tapende strategi. Så Pluribus dispenserer med teoretiske garantier for suksess og utvikler strategier som likevel gjør det mulig å konsekvent utvise motstandere.

Pluribus beregner først en» blåkopi » – strategi ved å spille seks kopier av seg selv, noe som er tilstrekkelig for den første budrunden. Fra det tidspunktet Gjør Pluribus et mer detaljert søk av mulige trekk i en finere kornet abstraksjon av spill. Det ser fremover flere trekk som det gjør, men krever ikke å se fremover helt til slutten av spillet, noe som ville være beregningsmessig uoverkommelig. Begrenset-lookahead søk er en standard tilnærming i perfekt-informasjon spill, men er ekstremt utfordrende i ufullkommen-informasjon spill. En ny søkealgoritme med begrenset lookahead er det viktigste gjennombruddet Som gjorde Det Mulig For Pluribus å oppnå overmenneskelig multi-player poker.

Spesifikt er søket en ufullkommen-informasjon – spill løse av en begrenset-lookahead subgame. PÅ bladene av det underspillet vurderer AI fem mulige fortsettelsesstrategier hver motstander og selv kan vedta for resten av spillet. Antallet mulige fortsettelsesstrategier er langt større, men forskerne fant at deres algoritme bare trenger å vurdere fem fortsettelsesstrategier per spiller på hvert blad for å beregne en sterk, balansert overordnet strategi.

Pluribus søker også å være uforutsigbar. For eksempel vil spill være fornuftig hvis AI holdt den beste mulige hånden, men HVIS AI bare satser når den har den beste hånden, vil motstanderne raskt ta på seg. Så pluribus beregner hvordan Det ville handle med hver mulig hånd det kunne holde og beregner deretter en strategi som er balansert på tvers av alle disse mulighetene.

selv om poker er et utrolig komplisert spill, Gjorde Pluribus effektiv bruk av beregning. AIs som har oppnådd de siste milepæler i spill har brukt et stort antall servere og / eller Gårder Av Gpuer; Libratus brukte rundt 15 millioner kjernetimer for å utvikle sine strategier, og under live-spill brukte 1400 CPU-kjerner. Pluribus beregnet sin blueprint-strategi på åtte dager med bare 12 400 kjernetimer og brukte bare 28 kjerner under live-spill.

Legg igjen en kommentar

Din e-postadresse vil ikke bli publisert.