พอดคาสต์: เกมสอน AI ให้เรียนรู้ด้วยตัวเองอย่างไร

ตั้งแต่หมากรุกไปจนถึงอันตรายไปจนถึงอีสปอร์ต AI กำลังเอาชนะมนุษย์ในเกมของตัวเองมากขึ้นเรื่อยๆ แต่นั่นก็ไม่เคยเป็นเป้าหมายสูงสุด ในตอนแรกของฤดูกาลที่ 3 ของ In Machines We Trust เราเจาะลึกถึงความสัมพันธ์ทางชีวภาพระหว่างเกมและ AI เราพบกับผู้เล่นรายใหญ่ในอวกาศ และเราเดินทางไปยังอาร์เคด
ในตอนนี้เราได้พบกับ:
- Julian Togelius รองศาสตราจารย์ ภาควิชาวิทยาการคอมพิวเตอร์และวิศวกรรมศาสตร์ มหาวิทยาลัยนิวยอร์ก
Will Douglas-Heaven บรรณาธิการอาวุโสด้าน AI ของ MIT Technology Review
David Silver หัวหน้านักวิทยาศาสตร์วิจัยที่ DeepMind ศาสตราจารย์แห่ง University College London David Fahri หัวหน้านักวิจัย Open AIเพื่อให้ตอนนี้เรายัง พูดคุยกับ Natasha Regan นักคณิตศาสตร์ประกันภัยที่ RPC Tyche, Chess WIM และผู้เขียนร่วมของ “Game Changer”
เสียงจาก:
อันตราย 2011-02:ความท้าทายของ IBM: https://archive.org/details/Jeopardy.2011.02.The.IBM.Challenge/Jeopardy.2011.02.16.The.IBM.Challenge.Day.3.HDTV.XviD-FQM .avi
- Garry Kasparov VS Deep Blue 1997 เกมที่ 6 (Kasparov ลาออก): https://www.youtube.com/watch?v=EsMk1Nbcs-s
Qbert ระดับ 1 การเล่นเกม: https://www.youtube.com/watch?v=c9yxL2D94Sc การโจมตีอย่าง AlphaZero: พลังของราชา: https://www.youtube.com/watch?v=c0JK5Fa3AqI
DOTA 2 – ช่วงเวลาที่ชนะเกมทั้งหมดในประวัติศาสตร์นานาชาติ (TI1-TI9: https://www.youtube.com/watch?v=RJcNbuASl-Y Jeopardy ประกาศ Watson Challenge: https://youtu.be/isFR6Wfll-Q
ตอนนี้รายงานโดย Jennifer Strong และ Will Douglas Heaven และผลิตโดย Anthony Green, Emma Cillekens และ Karen Hao เรียบเรียงโดย Niall Firth, Michael Reilly และ Mat Honan วิศวกรผสมของเราคือ Garret Lang การออกแบบเสียงและดนตรีโดย Jacob Gorski.
การถอดเสียงฉบับเต็ม:
เทรเบค:
วันนี้เราจะประกาศการแข่งขัน Jeopardy ไม่เหมือนที่เราเคยนำเสนอมาก่อน
เจนนิเฟอร์: และอาจจะไม่แปลกใจเลย… เนื่องจากการเล่น Jeopardy เป็น สิ่งของ มันถูกออกแบบมาเพื่อทำ…วัตสันก็ดี ดีจริงๆ.
[SOT: Montage of Watson Jeopardy answers.]เทรเบค: “วัตสัน.”
วัตสัน: “ อิสตันบูลคืออะไร”
เทรเบค: “วัตสัน”
วัตสัน: “พาร์เลเมนต์คืออะไร”
เทรเบค:
“ถูกต้อง.”
เทรเบค: “วัตสัน.”
วัตสัน: “กรีกโบราณคืออะไร” เทรเบค: “วัตสัน กลับมาหาคุณ”
เจนนิเฟอร์: หลังจากสามคืนของสิ่งนี้ วัตสันชนะ… เอาชนะสองผู้เล่นที่ดีที่สุดในประวัติศาสตร์ของเกมโชว์… จากหมากรุก สู่อันตรายต่อ e-sports… AI กำลังเอาชนะมนุษย์ในเกมของตัวเอง… (พูดเลย)… แต่นั่นก็ไม่ใช่เป้าหมายสูงสุด นักวิจัยกำลังพยายามสร้างระบบอัจฉริยะที่มีประโยชน์และวัตถุประสงค์ทั่วไปมากกว่าที่เรามี
เดวิด ซิลเวอร์: หากสมองของมนุษย์สามารถแก้งานต่าง ๆ ได้ทุกประเภท เราสามารถสร้างโปรแกรมที่สามารถทำสิ่งเดียวกันได้ ?
{เสียงเกม}
Karen Hao: ในทางที่เกมมีความสามารถ AI ที่เกินจริงเล็กน้อยเพราะ..
จูเลียน โทเกลิอุส: เกมเป็นส่วนหนึ่งของ AI ตั้งแต่เริ่มใช้ AI หรือชอบตั้งแต่เริ่มมีแนวคิดเกี่ยวกับ AI
เจนนิเฟอร์: Julian Togelius เป็นศาสตราจารย์และนักวิทยาศาสตร์คอมพิวเตอร์ที่อาศัยอยู่ในนิวยอร์กซิตี้… จูเลียน โทเกลิอุส: ฉันทำงาน เกี่ยวกับ AI เพื่อทำให้เกมดีขึ้น และเกมเพื่อทำให้ AI ดีขึ้นด้วย
เจนนิเฟอร์: เขาให้บทเรียนประวัติศาสตร์แก่ฉันเกี่ยวกับความสัมพันธ์ระหว่างเกมกับ AI นี้… และด้วยเหตุใดเขาจึงสามารถทำมันได้ในขณะที่เล่นวิดีโอเกมที่เขาเคยร่วมงานด้วย
จูเลียน โทเกลิอุส: ฉันทำงานโดยเฉพาะกับวิดีโอเกมและวิดีโอเกมสมัยใหม่เพราะว่าหมากรุกและโกจริงๆ และทั้งหมดนั้น… ฉันหมายความว่าเราเสร็จแล้ว แบบว่า [laughter] อย่ากีดกันคนที่ชอบเล่นหมากรุกและชอบเล่นโกหรือโปกเกอร์เพื่อท้าทายจิตใจ ไม่เป็นไร. แต่คุณรู้ไหม มีความเป็นไปได้อีกมากมาย ความท้าทายที่น่าสนใจอีกมากมายในเกมอื่น ๆ
เจนนิเฟอร์: เข้ามาในวงการนี้ได้ยังไง
- จูเลียน โทเกลิอุส: กระดาษนั้นส่วนใหญ่เป็นเรื่องเกี่ยวกับเกม เป็นเรื่องเกี่ยวกับเกมเลียนแบบ ซึ่งตอนนี้เรียกว่าการทดสอบทัวริง ซึ่งคุณพยายามบอกว่าคนที่คุณสนทนาด้วยโดยพื้นฐานแล้ว ไม่ได้เรียกว่าการแชทในช่วงอายุ 50 ปี ไม่ว่าคนที่คุณกำลังพูดถึงด้วยข้อความจะเป็นคอมพิวเตอร์หรือ มนุษย์. มันเกี่ยวกับหมากรุกด้วย เนื่องจากหมากรุกกลายเป็นจุดสนใจหลักของการวิจัยปัญญาประดิษฐ์ตั้งแต่แรกเริ่ม
และ… เรื่องสนุก? โปรแกรมเล่นหมากรุกครั้งแรกถูกเขียนขึ้น ก่อน มีคอมพิวเตอร์ให้ใช้งานด้วย ทัวริงเล่นในปี 1950…โดยใช้อัลกอริทึม
ทำงานบนกระดาษ
(มันไม่ได้ผลดีมาก.)
แต่ผู้คนยังคงพัฒนางานวิจัยนี้มานานหลายทศวรรษ .
จากนั้นในปี 1997 คอมพิวเตอร์ Deep Blue ของ IBM เอาชนะ Garry Kasparov… แชมป์หมากรุกโลกที่ครองราชย์
[SOT] – Deep Blue เอาชนะ Garry Kasparov ในเกม Six ผ่าน YouTube ผู้วิจารณ์ 2: ตอนนี้เรามีอะไรหายไปบนกระดานหมากรุกที่ Kasparov เห็นหรือไม่? เขาไม่ดู.. เขาดูรังเกียจจริงๆ.ผู้แสดงความคิดเห็น 1:
ว้าว!
ผู้วิจารณ์ 2:
สีน้ำเงินเข้ม! Kasparov หลังจากย้าย C4 ได้ลาออก!
จูเลียน โทเกลิอุส: และนี่เป็นเหตุการณ์ทางปัญญาครั้งใหญ่ที่ผู้คนกำลังคิด โอเค อะไรตอนนี้? เราเพิ่งแก้ปัญหาปัญญาประดิษฐ์หรือไม่? และปรากฎว่าคุณไม่ได้ทำเพราะโปรแกรมเล่นหมากรุกนี้ไม่สามารถเล่นหมากฮอสได้หากไม่มีการตั้งโปรแกรมใหม่ที่สำคัญ มันเล่นโกไม่ได้ ไม่สามารถเล่นได้หลายอย่าง ยิ่งไปกว่านั้น มันผูกเชือกรองเท้าไม่ได้ ไม่สามารถปรุงมักกะโรนีได้ ไม่สามารถเขียนกลอนรักได้ ออกไปซื้อหนังสือพิมพ์ไม่ได้ ไม่สามารถทำสิ่งเหล่านี้ที่มนุษย์ทำตลอดเวลาได้ มันทำได้เพียงสิ่งเดียวเท่านั้น มันสามารถเล่นหมากรุก มันเก่งมาก แต่มันเล่นได้แค่หมากรุกเท่านั้น
จูเลียน โทเกลิอุส: จะเกิดอะไรขึ้นถ้าฉันทำสิ่งนี้ แล้วถ้าฝ่ายตรงข้ามของฉันทำการย้ายนี้ แล้วถ้าฉันทำการย้ายนี้ล่ะ ดังนั้นเราจึงสร้างต้นไม้แห่งความเป็นไปได้และตอบโต้ความเป็นไปได้และคำนวณจากสิ่งนั้น จริงๆแล้วมันซับซ้อนกว่านั้นมาก แต่นั่นคือหัวใจของสิ่งที่ทำ และผู้คนก็มองว่า มันไม่เหมือนกับว่าสมองของเราทำงานอย่างไร ฉันหมายถึง เราไม่รู้จริงๆ ว่าสมองของเราทำงานอย่างไร แต่ อืม ไม่ว่าพวกมันจะทำอะไร มันไม่ใช่สิ่งนี้ [SOT]
เจนนิเฟอร์: แต่มันไม่ได้ใช้เพื่อเล่นเกมกับมนุษย์เท่านั้น… AI ปรากฏขึ้นในเกมในทุกรูปแบบ โดยเฉพาะเพื่อให้น่าสนใจและท้าทายยิ่งขึ้น
ตัวอย่างเช่น…. AI เปลี่ยนส่วนต่างๆ ของวิดีโอเกม… เพื่อให้มันแตกต่างทุกครั้งที่เราเล่น ซึ่งเป็นกรณีนี้มาตั้งแต่ช่วงปี 19-80
จูเลียน โทเกลิอุส: และหลักการนี้ เช่น การสร้างสิ่งใหม่ๆ อยู่เสมอ …และทุกครั้งที่คุณเล่นเกม เกมใหม่… ได้อยู่รอดในเกมต่างๆ มากมาย ตัวอย่างเช่น ซีรีส์เกม Diablo อิงจากเกมดังกล่าว หรือซีรีส์เกมกลยุทธ์ Civilization ทุกครั้งที่คุณเล่น คุณจะมีโลกใหม่ที่สมบูรณ์และนั่นคือหัวใจหลักของเกม มันจะไม่เหมือนเดิมถ้าคุณไม่ทำอย่างนั้น
เจนนิเฟอร์: อีกเหตุผลหนึ่งที่ทำเช่นนี้ก็เพราะพื้นที่เก็บข้อมูล… และเขาบอกว่าเกมที่ชื่อว่า Elite กลายเป็นก้าวสำคัญ… เมื่อมันถูกทำให้ใช้งานได้สำหรับคอมพิวเตอร์ส่วนบุคคล รวมถึง Commodore 64
จูเลียน โทเกลิอุส: มันอาจจะไม่พอดีกับหน่วยความจำในคอมพิวเตอร์เครื่องนี้ ดังนั้นรุ่นหนึ่งมีระบบดาวที่แตกต่างกัน 4,096 ระบบ ทีนี้ ถ้าคุณมีหน่วยความจำเพียง 64,000 ไบต์ และลองนึกภาพ ว่ามันน้อยแค่ไหน นั่นคือหนึ่งในล้านของคอมพิวเตอร์ที่คุณสามารถซื้อได้ในวันนี้ ดังนั้น พวกเขาจึงต้องสร้างระบบดาวขึ้นใหม่ทุกครั้งที่คุณไปถึงที่นั่น โดยทั่วไปสร้างมันขึ้นมาจากศูนย์
เจนนิเฟอร์:
และตอนนี้ก็ยังเป็นอย่างนั้น แน่นอน เรามีพื้นที่เก็บข้อมูลมากขึ้น แต่เกมก็มีขนาดใหญ่กว่าและซับซ้อนกว่ามาก
จูเลียน โทเกลิอุส: เกม No Man’s Sky ที่ออกมาในปี 2016 แต่พวกเขายังคงอัปเดตอยู่เสมอ – มันน่าประทับใจขึ้นเรื่อยๆ มีดาวเคราะห์อยู่ในนั้นมากกว่าที่คุณจะเคยไปสักครั้งในชีวิต ทว่ามันก็เข้ากับคอมพิวเตอร์ของคุณได้พอดี เพราะพวกมันถูกสร้างขึ้นใหม่ทุกครั้งที่คุณเห็นพวกมัน
เจนนิเฟอร์: ในขณะเดียวกันนักวิจัยยังคงสร้างเกมสำหรับเล่นเกม AI ต่อไป… และ Togelius กล่าวว่าหนึ่งในความท้าทายต่อไปในพื้นที่นั้นคือให้พวกเขาเล่นเกมหลายเกมพร้อมกัน… เพราะการทำงานหลายอย่างพร้อมกันเป็นสิ่งที่มนุษย์ทำได้ดี …แต่นั่นยังไม่เป็นกรณีสำหรับระบบเหล่านี้
แล้วเราจะเอาอะไรจากสภาพแวดล้อมที่มีโครงสร้างสูงเหล่านี้ซึ่งมีความสามารถในการคาดเดาได้มากมาย… ไปสู่สิ่งที่ใกล้เคียงกับชีวิตจริงซึ่งยุ่งเหยิงและวุ่นวายและไม่ คาดเดาได้เลย
สำหรับเขาและนักวิจัยคนอื่นๆ…? เราเล่นเกมมากขึ้น
จูเลียน โทเกลิอุส: หากเรามีระบบที่สามารถเล่นได้อย่างน่าเชื่อถือ เช่น มีความชำนาญบ้าง เกมหลักร้อยในรายชื่อเกมคอมพิวเตอร์อันดับต้นๆ เช่น Steam หรือ AppStore หรืออะไรก็ตาม จะมีบางอย่างที่คล้ายกับปัญญาทั่วไป
[beat / music]แต่เรายังผสมผสานเกมและ AI ในรูปแบบอื่นๆ…เช่นการช่วยเราในการฝึกอบรม ข้อมูล.
ไม่กี่ปีที่ผ่านมา ฉันได้พบกับทีมงานที่พรินซ์ตัน พยายามสร้างป้ายหยุดให้เป็นที่รู้จักมากขึ้นสำหรับรถยนต์ที่ขับด้วยตนเอง… โดยใช้เกม Grand Theft Auto
ฟังดูแปลกนะ… มันใช้งานได้จริงเมื่อคุณพิจารณาว่าคนขับจะเจอป้ายหยุดรถในโลกแห่งความเป็นจริงได้อย่างไร… ไม่ว่าจะเป็นไม้เท้าบนพื้น… ห้อยอยู่ ในอากาศ… หรือทาสีบนทางเท้า… และเราพบพวกมันในทุกชนิดของแสงและสภาพอากาศ… บางครั้งถูกบดบังด้วยกิ่งไม้บางส่วน… หรือความมืดของคืน.
นักวิจัยสามารถไปหาตัวอย่างของป้ายหยุดทั้งหมดเหล่านี้… หรือวิดีโอเกมก็สามารถสร้างตัวอย่างได้ไม่รู้จบ
นอกจากนี้ เรายังใช้เกมเพื่อให้เข้าใจถึงขั้นตอนวิธีต่างๆ ได้ดีขึ้น ตัดสินใจ.
[Start to bring in sounds from Arcade. *Frogger theme music and gameplay begins, toggle moves*]เจนนิเฟอร์: เราอยู่ที่อาร์เคดสุดคลาสสิกในบอสตัน… เพราะมีวิดีโอเกมเก่า ๆ หลายเกมที่คุ้นเคย ฝึกระบบ AI
Will Douglas-Heaven: สวัสดี ฉันชื่อ Will Douglas-Heaven ฉันเป็นบรรณาธิการอาวุโสของ AI ที่ Technology Review… และฉันไม่สามารถเล่น Frogger ได้
Will Douglas-Heaven: Frogger เกิดขึ้นเมื่อไม่นานมานี้ในการวิจัย AI ต่างๆ ที่พวกเขาพยายามให้ AI อธิบายตัวเองและอธิบายว่ามันกำลังทำอะไรอยู่ อืม และพวกเขาสอน… พวกเขาฝึก AI ให้เล่นเกมนี้ และคุณรู้ Frogger… คุณสามารถได้ยินจากเสียงรบกวน ฉันล้มเหลวอยู่เรื่อยๆ
[*Game sounds continue*]
เจนนิเฟอร์: โดยพื้นฐานแล้ว AI เล่นเกม… และเมื่อเวลาผ่านไป มันก็จะได้ผลว่าจะประสบความสำเร็จได้อย่างไร การเคลื่อนไหวแบบสุ่มพัฒนาไปสู่กลยุทธ์ที่ซับซ้อน… แม้แต่บางอย่างที่เราไม่รู้
[Continue games sounds underneath the VO above and also into this piece of audio]Will Douglas-Heaven: พวกเขาโยน AI ไปที่เกมเก่าเหล่านี้และเพิ่งแสดงให้พวกเขาเห็นหน้าจอที่พวกเขาไม่มี ความคิดวิธีการเล่น มันเป็นแค่พิกเซลบนหน้าจอ สิ่งที่เกิดขึ้น NS เฮ้ ลองทำสิ่งต่าง ๆ และบางครั้งพวกเขาก็ระเบิด บางครั้งพวกเขาก็ยิงเรือเอเลี่ยน และใช้รางวัลเพียงประเภทเดียวที่คุณรู้ว่าพวกเขาทำบางอย่างเมื่อใด ใช่แล้ว คะแนนเพิ่มขึ้น พวกเขาค่อยๆ หาวิธีเล่นเกม และพวกเขาเปลี่ยนจากความเข้าใจ ไม่มีอะไรเลย ในหลาย ๆ กรณี การเรียงลำดับของคะแนนสูงของผู้เล่นที่เป็นมนุษย์ที่ดีที่สุด และแม้แต่ตัวอย่างเจ๋ง ๆ ที่พวกเขาพบวิธีเอาชนะเกมที่มนุษย์ไม่เคยค้นพบ
- เจนนิเฟอร์: ตัวอย่างหนึ่งมาจากเกมที่ชื่อว่า Q*Bert ซึ่งทำให้ผู้เล่นอยู่บนพีระมิดของ สี่เหลี่ยม
วิล ดักลาส-เฮเวน:
ฉันหมายถึงความคิดพื้นฐานคือคุณมีผู้ชายตัวเล็ก ๆ คนนี้ที่กระโดดลงพีระมิดจากการลงจอดบนสี่เหลี่ยม และเมื่อคุณเปลี่ยนช่องสี่เหลี่ยมทั้งหมดเป็นสีเดียวกันแล้ว คุณก็จะไปยังระดับถัดไปได้ แต่ฉันคิดว่า AI ในระดับแรก เปลี่ยนสีทั้งหมดของสี่เหลี่ยมแล้วกระโดดขึ้นและลงที่ช่องสี่เหลี่ยมแทนที่จะไปที่ระดับถัดไป และพบข้อบกพร่องบางอย่างในเกมซึ่งทำให้สามารถให้คะแนนได้ไม่สิ้นสุดในระยะเวลาอันสั้น และแม้แต่ผู้ออกแบบเกมก็แบบว่า “ฉันไม่เคยเห็นข้อผิดพลาดนั้นมาก่อน”เจนนิเฟอร์: หลังจากหยุดพัก… เราจะได้พบกับผู้บุกเบิกเบื้องหลังความก้าวหน้าครั้งสำคัญในสาขานี้ แต่ก่อนอื่น ฉันต้องการบอกคุณเกี่ยวกับกิจกรรมที่เรียกว่า CyberSecure ในเดือนพฤศจิกายน เป็นการประชุมด้านความปลอดภัยทางไซเบอร์ของ Tech Review และฉันจะอยู่ที่นั่นกับเพื่อนร่วมงาน คุณสามารถเรียนรู้เพิ่มเติมที่ Cyber Secure MIT dot com.
เราจะกลับมา… หลังจากนี้
[MIDROLL] เดวิด ซิลเวอร์: ฉันชื่อเดวิด ซิลเวอร์ ฉันทำงานเกี่ยวกับปัญญาประดิษฐ์และนำไปใช้กับเกม ฉันทำงานให้กับบริษัทที่ชื่อว่า DeepMind และเป้าหมายของเราคือการลองใช้ อืม ปัญญาประดิษฐ์เพื่อสร้างระบบที่ฉลาดบางอย่างที่อยู่ในสมองของมนุษย์
เจนนิเฟอร์: DeepMind คือ ที่เป็นศูนย์กลางของงานนี้ด้วยเกม เป็นห้องปฏิบัติการวิจัยที่เป็นส่วนหนึ่งของ Google Alphabet
เจนนิเฟอร์: เขาเป็นหัวหน้านักวิจัยที่อยู่เบื้องหลังระบบ AI ที่รู้จักกันเป็นอย่างดีซึ่งเชี่ยวชาญในการเล่นเกม… เริ่มจากเกมกระดาน (รวมถึงเกมวางแผนจีนโบราณของ Go)
เดวิด ซิลเวอร์: และมีพื้นที่ขนาดใหญ่ของเกม ซึ่งหลายเกมมีลักษณะที่สวยงามเหล่านี้ที่ทำให้เราดำดิ่งลงไปและเข้าใจจริงๆ ว่าในโลกใบเดียวที่แยกจากกันโดยไม่ต้องรับมือ ความซับซ้อนอันยิ่งใหญ่ของโลกแห่งความเป็นจริงทั้งหมดพร้อมกัน
เจนนิเฟอร์: AlphaGo เรียนรู้วิธีการเล่นเกมกระดานตามวิธีที่ผู้คนเล่น
- เดวิด ซิลเวอร์: หลังจาก AlphaGo เราพยายามที่จะก้าวไปอีกขั้นและทำอะไรที่ทั่วๆ เกมแต่หลายเกมใช้เทคโนโลยีเดียวกัน และนี่คือขั้นบันไดขนาดใหญ่ เพราะมันกำลังพยายามทำสิ่งหนึ่งที่เรา อย่างที่ผู้คนสามารถทำได้ ซึ่งแก้ปัญหาได้มากมาย โดยใช้เครื่องจักรชนิดเดียวกันภายใน
มันปลอดภัยที่จะบอกว่านักวิจัยยังคงพยายามคิดหาวิธีทำให้เกมเป็นการทดสอบในชีวิตจริง เพราะเกมมีกฎเกณฑ์ที่สามารถกำหนดได้… และไม่มีใครรู้กฎเกณฑ์ที่โลกทำงานจริงๆ
- เดวิด ซิลเวอร์: โลกนี้ช่างวุ่นวายเสียจริง คุณรู้ไหม มันมีไดนามิกที่สมบูรณ์อย่างเหลือเชื่อที่เกิดขึ้น ทุกรายละเอียดในลักษณะที่วัตถุเคลื่อนที่ไปรอบๆ วิธีที่สิ่งที่เราเห็นสัมพันธ์กับสิ่งที่เราสัมผัส มีเพียงความสมบูรณ์และความซับซ้อนที่น่าเหลือเชื่อนี้ในโลกแห่งความเป็นจริง และเราไม่สามารถหวังที่จะพูดถึงเรื่องนี้ในแบบที่ผู้คนในอดีตเคยเล่นเกม ดังนั้นสิ่งที่เราต้องการคือสิ่งที่สามารถเข้าใจโลกด้วยตัวของมันเอง ในลักษณะที่เข้าใจรูปแบบในลักษณะที่เป็นประโยชน์ต่อการตัดสินใจที่มีความหมายจริงๆ ในการช่วยให้บรรลุเป้าหมาย
เจนนิเฟอร์: โครงการล่าสุดของเขาชื่อ MuZero มันเก่งในเกมได้มากเท่ากับ AlphaZero… (รวมถึงวิดีโอเกมทั้งหมด)
…แต่ระบบนี้จะคำนวณวิธีการเล่นโดยไม่ได้รับกฎเกณฑ์ใดๆ เลย
- เดวิด ซิลเวอร์: ดังนั้นมันก็แค่ปล่อยวางจริงๆ มันสามารถเล่นเกมกับตัวเองได้ และสิ่งที่ได้รับเมื่อจบเกมคือสัญญาณว่า เฮ้ คุณชนะ หรือ เฮ้ คุณแพ้ และจากสัญญาณนั้น มันสามารถสร้างความเข้าใจในตัวของมันเองเกี่ยวกับกฎของเกมได้มากพอที่จะจินตนาการได้ว่าจะเกิดอะไรขึ้นในอนาคต.. และเมื่อมันมีความสามารถในจินตนาการถึงอนาคตได้ สามารถค้นหาและเริ่มมองไปข้างหน้าและเริ่มคิดในอนาคตและพูดว่า อ่า ตอนนี้ฉันเข้าใจแล้วว่าโลกนี้ทำงานอย่างไร ฉันสามารถเริ่มจินตนาการได้ว่าจะเกิดอะไรขึ้นถ้าฉันเล่นท่านี้หรือทำสิ่งนี้ และนั่นเป็นก้าวสำคัญที่เราต้องการจริงๆ และบางสิ่งที่เราเชื่อว่ามีความสำคัญมากในการก้าวไปข้างหน้าสำหรับอนาคตของ AI
เจนนิเฟอร์:
เขาบอกว่ามันไม่เหมือนกับเด็กทารกที่มาจับกับโลกรอบตัวมัน… อาคาร การแก้ปัญหาและทักษะความคิดสร้างสรรค์เมื่อเวลาผ่านไป
เดวิด ซิลเวอร์: ฉันคิดว่าเราได้เห็นตัวอย่างแล้วว่า ภายในโดเมนที่มีข้อจำกัด เราเห็นอัลกอริธึมที่สร้างสรรค์ตามเจตนาและวัตถุประสงค์ทั้งหมด ฉันหมายถึง ความคิดสร้างสรรค์คืออะไร นอกจากความสามารถในการค้นพบแนวคิดใหม่ๆ ด้วยตัวเอง และฉันคิดว่านั่นคือแก่นแท้ของความคิดสร้างสรรค์ แก่นแท้ของความคิดสร้างสรรค์คือสิ่งที่อัลกอริธึมของเรากำลังทำ นั่นคือการค้นพบสิ่งใหม่ๆ ทีละขั้นตอนและเรียนรู้จากประสบการณ์ของพวกเขาว่าแนวคิดใหม่ที่พวกเขาคิดขึ้นมานั้นเป็นสิ่งที่ทรงพลังจริงๆ และช่วยให้บรรลุ เป้าหมาย ดังนั้นฉันคิดว่าในอนาคต เราจะเห็นความคิดสร้างสรรค์ของแบบฟอร์มนี้มากขึ้นเรื่อยๆ คุณจะเห็นว่าเครื่องจักรที่สามารถค้นพบแนวคิดที่ช่วยให้พวกเขาบรรลุเป้าหมายได้ด้วยตนเอง ไม่ใช่เพราะมีคนบอกไว้ นี่คือสิ่งที่คุณต้องการเพื่อให้บรรลุเป้าหมายนั้น แต่เพราะพวกเขาคิดออกเอง
เจนนิเฟอร์: และ.. ความคิดสร้างสรรค์นั้นทำให้ AlphaZero ค้นพบสิ่งใหม่ๆ เกี่ยวกับวิธีการ เล่นหมากรุก. ตอนนี้…. ผู้เล่นที่เป็นมนุษย์กำลังนำมันมาใช้ในเกมของตัวเอง … เรียกมันว่า.. “กำลังเล่นอัลฟ่าซีโร่”
[Sounds of Dota 2 gameplay via YouTube. [00:03 – 00:15]เจ้าภาพ: “ยินดีต้อนรับสู่ How to Attack lLike AlphaZero ฉบับอื่น! ฉันหวังว่าคุณจะพร้อมสำหรับบทเรียนของวันนี้…”
ที่นี่ก็เช่นกัน AI ถูกใช้ในหลาย ๆ ทาง… เช่น เครื่องมือฝึกเพื่อช่วยให้ผู้คนเล่นได้ดีขึ้น… และ (อีกครั้ง) นักวิจัยก็ตั้งเป้าที่จะใช้ e-sports เพื่อสร้าง ระบบ AI ของพวกเขาฉลาดขึ้น…
เดวิด ฟาร์ฮี:
เรากำลังจินตนาการว่า ณ จุดหนึ่งจะมีระบบปัญญาประดิษฐ์ทั่วไปที่สามารถแก้ปัญหาได้อย่างรวดเร็วจริงๆ สามารถเรียนรู้ได้ในระดับมนุษย์
เกมนั้นมีชื่อว่า Defense of the Ancients 2 ซึ่งทุกคนเรียกว่า Dota 2… และมีสารคดีใหม่เกี่ยวกับการชนะครั้งนี้… เรียกว่า Artificial Gamer
[Clip from Artificial Gamer trailer]
Speaker 2: AI เรียนรู้ในวิธีที่แตกต่างจากมนุษย์อย่างมาก
NS พีคเกอร์ 3: มันเล่นกับสำเนาของตัวเอง หลายครั้งในคลาวด์..
เจนนิเฟอร์: Fahri ดูแลโปรเจ็กต์ Dota 2 ที่เรียกว่า Open AI Five… และเขาได้สาธิตวิธีการทำงานที่งาน Tech Review’s AI, EmTech Digital…
[Sounds of Dota 2 gameplay via YouTube. [00:03 – 00:15] เฟดเข้าแล้วนอนภายใต้การเลือก Farhi ต่อไปนี้ *การต่อสู้ด้วยดาบ เสียงฝีเท้า และเพลงต่อสู้สุดดราม่า*]เดวิด ฟาร์ฮี:
ที่มุมขวาบนของหน้าจอนี้ เราเห็นโลกทั้งใบของ Dota ที่ใหญ่มาก ซูมออก ที่มุมล่างซ้ายมีฐานของทีมหนึ่ง ที่มุมขวาบนเป็นฐานของทีมอื่น แต่ละทีมพยายามเคลื่อนตัวละครไปรอบๆ ร่ายคาถาด้วยตัวละคร โจมตีศัตรู และอื่นๆ เพื่อบุกโจมตีและทำลายฐานของทีมอื่นในที่สุด เดวิด ฟาร์ฮี: ระบบที่ซับซ้อนกว่านี้ เช่น หุ่นยนต์และวิดีโอเกม มีความรู้สึกที่แตกต่างกันสำหรับพวกเขาเพราะคุณได้สังเกตสถานะของเกม และจากนั้นคุณเลือกการดำเนินการที่จะดำเนินการ จากนั้นสถานะของเกมจะเปลี่ยนไปในทางใดทางหนึ่ง ขึ้นอยู่กับการกระทำของคุณ แล้วคุณได้ข้อสังเกตใหม่ และคุณสามารถเลือกการกระทำใหม่ และวนซ้ำนี้เกิดขึ้นซ้ำแล้วซ้ำเล่า ดังนั้น คุณต้องทำการตัดสินใจที่มีผลกระทบระยะยาวตามมา วิธีที่เราทำเช่นนี้จึงค่อนข้างง่าย อย่างน้อยตามแนวคิด เรามีตัวแทนที่เริ่มเล่นแบบสุ่มโดยสิ้นเชิง และเราก็แค่ต้องเล่นกับพวกมันเอง โคลนของตัวเองซ้ำแล้วซ้ำเล่า เจนนิเฟอร์: และถ้าคุณคิดว่าอาจใช้เวลานานมากกับเกมที่ซับซ้อนเช่นนี้ คุณไม่ผิด… แต่ความสามารถของ Open AI ในการรันบนเครื่อง 200,000 เครื่องพร้อมกัน… ช่วยได้
โดยทั่วไป… สามารถได้รับประสบการณ์ประมาณ 250 ปีต่อวัน และหากระบบทำงานบางอย่างที่ได้ผล… ก็อัปเดตเพื่อทำสิ่งนั้นมากขึ้น … และหากสิ่งเลวร้ายเกิดขึ้นแล้วไม่ได้ผล ก็จะทำสิ่งนั้นน้อยลง
เดวิด ฟาร์ฮี:
เราเริ่มต้นด้วยเกมเวอร์ชันจำกัด ในที่สุดเราก็สามารถเอาชนะทีมนักพัฒนาของเราได้ ซึ่งสนุกมาก จากนั้นเราก็เพิ่มชิ้นส่วนของเกมเพิ่มเติม เรากลับไปและฝึกฝนเป็นเวลานาน และเราก็สามารถเอาชนะมือสมัครเล่นบางคน แล้วก็พวกกึ่งอาชีพได้ ในที่สุดเราก็ตัดสินใจไปทัวร์นาเมนต์ใหญ่ที่เกมนี้มีอยู่..
[Sounds from The International 3 (Dota tournament) via YouTube. *Crowd cheering, sports commentators shouting excitedly, Dota gameplay.*]นักกีฬา:
มันอาจเป็นจุดยืนสุดท้ายของพวกเขา [Sounds from The International 3 (Dota tournament) via YouTube. *Crowd cheering, sports commentators shouting excitedly, Dota gameplay.*]
- นักกีฬา: เขาจะพยายามเน้นทุกคน แต่ก็มีหลายอย่าง
- การดูแลสุขภาพ
นักกีฬา: ไม่มีคลิปเพิ่มเติม เหลือประมาณครึ่ง HP
นักกีฬา: ไตรมาส HP. สิงโตรอบด้าน! อีเคบี!
นักกีฬา:
นักกีฬา: ราชาแห่งภาคเหนือ! พันธมิตรฯ ชนะ! พวกเขาชนะ TI 3
นักกีฬา: Alliance เพิ่งชนะ 1.4 ล้านดอลลาร์!
นักกีฬา: พวกเขาคือ 3 แชมป์ระดับนานาชาติของคุณ!
เดวิด ฟาร์ฮี: ดังนั้นเกมนี้จึงมีผู้ใช้ที่เป็นมนุษย์หลายล้านคนที่แข่งขันในทัวร์นาเมนต์เหล่านี้เพื่อรับรางวัลใหญ่ ซึ่งทำให้มั่นใจได้ว่าเรารู้ว่ามีมนุษย์ที่กำลังเล่นอยู่ ระดับทักษะที่สูงมาก ในเดือนสิงหาคมปี 2018 เราได้พาตัวแทนของเราไปทัวร์นาเมนต์นี้
ดังนั้น OpenA-I Five จึงถูกฝึกโดยไม่มีมนุษย์อยู่ในกระบวนการฝึก ดังนั้นมันจึงเป็นเช่นนั้น เล่นกับตัวเองในเซิร์ฟเวอร์คลาวด์เหล่านี้ซ้ำแล้วซ้ำอีก จากนั้นเมื่อเราต้องการเล่นกับมนุษย์ เราจะนำสแน็ปช็อตออกจากคลาวด์และเล่นกับมนุษย์ แต่เราไม่เคยป้อนข้อมูลนั้นกลับเข้าสู่กระบวนการฝึกอบรม
[Music]
เจนนิเฟอร์: แต่ยังมีคำถามว่าเกมสามารถช่วยเราฝึก AI ให้มีประโยชน์มากขึ้นได้หรือไม่
ตอนนี้เรามีระบบที่เก่งมากในสิ่งเดียว แต่เรายังไม่มีโมเดลที่สามารถทำสิ่งต่างๆ ได้มากมายในคราวเดียว
อีกครั้ง เพื่อนร่วมงานของฉัน วิล ดักลาส เฮเวน
เจนนิเฟอร์: เพื่อให้เข้าใจถึงขั้นต่อไปของการวิจัยนี้จริงๆ… การคิดถึงวิธีที่เด็กๆ เล่นในสนามเด็กเล่นอาจเป็นประโยชน์
Will Douglas-Heaven:
พวกเขาไม่ได้เล่นเกมที่มีกฎเกณฑ์ที่ตั้งไว้จริงๆ ฉันหมายความว่า พวกมันอาจประกอบขึ้นเป็นพวกมันได้ แต่คุณก็รู้ พวกเขากำลังสำรวจ ทดลองสิ่งต่างๆ และในลักษณะที่เป็นธรรมชาติและเปิดกว้าง และไม่มีเป้าหมายที่แน่นอนที่พวกเขากำลังดำเนินการอยู่ และฉันคิดว่ามันเป็นเทคนิคแบบนี้ ซึ่งยังคงเป็นรูปแบบการเล่น ที่เราจะได้เห็นกัน ผลักดันสิ่งต่างๆ ไปข้างหน้า เมื่อเราพูดถึงความฉลาดทั่วไป ตัวอย่างเช่น Deepmind ได้เปิดตัวสนามเด็กเล่นเสมือนเมื่อไม่กี่เดือนที่ผ่านมา มันเหมือนกับโลกของวิดีโอเกมที่เรียกว่า X Land และเต็มไปด้วยบอทตัวน้อย และสิ่งที่ดีที่นี่คือ X Land นั้นถูกควบคุมโดย AI หรือคล้ายกับผู้ชำนาญด้านเกมที่จัดสภาพแวดล้อมใหม่ จัดเรียงสิ่งกีดขวางและบล็อกและลูกบอลที่บอทตัวเล็ก ๆ เล่นด้วยและยังมาพร้อมกับสิ่งต่าง ๆ กฎทันที ดังนั้น เกมง่ายๆ เช่น แท็กหรือซ่อนหา และบอทก็แค่ต้องฝึกฝน คุณก็รู้วิธีเล่นเกมเหล่านั้น คุณรู้ว่าวัตถุใดในโลกเสมือนจริงนั้นที่จะช่วยให้พวกเขาทำ และพวกเขาเรียนรู้ทักษะทั่วไป เช่น การสำรวจ แค่ทดลอง และฉันคิดว่าการสำรวจปลายเปิดแบบนี้จะเป็นกุญแจสำคัญสำหรับ AI รุ่นต่อไป และเป็นเรื่องน่าตื่นเต้นที่ [00:09:00] คลื่นลูกต่อไปของ AI ซึ่งเป็น AI ที่จะเก่งหลายอย่าง [00:09:03] เรา // ยังคงสามารถผ่านเกมได้อีกครั้ง เกมจึงไม่ไปไหน เกมอยู่กับ AI มาตั้งแต่ต้น และคุณก็รู้ เป็นเรื่องดีที่เห็นว่าการเล่นยังคงเป็นวิธีที่ดีที่สุดในการเรียนรู้
[CREDITS]เจนนิเฟอร์: ตอนนี้ฉันและ .รายงาน วิลล์ ดักลาส-เฮเวน… และอำนวยการสร้างโดย แอนโธนี่ กรีน, เอ็มมา ซิลเค็นส์ และคาเรน ห่าว เรียบเรียงโดย Niall Firth, Michael Reilly และ Mat Honan วิศวกรมิกซ์ของเราคือ Garret Lang… ด้วยการออกแบบเสียงและดนตรีโดย Jacob Gorski
ขอบคุณที่รับฟัง ผมชื่อเจนนิเฟอร์ สตรอง
ไลฟ์สไตล์