Get in my Think Art.

AI Alignment Podcast: การจัดตำแหน่ง AI ผ่านการโต้วาทีกับ Geoffrey Irving

AI Alignment Podcast: การจัดตำแหน่ง AI ผ่านการโต้วาทีกับ Geoffrey Irving

AI Alignment Podcast: การจัดตำแหน่ง AI ผ่านการโต้วาทีกับ Geoffrey Irving

jumbo jili

“ในการทำให้ระบบ AI มีประโยชน์อย่างกว้างขวางสำหรับงานที่ท้าทายในโลกแห่งความเป็นจริง เราต้องการให้พวกเขาเรียนรู้ เป้าหมายและความชอบของมนุษย์ที่ซับซ้อน วิธีการหนึ่งในการกำหนดเป้าหมายที่ซับซ้อนขอให้มนุษย์ ตัดสินระหว่างการฝึกอบรมว่าพฤติกรรมของเจ้าหน้าที่ใดปลอดภัยและมีประโยชน์ แต่วิธีการนี้อาจล้มเหลวได้หาก งานซับซ้อนเกินไปที่มนุษย์จะตัดสินได้โดยตรง เพื่อช่วยแก้ไขข้อกังวลนี้ เราขอเสนอ ตัวแทนการฝึกอบรมผ่านการเล่นด้วยตนเองในเกมโต้วาทีที่ไม่มีผลรวม เมื่อได้รับคำถามหรือการดำเนินการที่เสนอ เจ้าหน้าที่สองคนผลัดกันเขียนข้อความสั้นๆ จนถึงขีดจำกัด จากนั้นผู้พิพากษาที่เป็นมนุษย์ซึ่ง ตัวแทนให้ข้อมูลที่เป็นประโยชน์และเป็นจริงมากที่สุด… ในทางปฏิบัติ งานอภิปรายเกี่ยวข้องกับคำถามเชิงประจักษ์หรือไม่ เกี่ยวกับมนุษย์และงานที่เราต้องการให้ AI ดำเนินการ รวมทั้งคำถามเชิงทฤษฎีเกี่ยวกับ ความหมายของการจัดตำแหน่ง AI” ความปลอดภัยของ AI ผ่านการโต้วาที

สล็อต

การอภิปรายเป็นสิ่งที่เราทุกคนคุ้นเคย โดยปกติแล้วจะเกี่ยวข้องกับบุคคลตั้งแต่สองคนขึ้นไปให้การโต้แย้งและโต้แย้งในคำถามบางข้อเพื่อพิสูจน์ข้อสรุป ที่OpenAIกำลังสำรวจการอภิปรายเป็นวิธีการจัดแนว AI สำหรับการเรียนรู้รางวัล (เรียนรู้สิ่งที่มนุษย์ต้องการ) และเป็นส่วนหนึ่งของความพยายามในการขยายขนาด (วิธีฝึก/พัฒนาระบบเพื่อแก้ปัญหาความซับซ้อนที่เพิ่มขึ้นอย่างปลอดภัย) บางครั้งการโต้วาทีอาจดูเหมือนเป็นกระบวนการที่ไร้ผล แต่เมื่อปรับให้เหมาะสมและจัดวางให้เป็นเกมข้อมูลผลรวมศูนย์สำหรับผู้เล่นสองคน เราจะเห็นคุณสมบัติของการโต้วาทีและการทำงานร่วมกันกับการเรียนรู้ด้วยเครื่องที่อาจจะทำให้กระบวนการค้นหาความจริงมีประสิทธิภาพบนเส้นทาง เพื่อ AGI ที่เป็นประโยชน์
ในกรณีที่วันนี้เราจะเข้าร่วมด้วยเจฟฟรีย์เออร์วิง เจฟฟรีย์เป็นสมาชิกของทีมความปลอดภัย AI ที่ OpenAI เขามีปริญญาเอกด้านวิทยาการคอมพิวเตอร์จากมหาวิทยาลัยสแตนฟอร์ด และเคยทำงานที่ Google Brain ในการพิสูจน์ทฤษฎีบทโครงข่ายประสาทเทียม ร่วมก่อตั้ง Eddy Systems เพื่อแก้ไขโค้ดอัตโนมัติในขณะที่คุณพิมพ์ และเคยทำงานเกี่ยวกับฟิสิกส์เชิงคำนวณและเรขาคณิตที่ Otherlab, DE Shaw Research, Pixar และวีต้า ดิจิตอล เขามีเครดิตภาพยนต์เรื่อง Tintin, Wall-E, Up และ Ratatouille
เราหวังว่าคุณจะเข้าร่วมการสนทนาโดยติดตามเราหรือสมัครรับพ็อดคาสท์ของเราบนYoutube , SoundCloud , iTunes , Google Play , Stitcherหรือไซต์/แอปพลิเคชันพอดแคสต์ที่คุณต้องการ คุณสามารถค้นหาทั้งหมดที่เอไอพอดคาสต์การจัดที่นี่
ลูคัส : เฮ้ ทุกคน ยินดีต้อนรับกลับสู่ AI Alignment Podcast ฉันชื่อลูคัส เพอร์รี่ และวันนี้เราจะมาพูดคุยกับเจฟฟรีย์ เออร์วิง เกี่ยวกับความปลอดภัยของ AI ผ่านการอภิปราย เราหารือกันว่าการโต้วาทีสอดคล้องกับทิศทางการวิจัยทั่วไปของ OpenAI อย่างไร การขยายคืออะไรและเหมาะสมอย่างไร และความสัมพันธ์ทั้งหมดนี้กับการจัดตำแหน่ง AI และเช่นเคย หากคุณพบว่าพอดคาสต์นี้น่าสนใจหรือมีประโยชน์ โปรดกดไลค์และแชร์ให้กับคนที่อาจพบว่าพอดคาสต์นี้มีค่า
เจฟฟรีย์ เออร์วิง เป็นสมาชิกของทีมความปลอดภัยของ AI ที่ OpenAI เขามีปริญญาเอกด้านวิทยาการคอมพิวเตอร์จากมหาวิทยาลัยสแตนฟอร์ด และเคยทำงานที่ Google Brain ในการพิสูจน์ทฤษฎีบทโครงข่ายประสาทเทียม ร่วมก่อตั้ง Eddy Systems เพื่อแก้ไขโค้ดอัตโนมัติในขณะที่คุณพิมพ์ และเคยทำงานเกี่ยวกับฟิสิกส์เชิงคำนวณและเรขาคณิตที่ Otherlab, DE Shaw Research, Pixar และวีต้า ดิจิตอล เขามีเครดิตภาพยนต์เรื่อง Tintin, Wall-E, Up และ Ratatouille โดยไม่ต้องกังวลใจอีกต่อไป ฉันให้คุณเจฟฟรีย์ เออร์วิง
ขอบคุณอีกครั้งเจฟฟรีย์ที่มาในพอดคาสต์ รู้สึกยินดีเป็นอย่างยิ่งที่มีคุณที่นี่
เจฟฟรีย์: ขอบคุณมากลูคัส
ลูคัส: เรามาที่นี่ในวันนี้เพื่อหารือเกี่ยวกับงานของคุณในการอภิปราย ฉันคิดว่าเพิ่งเริ่มต้น มันน่าสนใจมากหากคุณสามารถจัดเตรียมกรอบสำหรับการอภิปรายให้เราได้ และการอภิปรายที่มีอยู่ใน OpenAI ในบริบทของวาระการวิจัยทั่วไปในปัจจุบันของ OpenAI และทิศทางที่ OpenAI กำลังดำเนินการอยู่ในขณะนี้ .
เจฟฟรีย์: ฉันคิดกว้างๆ ว่าเรากำลังพยายามบรรลุความปลอดภัยของ AI โดยการให้รางวัลกับการเรียนรู้ ดังนั้นการเรียนรู้แบบจำลองว่ามนุษย์ต้องการอะไร จากนั้นจึงพยายามเพิ่มประสิทธิภาพตัวแทนที่บรรลุถึงโมเดลนั้น ดังนั้นจงทำตามแบบจำลองนั้นให้ดี มีสามส่วนในการเรียนรู้สิ่งที่มนุษย์ต้องการ ส่วนหนึ่งเป็นเพียงกลศาสตร์แมชชีนเลิร์นนิงจำนวนหนึ่งที่จะเรียนรู้จากกลุ่มตัวอย่างขนาดเล็ก วิธีถามคำถามพื้นฐาน วิธีจัดการกับคุณภาพข้อมูล ในด้านมนุษย์ยังมีงานอีกมาก ดังนั้นมนุษย์จะตอบคำถามที่เราอยากถามได้อย่างไร และเราจะถามคำถามได้ดีที่สุดอย่างไร
แล้วมีประเภทที่สามที่คุณทำให้ระบบเหล่านี้ทำงานอย่างไรแม้ว่าตัวแทนจะแข็งแกร่งมาก? แข็งแกร่งกว่ามนุษย์ในบางพื้นที่หรือทุกพื้นที่ นั่นเป็นลักษณะของความสามารถในการปรับขนาด การโต้วาทีเป็นหนึ่งในเทคนิคของเราในการทำ scalability การขยายเสียงเป็นรุ่นแรกและการอภิปรายเป็นเวอร์ชันดังกล่าว โดยทั่วไปต้องการควบคุมตัวแทนการเรียนรู้ แม้ว่าจะฉลาดกว่ามนุษย์หรือแข็งแกร่งกว่ามนุษย์ในบางงานหรือหลายงานก็ตาม
การอภิปรายคือคุณฝึกตัวแทนสองคนเพื่อเล่นเกม เกมคือตัวแทนสองคนนี้เห็นคำถามในบางเรื่อง พวกเขาให้คำตอบ นักโต้วาทีแต่ละคนมีคำตอบของตัวเอง และจากนั้นก็มีการโต้วาทีว่าคำตอบไหนดีกว่ากัน ซึ่งหมายถึงจริงมากกว่าและมีประโยชน์มากกว่า จากนั้นมนุษย์ก็เห็นว่าการถอดเสียงการโต้วาทีและการตัดสินที่ชนะโดยพิจารณาจากสิ่งที่พวกเขาคิดว่า บอกสิ่งที่เป็นจริงที่มีประโยชน์ที่สุด . ผลลัพธ์ของเกมคือ หนึ่งผู้ชนะการอภิปราย และสองคำตอบของผู้ที่ชนะการอภิปราย
นอกจากนี้คุณยังสามารถเลือกรูปแบบต่างๆ ที่ผู้พิพากษาโต้ตอบระหว่างการอภิปรายได้ เราสามารถเข้าไปดูรายละเอียดเหล่านี้ได้ ประเด็นทั่วไปคือ ในงานของฉัน การจดจำคำตอบที่ดีง่ายกว่าการคิดคำตอบด้วยตัวเอง สิ่งนี้ใช้ในหลายระดับ
ตัวอย่างเช่น ในระดับแรก คุณอาจมีงานที่มนุษย์ไม่สามารถทำงานนั้นได้ แต่พวกเขาสามารถรู้ได้ทันทีว่าพวกเขาเห็นคำตอบที่ดีสำหรับงานนั้นหรือไม่ เช่น ฉันเล่นยิมนาสติกไม่เก่ง แต่ถ้าฉันเห็นใครตีลังกาได้สวยมากๆ ฉันก็รู้ได้ อย่างน้อยก็ระดับความมั่นใจว่าพวกเขาทำได้ดี มีงานอื่นๆ ที่คุณไม่สามารถจำคำตอบได้โดยตรง ดังนั้นคุณอาจเห็นคำตอบ ดูเหมือนเป็นไปได้ว่า “โอ้ ดูเหมือนคำตอบที่ดี” แต่มีข้อบกพร่องซ่อนอยู่ หากตัวแทนชี้ให้เห็นข้อบกพร่องนั้นแก่คุณ คุณจะคิดว่า “โอ้ นั่นเป็นคำตอบที่แย่จริงๆ” บางทีมันอาจจะทำให้เข้าใจผิดบางทีมันอาจจะผิด คุณต้องใช้สายลับสองคนที่โต้ตอบไปมาเพื่อให้สามารถรับความจริงได้

สล็อตออนไลน์

จากนั้น หากคุณใช้สิ่งนี้ซ้ำๆ ในหลายระดับ คุณอาจมีงานที่คุณไม่รู้ว่าคำตอบนั้นดีโดยตรงหรือไม่ คุณไม่รู้ด้วยซ้ำว่าการโต้แย้งนั้นดีหรือไม่ อาจเป็นการโต้เถียงกัน แล้วคุณก็จำมันได้ หากคุณทำการโต้วาทีสามขั้นตอน สลับไปมากับเจ้าหน้าที่สองคน คุณก็จะได้ความจริง
คุณต้องมีขั้นตอนเหล่านี้จำนวนหนึ่งเพื่อปักหมุดว่าคำตอบที่แท้จริงคืออะไร ทั้งนี้ขึ้นอยู่กับงาน โดยทั่วไปแล้ว สิ่งที่เกิดขึ้นคือผู้โต้เถียง เมื่อพวกเขาโต้เถียงกัน พวกเขากำลังข้ามพื้นที่จำนวนมากซึ่งบางทีมนุษย์อาจไม่เข้าใจว่าจะเกิดอะไรขึ้น แต่พวกเขารู้ว่ามันจะเป็นไปในทางใดทางหนึ่ง เช่น ถ้าคุณเห็นผู้เล่นที่เชี่ยวชาญสองคนเล่นเกมโก พวกเขามักจะเพิกเฉยต่อการเคลื่อนไหวจำนวนมากขึ้นเรื่อย ๆ ซึ่งเลวร้ายมากและจะเสียเวลามากหากคุณพยายามวิเคราะห์พวกเขา การดูส่วนที่สำคัญที่สุดของการโต้เถียงเกี่ยวกับการเคลื่อนไหวที่ดีที่สุดในเกมคืออะไร
สำหรับการทดลองทั้งหมด มีงานเกี่ยวกับรูปภาพอย่างง่าย เช่น MNIST MNIST เป็นชุดข้อมูลของตัวเลข และจากนั้นก็เป็นการทดลองเบื้องต้นของมนุษย์โดยมีเพียงผู้โต้แย้งในมนุษย์เท่านั้น ใน MNIST ตัวอย่างคือคุณมีตัวแยกประเภทแบบกระจัดกระจายที่เรียนรู้ที่จะรู้จัก MNIST จากการเห็นพิกเซลเพียงไม่กี่พิกเซล ดังนั้นคุณอาจฝึกมันด้วยการเลือกมาสก์แบบสุ่มเพียงไม่กี่พิกเซลของรูปภาพ MNIST ลักษณนามนี้แย่มากเพราะเห็นเพียงส่วนเล็ก ๆ ของภาพเท่านั้น มันอาจจะได้รับความแม่นยำต่ำกว่า 50% ฉันลืมหมายเลขที่แน่นอนฉันสามารถค้นหาได้
จากนั้น คุณฝึกอบรมผู้อภิปรายโดยเลือกส่วนใดของรูปภาพที่จะแสดงต่อผู้ตัดสิน คุณแก้ไขผู้พิพากษาที่กระบวนการฝึกที่อ่อนแอแบบนี้ แล้วผู้โต้วาทีจะเล่นเกมที่พวกเขาพยายามเลือกพิกเซลที่โน้มน้าวผู้พิพากษาถึงสิ่งที่พวกเขาต้องการโต้แย้ง มีสองวิธีในการตัดสินใจ … ในบทความแรก เรามีผู้อภิปรายคนหนึ่งที่มีแรงจูงใจให้บอกความจริง ดังนั้นจึงรู้ชั้นเรียนที่ถูกต้อง อย่างที่เราพูด เรากำลังดูเลขเจ็ด และผู้อภิปรายอีกคนต้องระบุล่วงหน้าว่าจะใช้หลักเลขใด มันอาจจะพูดว่า “ฉันจะโกหกและพูดว่าเรื่องเป็นแปด”
เกมดังกล่าวจะต้องให้ตัวแทนแต่ละรายเลือกพิกเซลเดียว และคุณเรียงลำดับของการทำซ้ำ สมมติว่าหกรอบ เลือกหนึ่งพิกเซลหลังจากนั้น จากนั้นผู้พิพากษาเห็นพิกเซลเหล่านั้น และเลือกว่าใครเป็นผู้ชนะในการอภิปราย ผู้พิพากษาได้เห็นหลักฐานเพียงเล็กน้อย ผลที่ได้คือคุณสามารถเพิ่มตัวจำแนกประเภทที่อ่อนแอให้มีประสิทธิภาพที่สูงขึ้น แม้ว่าตัวแทนจะได้รับแรงจูงใจเพียงเพื่อชนะเกมเท่านั้น ในกรณีนี้ หากคุณเลือกผู้อภิปรายคนหนึ่งเป็นผู้เล่นที่ซื่อสัตย์ และผู้อภิปรายคนหนึ่งเป็นผู้โกหก ผู้เล่นที่ซื่อสัตย์จะชนะส่วนใหญ่ครั้งสำคัญ มากกว่าผู้แยกประเภทจะชนะจากการเล่นแบบสุ่ม

jumboslot

Lucas: ผู้พิพากษาที่นี่ ขอโทษนะ ไม่ใช่มนุษย์เหรอ?
เจฟฟรีย์: ผู้พิพากษาที่นี่ไม่ใช่มนุษย์ เป็นเพียงตัวแยกประเภทที่ได้รับการฝึกฝนให้ทำผลงานแย่ๆ ที่ MNIST เพราะเห็นข้อมูลเพียงเล็กน้อยเท่านั้น ได้รับการฝึกฝนให้บรรจบกัน แต่อินพุตเป็นเพียงพิกเซลของภาพเพียงไม่กี่พิกเซล
ลูคัส: ดังนั้น พิกเซลที่ผู้อภิปรายเปิดเผยต่อจากนั้น แต่ละพิกเซลจึงเป็นข้อโต้แย้ง
เจฟฟรีย์: แต่ละพิกเซลเป็นอาร์กิวเมนต์
ลูคัส: เพื่อให้มีการจัดเฟรมมากขึ้น มีคุณลักษณะของการอภิปรายนี้ คุณสามารถนำไปใช้กับโดเมนขนาดใหญ่มาก ๆ ของสิ่งที่คุณจะแปลกใจถ้าคุณขยายแนวคิดของความหมายของการอภิปรายเพื่อแสดงพิกเซลหรือ บางอย่างเช่นนี้
เจฟฟรีย์: การอภิปรายในภาษาธรรมชาติสำคัญกว่า เป้าหมายสุดท้ายที่นี่คือ เราต้องการดึงประสิทธิภาพการทำงานของมนุษย์ที่ได้รับการปรับปรุงให้ดีขึ้นในงานหนึ่งๆ วิธีที่เราดำเนินการเกี่ยวกับเรื่องนี้ ไม่ว่าจะในการขยายเสียงหรือในการโต้วาที ก็คือเราจัดเรียงปัจจัยผ่านการให้เหตุผล แทนที่จะพยายามฝึกโดยตรงในงาน เช่น คำตอบของงาน คุณอาจมีคำถามและคำตอบบางข้อ และคุณสามารถฝึกโดยตรงในคู่คำถาม/คำตอบ เราจะสร้างงานซึ่งรวมถึงมนุษย์ที่เป็นไปได้ทั้งหมด การใช้เหตุผลในรูปแบบของการโต้วาที ในกรณีนี้ เราจะฝึกเจ้าหน้าที่ให้ทำงานได้ดีในพื้นที่แห่งการให้เหตุผล จากนั้นจึงค่อยเลือกคำตอบในตอนท้าย เมื่อเราพอใจแล้วว่าการให้เหตุผลทุกอย่างได้ผล
เพราะมนุษย์ วิธีที่เราพูดถึงแนวคิดระดับสูง โดยเฉพาะแนวคิดเชิงนามธรรม และแนวคิดทางศีลธรรมที่ละเอียดอ่อน เป็นภาษาธรรมชาติ โดเมนที่สำคัญที่สุดในกรณีนี้ ในกรณีของมนุษย์ คือ ภาษาธรรมชาติ สิ่งที่เราได้ทำไปแล้วในการทดลอง Debate ทั้งหมดคือพื้นที่ภาพ เพราะมันง่ายกว่า ตอนนี้เรากำลังพยายามย้ายงานนั้นเป็นภาษาธรรมชาติ เพื่อให้เราได้รับการตั้งค่าที่น่าสนใจมากขึ้น
ลูคัส: ถูกต้อง ในแง่ของภาษาธรรมชาติ คุณแค่ต้องการแกะกล่องเล็กๆ น้อยๆ ว่าจะทำอย่างไรในภาษาธรรมชาติในตอนนี้? ดูเหมือนว่าเทคโนโลยีภาษาธรรมชาติของเราไม่ได้อยู่ที่จุดที่ฉันเห็นการโต้วาทีทางภาษาธรรมชาติที่แข็งแกร่งจริงๆ
เจฟฟรีย์: มีสองวิธีที่จะไป วิธีหนึ่งคือการอภิปรายของมนุษย์ คุณเพียงแค่แทนที่ตัวแทน ML ด้วยนักโต้วาทีที่เป็นมนุษย์ และจากนั้นก็เป็นผู้ตัดสินที่เป็นมนุษย์ และคุณเห็นว่าระบบทำงานในบริบทของมนุษย์ทั้งหมดหรือไม่ อีกวิธีหนึ่งคือการเรียนรู้ด้วยภาษาธรรมชาติของแมชชีนเลิร์นนิงกำลังดีพอที่จะทำชุดข้อมูลคำถาม/คำตอบตัวอย่างได้อย่างน่าสนใจ และการอภิปรายก็น่าสนใจอยู่แล้วหากคุณทำตามขั้นตอนเพียงเล็กน้อย ในการโต้วาทีทั่วไป คุณจินตนาการว่าคุณมีข้อความถอดเสียงยาวๆ นี้ มีข้อความยาวหลายสิบข้อความ โดยมีจุดและจุดหักเหและจุดกลับกัน แต่ถ้าคุณทำเพียงสองขั้นตอนแล้ว คุณอาจตั้งคำถาม ให้คำตอบ และโต้แย้งเพียงข้อเดียว สำหรับงานบางงาน อย่างน้อยในทางทฤษฎี มันควรจะแข็งแกร่งกว่าพื้นฐานของการทำคำถาม/คำตอบโดยตรงอยู่แล้ว
ตัวอย่างเช่น คุณอาจเห็นคำถามและคำตอบ จากนั้นนักโต้วาทีอีกคนก็พูดว่า “ส่วนใดของคำตอบที่เป็นปัญหา” พวกเขาอาจชี้ไปที่คำหรือวลีเล็กๆ แล้วพูดว่า “นี่คือประเด็นที่คุณควรให้ความสำคัญ” หากคุณเรียนรู้วิธีวิจารณ์ตนเอง คุณสามารถเพิ่มประสิทธิภาพได้ด้วยการทำซ้ำเมื่อคุณรู้วิธีวิจารณ์ตนเองแล้ว
ความหวังคือแม้ว่าเราจะยังไม่สามารถโต้วาทีทั่วไปในด้านการเรียนรู้ของเครื่อง แต่เราสามารถทำการโต้วาทีแบบตื้นๆ หรือขั้นตอนแรกง่ายๆ ในทิศทางนี้ แล้วค่อยๆ คลี่คลายไปตามเวลา
[NPC5]ลูคัส: นี่ดูเหมือนจะเป็นส่วนพื้นฐานของการจัดแนว AI ที่คุณเพียงแค่แบ่งสิ่งต่าง ๆ ออกเป็นปัญหาง่ายๆ แล้วพยายามประสบความสำเร็จในกรณีง่ายๆ เหล่านั้น
เจฟฟรีย์: ถูกต้อง
ลูคัส: แค่ให้ภาพประกอบอีกเล็กน้อยของการโต้วาทีเป็นแนวคิดทั่วไป และความหมายในบริบทของการจัดแนว AI ฉันหมายความว่า มีคำถามเปิดอยู่ที่นี่ เกี่ยวกับประสิทธิภาพของการโต้วาที การโต้วาทีเป็นเครื่องมือในอวกาศอย่างไร ดังนั้นสิ่งต่าง ๆ ทางญาณวิทยาที่ทำให้เราสามารถบรรลุความจริงได้ และฉันเดาว่า อนุมานความชอบของผู้อื่น ขออภัย อีกครั้งในแง่ของการเรียนรู้รางวัล การจัดตำแหน่ง AI และตำแหน่งของการอภิปรายในทั้งหมดนี้ ฉันเดาว่าบทบาทในการจัดตำแหน่ง AI นั้นมีบทบาทในวงกว้างมากขึ้น