Get in my Think Art.

AI Alignment Podcast: ภาพรวมของการจัดแนว AI ทางเทคนิคกับ Rohin Shah (ตอนที่ 1)

AI Alignment Podcast: ภาพรวมของการจัดแนว AI ทางเทคนิคกับ Rohin Shah (ตอนที่ 1)

AI Alignment Podcast: ภาพรวมของการจัดแนว AI ทางเทคนิคกับ Rohin Shah (ตอนที่ 1)

jumbo jili

พื้นที่ของการวิจัยการจัดตำแหน่ง AI นั้นมีไดนามิกสูงและมักจะเป็นเรื่องยากที่จะได้ภาพทิวทัศน์จากมุมสูง พอดคาสต์นี้เป็นส่วนแรกของสองส่วนที่พยายามแก้ไขบางส่วนโดยให้ภาพรวมขององค์กรที่เข้าร่วมในการวิจัย AI ทางเทคนิค ทิศทางการวิจัยเฉพาะของพวกเขา และวิธีที่แนวทางเหล่านี้ทั้งหมดมารวมกันเพื่อประกอบเป็นความพยายามในการจัดแนว AI ทางเทคนิค ในส่วนแรกนี้ Rohin เคลื่อนตัวตามลำดับผ่านองค์กรวิจัยทางเทคนิคในพื้นที่นี้และแกะสลักผ่านพื้นที่นี้ด้วยปรัชญาการวิจัยที่แตกต่างกัน นอกจากนี้เรายังเจาะลึกข้อมูลเฉพาะของแนวทางต่างๆ มากมายในด้านความปลอดภัยของ AI สำรวจจุดที่พวกเขาไม่เห็นด้วย หารือเกี่ยวกับคุณสมบัติต่างๆ ที่พยายามพัฒนา/รักษา และรับฟังความคิดเห็นของ Rohin ในแนวทางต่างๆ เหล่านี้

สล็อต

ในพอดแคสต์นี้ ลูคัสได้พูดคุยกับโรฮิน ชาห์ Rohin เป็นนักศึกษาปริญญาเอกปีที่ 5 ที่ UC Berkeley โดยมี Center for Human-Compatible AIทำงานร่วมกับ Anca Dragan, Pieter Abbeel และ Stuart Russell ทุกสัปดาห์เขาเก็บรวบรวมและสรุปความคืบหน้าล่าสุดที่เกี่ยวข้องกับ AI การจัดตำแหน่งในการจัดจดหมายข่าว
เราหวังว่าคุณจะยังคงเข้าร่วมการสนทนาโดยติดตามเราหรือสมัครรับพ็อดคาสท์ของเราบนYoutube , SoundCloud , iTunes , Google Play , Stitcherหรือไซต์/แอปพลิเคชันพอดแคสต์ที่คุณต้องการ คุณสามารถค้นหาทั้งหมดที่เอไอพอดคาสต์การจัดที่นี่
หัวข้อที่กล่าวถึงในตอนนี้ได้แก่:
มุมมองของ CHAI, MIRI, OpenAI, DeepMind, FHI และอื่นๆ
พวกเขาไม่เห็นด้วยกับการจัดตำแหน่งทางเทคนิคที่ไหนและทำไม
ประเภทของคุณสมบัติและคุณสมบัติที่เราพยายามทำให้มั่นใจในระบบ AI ของเรา
สิ่งที่โรฮินตื่นเต้นและมองโลกในแง่ดีเกี่ยวกับ
การอ่านที่แนะนำของ Rohin และคำแนะนำสำหรับการปรับปรุงในการวิจัยการจัดตำแหน่ง AI
Lucas: สวัสดีทุกคน ยินดีต้อนรับกลับสู่พอดแคสต์ AI Alignment ฉันชื่อลูคัส เพอร์รี่ และวันนี้เราจะมาคุยกับโรฮิน ชาห์ ตอนนี้เป็นตอนแรกของสองส่วนที่ทั้งคู่พยายามให้ภาพรวมของสถานะของการจัดตำแหน่ง AI ในตอนนี้ เราครอบคลุมถึงองค์กรวิจัยทางเทคนิคในขอบเขตของการจัดแนว AI วิธีการวิจัยและปรัชญาของพวกเขา วิธีที่สิ่งเหล่านี้มารวมกันบนเส้นทางของเราสู่ AGI ที่เป็นประโยชน์ และมุมมองของ Rohin เกี่ยวกับสถานะของภาคสนาม
ตามประกาศทั่วไป ฉันชอบให้พอดคาสต์นี้มีประโยชน์และให้ข้อมูลแก่ผู้ฟังเป็นพิเศษ ดังนั้นฉันจึงดำเนินการร่างแบบสำรวจสั้นๆ เพื่อให้เข้าใจถึงสิ่งที่สามารถปรับปรุงได้ดีขึ้น คุณจะพบลิงก์ไปยังแบบสำรวจนั้นในคำอธิบายของที่ใดก็ตามที่คุณอาจพบพอดคาสต์นี้ หรือในหน้าสำหรับพอดคาสต์นี้ในเว็บไซต์ FLI
หลายๆ คนคงคุ้นเคยกับ Rohin แล้ว เขาเป็นนักศึกษาระดับปริญญาเอกปีสี่ในสาขาวิทยาการคอมพิวเตอร์ที่ UC Berkeley กับ Center For Human-Compatible AI โดยทำงานร่วมกับ Anca Dragan, Pieter Abbeel และ Stuart Russell ทุกสัปดาห์ เขารวบรวมและสรุปความคืบหน้าล่าสุดที่เกี่ยวข้องกับการจัดตำแหน่ง AI ในจดหมายข่าว Alignment ดังนั้น โดยไม่ต้องกังวลใจอีกต่อไป ฉันให้คุณโรฮิน ชาห์
ขอบคุณมากสำหรับการมาในพอดคาสต์ Rohin รู้สึกยินดีเป็นอย่างยิ่งที่มีคุณ
Rohin: ขอบคุณมากสำหรับการกลับมาอีกครั้ง ฉันตื่นเต้นที่จะกลับมา
ลูคัส: ใช่ นานแล้ว ไม่ได้เจอกันตั้งแต่เปอร์โตริโก Beneficial AGI ดังนั้นเมื่อพูดถึง Beneficial AGI คุณบรรยายได้ดีทีเดียว ซึ่งสรุปวิธีการจัดแนวทางเทคนิคและมุมมองกว้างๆ ในเวลานี้ และนั่นคือหัวข้อของพอดคาสต์นี้ในวันนี้
ผู้คนสามารถเข้าไปค้นหาวิดีโอนั้นบน YouTube ได้ และฉันแนะนำให้คุณดู ที่จะเผยแพร่ในช่อง FLI YouTube ในอีกไม่กี่สัปดาห์ข้างหน้า แต่สำหรับตอนนี้ เราจะเจาะลึกมากขึ้น และมีความละเอียดมากขึ้นในแนวทางทางเทคนิคต่างๆ เหล่านี้
ดังนั้น เพื่อเริ่มต้น คงจะดีถ้าคุณสามารถจัดทำรายการแนวทางทางเทคนิคในการจัดแนว AI ที่เรากำลังจะเข้าสู่บริบทภายในองค์กรต่างๆ ที่พวกเขามีอยู่ ตลอดจนปรัชญาและแนวทางต่างๆ ที่มีอยู่ในองค์กรเหล่านี้ องค์กรต่างๆ
Rohin: เอาล่ะ ข้อจำกัดความรับผิดชอบ ฉันไม่รู้จักองค์กรทั้งหมดดีพอ ฉันรู้ว่าคนมักจะพอดีกับ CHAI ในรูปแบบเฉพาะเช่น; CHAI เป็นที่ที่ฉันทำงานอยู่ และฉันไม่เห็นด้วยเป็นส่วนใหญ่กับการเป็นแบบอย่างของ CHAI ดังนั้น สิ่งที่ฉันพูดเกี่ยวกับองค์กรอื่นอาจจะค่อนข้างผิด แต่ฉันจะให้มันยิงต่อไป

สล็อตออนไลน์

ดังนั้นฉันเดาว่าฉันจะเริ่มด้วย CHAI และฉันคิดว่าผลลัพธ์สาธารณะส่วนใหญ่มาจากมุมมองนี้ว่าเราจะทำให้ระบบ AI ทำในสิ่งที่เราต้องการได้อย่างไร ดังนั้นนี่คือการเน้นที่ปัญหาการจัดตำแหน่ง เราจะชี้พวกเขาไปยังเป้าหมายที่เราต้องการจริงๆ ได้อย่างไร ให้สอดคล้องกับค่านิยมของเรา ไม่ใช่ทุกคนที่ CHAI จะใช้มุมมองนี้ แต่ฉันคิดว่านั่นเป็นสิ่งที่เกี่ยวข้องกับเรามากที่สุด และอาจเป็นมุมมองที่เราเผยแพร่มากที่สุด นอกจากนี้ยังเป็นมุมมองที่ฉันมักจะใช้ แต่ไม่เสมอไป
ในทางกลับกัน MIRI ใช้มุมมองว่า “เราไม่รู้ด้วยซ้ำว่าเกิดอะไรขึ้นกับความฉลาด มาลองคิดกันว่าเราหมายถึงอะไรโดยสติปัญญา ความหมายของการมีระบบ AI ที่ชาญฉลาดมาก มันจะทำอะไรได้ หรือเราจะเข้าใจมันได้อย่างไร เรามีทฤษฎีว่าทั้งหมดนี้หมายความว่าอย่างไร? เราสับสน สับสนน้อยลง เมื่อเราสับสนน้อยลง เราก็สามารถคิดหาวิธีทำให้ระบบ AI ทำสิ่งที่ดีได้จริง” นั่นเป็นหนึ่งในมุมมองที่พวกเขาใช้
อีกมุมมองหนึ่งที่พวกเขาใช้คือ มีปัญหาเฉพาะกับความปลอดภัยของ AI ซึ่งก็คือ “แม้ว่าเราจะรู้ว่าเป้าหมายใดที่เราต้องการใส่ในระบบ AI เราก็ไม่รู้ว่าจะสร้างระบบ AI ได้อย่างไรจริง ๆ ที่น่าเชื่อถือ ไล่ตามเป้าหมายเหล่านั้นเมื่อเทียบกับอย่างอื่น” ปัญหานั้นแม้ว่าคุณจะรู้ว่าต้องการทำอะไร ทำอย่างไรจึงจะได้ระบบ AI มาทำ เป็นปัญหาที่พวกเขาให้ความสำคัญ และความแตกต่างจากสิ่งที่ฉันเชื่อมโยงกับ CHAI ก่อนหน้านี้คือ ในมุมมองของ CHAI คุณสนใจทั้งว่าคุณจะให้ระบบ AI ไล่ตามเป้าหมายที่ต้องการได้อย่างไร แต่คุณจะทราบได้อย่างไรว่าเป้าหมายอะไร ที่คุณต้องการหรือเป้าหมายที่คุณต้องการคืออะไร แม้ว่า ฉันคิดว่างานส่วนใหญ่จนถึงตอนนี้เป็นการสมมติคุณรู้เป้าหมาย คุณจะให้ระบบ AI ของคุณดำเนินการอย่างถูกต้องได้อย่างไร
ฉันคิดว่าความปลอดภัยของ DeepMind นั้น อย่างน้อยก็ถูกแบ่งแยกออกไปในหลาย ๆ วิธีในการมองปัญหา ตัวอย่างเช่น ฉันคิดว่า Jan Leike ได้ทำงานมากมายเกี่ยวกับการสร้างแบบจำลองการให้รางวัล และสิ่งนี้ก็สอดคล้องกับวิธีที่เราทำให้ระบบ AI ของเรามุ่งเน้นไปที่งานที่ถูกต้อง เป้าหมายที่ถูกต้อง ในขณะที่ Vika ได้ทำงานมากมายเกี่ยวกับผลข้างเคียงหรือมาตรการผลกระทบ ฉันไม่รู้ว่า Vika จะพูดแบบนี้หรือเปล่า แต่วิธีที่ฉันตีความมัน เราจะกำหนดข้อจำกัดให้กับระบบ AI ได้อย่างไร เพื่อไม่ให้เกิดภัยพิบัติขึ้น? แต่ไม่ได้พยายามให้ระบบ AI ทำในสิ่งที่เราต้องการ แค่ไม่ทำในสิ่งที่เราไม่ต้องการ หรือสิ่งที่เราคิดว่าจะเลวร้ายอย่างร้ายแรง

jumboslot

ความปลอดภัยของ OpenAI ก็ดูเหมือนจะเป็นเช่นนั้น ตกลงเราจะเรียนรู้การบังคับใช้อย่างลึกซึ้งเพื่อทำสิ่งที่ดี ทำในสิ่งที่เราต้องการ แข็งแกร่งขึ้นอีกเล็กน้อยได้อย่างไร นอกจากนี้ยังมีการโต้วาทีซ้ำแล้วซ้ำอีกในการขยายขอบเขตการรับรู้ของการวิจัย ซึ่งมีความสอดคล้องกันมากกว่า เราสามารถเขียนระบบที่อาจนำไปสู่การสร้าง AGI ที่สอดคล้องหรือระบบ AI ที่ทรงพลังในแนวเดียวกันได้หรือไม่
FHI ไม่มีทิศทางที่สอดคล้องกัน นั่นคือ FHI ทั้งหมด Eric Drexler ยังพยายามทำความเข้าใจว่า AI จะพัฒนาอย่างไรในอนาคตนั้นค่อนข้างแตกต่างจากที่ MIRI ทำอยู่บ้าง แต่เป็นประเด็นทั่วไปที่เหมือนกันในการพยายามค้นหาว่าเกิดอะไรขึ้น ดังนั้นเขาจึงเพิ่งเผยแพร่รายงานทางเทคนิคฉบับยาวเกี่ยวกับบริการ AI แบบครอบคลุม ซึ่งเป็นมุมมองทั่วไปสำหรับการคาดการณ์ว่าการพัฒนา AI จะเป็นอย่างไรในอนาคต หากเราเชื่อว่านั่นคือวิธีที่ AI จะเกิดขึ้น เราอาจจะเปลี่ยนสิ่งที่เราทำงานจากมุมมองด้านความปลอดภัยทางเทคนิค
และโอเวน อีแวนส์ทำหลายอย่าง ดังนั้นบางทีฉันอาจจะไม่พยายามจัดหมวดหมู่เขา แล้วสจวร์ต อาร์มสตรองก็ทำงาน “เอาล่ะ เราจะได้รับคุณค่าในการเรียนรู้เพื่อทำงานได้อย่างไร โดยที่เราอนุมานถึงฟังก์ชันอรรถประโยชน์ที่เราพอใจสำหรับระบบ AGI ที่จะเพิ่มประสิทธิภาพ หรือระบบ AI ที่ชาญฉลาดอย่างยิ่งที่จะเพิ่มประสิทธิภาพ”
และจากนั้น ควรจะทำงานกับความรู้ความเข้าใจในโรงงาน ดังนั้นจึงใกล้เคียงกันมากที่จะขยายเสียงซ้ำๆ และอภิปรายวาระการวิจัย จากนั้นก็มีนักวิจัยบางคนกระจัดกระจาย เช่น โทรอนโต มอนทรีออล และ AMU และ EPFL บางทีผมอาจจะไม่เข้าเรื่องทั้งหมดเพราะใช่ นั่นเป็นจำนวนมาก แต่เราสามารถเจาะลึกสิ่งนั้นได้ในภายหลัง
ลูคัส: แนวทางที่เป็นประโยชน์มากกว่านี้ อาจเป็นถ้าคุณเริ่มด้วยการทำให้เข้าใจเรื่อง MiRI กระจ่างขึ้นหน่อย ซึ่งอาจดูไม่ธรรมดาที่สุด
Rohin: ฉันเดาว่าในเชิงกลยุทธ์ ประเด็นก็คือคุณกำลังพยายามสร้างระบบ AI นี้ ซึ่งหวังว่าในอนาคตข้างหน้าจะฉลาดกว่ามนุษย์อย่างมากมาย เพราะเราต้องการให้พวกเขาช่วยเราตั้งรกรากในจักรวาล หรืออะไรทำนองนั้น และนำไปสู่ความก้าวหน้าทางเทคโนโลยีมากมาย ฯลฯ เป็นต้น
แต่โดยพื้นฐานแล้วหมายความว่ามนุษย์จะไม่ถูกควบคุม เว้นแต่เราจะจัดการอย่างเฉพาะเจาะจงมากจนเราควบคุมได้ เราต้องร้อยด้ายให้เรียบร้อย เพื่อให้ได้สิ่งนี้ ในทำนองเดียวกัน โดยค่าเริ่มต้น คุณจะคาดหวังว่าสิ่งมีชีวิตที่ฉลาดที่สุด คือสิ่งมีชีวิตที่จะตัดสินใจว่าจะเกิดอะไรขึ้น ดังนั้นเราจึงจำเป็นต้องทำให้แน่ใจจริงๆ และอาจเป็นเรื่องยากที่จะแน่ใจด้วยว่าสิ่งมีชีวิตที่ฉลาดกว่าอย่างมากมายเหล่านี้ กำลังทำในสิ่งที่เราต้องการจริงๆ
ดูเหมือนว่าสิ่งที่เราต้องการจะเป็นทฤษฎีที่ดีที่ช่วยให้เราเข้าใจและคาดการณ์ว่าระบบ AI เหล่านี้จะทำอะไร อาจไม่ละเอียดถี่ถ้วนและละเอียดถี่ถ้วน เพราะถ้าเราสามารถคาดเดาได้ว่าพวกเขาจะทำอะไร เราก็จะทำเองและฉลาดพอๆ กับที่เป็นอยู่ แต่อย่างน้อยในจังหวะกว้าง ๆ พวกเขาจะสร้างจักรวาลประเภทใด?
แต่เนื่องจากพวกเขาสามารถใช้สติปัญญามากกว่าที่เราสามารถทำได้ เราจึงจำเป็นต้องรับประกันว่าจะแข็งแกร่งจริงๆ เหมือนระดับการพิสูจน์เกือบ บางทีการพิสูจน์ที่แท้จริงอาจมากเกินไปที่จะคาดหวัง แต่เราต้องการเข้าใกล้ให้มากที่สุด ทีนี้ ถ้าเราต้องการทำอะไรแบบนั้น เราจำเป็นต้องมีทฤษฎีความฉลาด เราไม่สามารถทำการทดลองหลายอย่าง ดูผลลัพธ์ แล้วลองคาดการณ์จากที่นั่น การคาดคะเนไม่ได้ให้ระดับความเชื่อมั่นว่าเราต้องการสำหรับปัญหาที่ยากลำบากนี้
[NPC5]ดังนั้นพวกเขาจึงอยากจะเข้าใจความฉลาดอย่างลึกซึ้งแทน เลิกสับสนในเรื่องนี้ เมื่อคุณเข้าใจวิธีการทำงานของหน่วยสืบราชการลับในระดับทฤษฎีแล้ว คุณสามารถเริ่มใช้ทฤษฎีนั้นกับระบบ AI จริงและดูว่าพวกมันประมาณทฤษฎีอย่างไร หรือคาดการณ์ว่าระบบ AI ต่างๆ จะทำอะไรได้บ้าง และหวังว่าเราจะสามารถพูดได้ว่า “ใช่ ระบบนี้ดูเหมือนว่าจะมีประสิทธิภาพมาก ในการประมาณแนวคิดเฉพาะนี้ ส่วนหนึ่งของทฤษฎีความฉลาดเฉพาะส่วนนี้ และเราสามารถเห็นได้ว่าด้วยทฤษฎีความฉลาดเฉพาะนี้ เราสามารถปรับตัวให้เข้ากับมนุษย์ได้ และคุณก็คาดหวังว่าสิ่งนี้จะได้ผล” อะไรแบบนั้น.