Get in my Think Art.

AI Alignment Podcast: การเรียนรู้การเสริมแรงผกผันและสถานะของ AI Alignment กับ Rohin Shah

AI Alignment Podcast: การเรียนรู้การเสริมแรงผกผันและสถานะของ AI Alignment กับ Rohin Shah

AI Alignment Podcast: การเรียนรู้การเสริมแรงผกผันและสถานะของ AI Alignment กับ Rohin Shah

jumbo jili

การเรียนรู้การเสริมแรงผกผัน (IRL) มีบทบาทอย่างไรในการจัดตำแหน่ง AI ประเด็นใดที่ทำให้ IRL ซับซ้อน และสิ่งนี้ส่งผลต่อประโยชน์ของวิธีการเรียนรู้การกำหนดลักษณะนี้อย่างไร กระบวนทัศน์ของการจัดตำแหน่ง AI แบบใดที่เราควรใช้เมื่อพิจารณาถึงข้อกังวลดังกล่าว
การเรียนรู้การเสริมแรงผกผันและสถานะของ AI Alignment กับ Rohin Shah เป็นพอดคาสต์ที่เจ็ดในซีรี่ส์ AI Alignment Podcast ซึ่งจัดโดย Lucas Perry สำหรับผู้ที่เพิ่งมาใหม่ ซีรีส์นี้ครอบคลุมและสำรวจปัญหาการจัดตำแหน่ง AI ในโดเมนที่หลากหลาย ซึ่งสะท้อนถึงลักษณะสหวิทยาการพื้นฐานของการจัดตำแหน่ง AI ในวงกว้าง เราจะหารือกับนักวิจัยด้านเทคนิคและที่ไม่ใช่ด้านเทคนิคในด้านต่างๆ เช่น แมชชีนเลิร์นนิง ธรรมาภิบาล จริยธรรม ปรัชญา และจิตวิทยาที่เกี่ยวข้องกับโครงการสร้าง AI ที่เป็นประโยชน์ หากฟังดูน่าสนใจสำหรับคุณ เราหวังว่าคุณจะเข้าร่วมการสนทนาโดยติดตามเราหรือสมัครรับพ็อดคาสท์ของเราบนYoutube , SoundCloudหรือไซต์/แอปพลิเคชันพอดแคสต์ที่คุณต้องการ

สล็อต

Lucas: สวัสดีทุกคน ยินดีต้อนรับกลับสู่ซีรีส์ AI Alignment Podcast ฉันชื่อ Lucas Perry และวันนี้เราจะมาพูดคุยกับ Rohin Shah เกี่ยวกับงานของเขาเกี่ยวกับการเรียนรู้การเสริมแรงผกผันและมุมมองทั่วไปของเขาเกี่ยวกับสถานะของความพยายามและทฤษฎีในการจัดแนว AI ในวันนี้ Rohin เป็นนักศึกษาปริญญาเอกปีที่ 5 ที่ UC Berkeley โดยมี Center for Human-Compatible AI ทำงานร่วมกับ Anca Dragan, Pieter Abbeel และ Stuart Russell ทุกสัปดาห์ เขารวบรวมและสรุปความคืบหน้าล่าสุดที่เกี่ยวข้องกับการจัดตำแหน่ง AI ในจดหมายข่าว Alignment เขายังทำงานด้วยการเห็นแก่ประโยชน์ผู้อื่นอย่างมีประสิทธิภาพมาหลายปีแล้ว โดยไม่ต้องกังวลใจต่อไปฉันจะให้ Rohin Shah แก่คุณ
เฮ้ โรฮิน ขอบคุณมากที่มาฟังพอดแคสต์ รู้สึกยินดีเป็นอย่างยิ่งที่ได้พูดคุยกับคุณ
โรฮิน: เฮ้ ลูคัส ใช่. ขอบคุณที่เชิญฉัน. ฉันดีใจที่ได้อยู่
ลูคัส: วันนี้ ฉันคิดว่าน่าสนใจที่จะเริ่มต้นโดยเจาะลึกงานปัจจุบันมากมายที่คุณกำลังมองหาและฝึกฝนในช่วงไม่กี่ปีที่ผ่านมา ในแง่ของการวิจัยของคุณ ดูเหมือนว่าคุณได้ทำงานมากมายเกี่ยวกับอัลกอริธึมที่ใช้งานได้จริงสำหรับการเรียนรู้การเสริมแรงผกผัน ซึ่งพิจารณาตามที่คุณพูด อคติทางปัญญาอย่างเป็นระบบที่ผู้คนมี คงจะเป็นเรื่องที่น่าสนใจหากคุณสามารถแกะงานที่คุณเคยทำกับมันออกมา แล้วปรับบริบทให้เข้ากับปัญหาการจัดตำแหน่ง AI ได้เล็กน้อย
โรฮิน: แน่นอน โดยพื้นฐานแล้ว แนวคิดที่มีการเรียนรู้การเสริมแรงผกผันคือ คุณสามารถดูพฤติกรรมของเจ้าหน้าที่บางคน บางทีอาจเป็นมนุษย์ และบอกว่าพวกเขากำลังพยายามเพิ่มประสิทธิภาพอะไร สิ่งที่พวกเขาสนใจคืออะไร เป้าหมายของพวกเขาคืออะไร? และในทางทฤษฎี ดูเหมือนว่าเป็นวิธีที่ค่อนข้างดีในการจัดตำแหน่ง AI และโดยสัญชาตญาณ คุณสามารถพูดได้ว่า “เฮ้ AI ไปดูการกระทำของมนุษย์ ดูสิ่งที่พวกเขาพูด ดูสิ่งที่พวกเขาทำ ทำ ทั้งหมดนี้และค้นหาสิ่งที่มนุษย์สนใจ” จากนั้นคุณสามารถใช้สิ่งนั้นเป็นฟังก์ชั่นยูทิลิตี้สำหรับระบบ AI ของคุณ
ฉันคิดว่าตอนนี้ฉันมองโลกในแง่ดีน้อยลงเกี่ยวกับแนวทางนี้ด้วยเหตุผลบางประการ ส่วนหนึ่งเป็นเพราะงานวิจัยของฉันเกี่ยวกับอคติที่เป็นระบบ โดยพื้นฐานแล้วปัญหาหนึ่งที่คุณต้องจัดการคือข้อเท็จจริงที่ว่าไม่ว่ามนุษย์จะพยายามเพิ่มประสิทธิภาพอะไรก็ตาม พวกเขาจะไม่ได้ทำให้มันสมบูรณ์แบบ เรามีอคติทางปัญญาทุกประเภท เช่น การวางแผนที่ผิดพลาด หรือตัวลดเวลาแบบไฮเพอร์โบลิก เมื่อเรามักจะสายตาสั้น ไม่ได้มองไปไกลถึงระยะยาวเท่าที่เราจะทำได้
ดังนั้น สมมติว่ามนุษย์เปรียบเสมือนการเพิ่มประสิทธิภาพเป้าหมายอย่างสมบูรณ์ซึ่งพวกเขาสนใจ ก็เหมือนชัดเจนว่าจะไม่ได้ผล และที่จริงแล้ว โดยพื้นฐานแล้ว ถ้าคุณตั้งสมมติฐานนั้น ทีนี้ ไม่ว่าฟังก์ชันการให้รางวัลใดๆ ที่คุณอนุมานไว้ เมื่อระบบ AI เพิ่มประสิทธิภาพนั้น มันจะกู้คืนประสิทธิภาพของมนุษย์ได้ เพราะคุณก็ถือว่าเหมาะสมที่สุดแล้วเมื่อคุณอนุมานว่า นั่นก็หมายความว่าสิ่งที่มนุษย์กำลังทำอยู่อาจเป็นพฤติกรรมที่ปรับการทำงานของพวกเขาให้เหมาะสมที่สุดที่คุณอนุมานได้
และเราอยากจะเข้าถึงสมรรถนะของมนุษย์อย่างแท้จริง เราต้องการให้ระบบ AI ของเราบอกเราว่าเราผิดอย่างไรที่นำเทคโนโลยีใหม่ๆ มาพัฒนาสิ่งที่เราไม่สามารถทำได้ด้วยตัวเอง และนั่นไม่ใช่สิ่งที่เราสามารถทำได้โดยใช้การเรียนรู้การเสริมแรงผกผันแบบไร้เดียงสาที่ถือว่าคุณเหมาะสมที่สุด สิ่งหนึ่งที่คุณสามารถลองทำได้คือเรียนรู้วิธีที่มนุษย์มีอคติ วิธีที่พวกเขาทำผิดพลาด วิธีที่พวกเขาวางแผนอย่างไม่เหมาะสม และถ้าคุณเรียนรู้สิ่งนั้นได้ คุณก็จะสามารถแก้ไขข้อผิดพลาดเหล่านั้นได้ ให้คำนึงถึงเมื่อคุณกำลังอนุมานคุณค่าของมนุษย์
ตัวอย่างที่ฉันชอบใช้คือ หากมีนักศึกษาระดับบัณฑิตศึกษาที่ผัดวันประกันพรุ่งหรือวางแผนได้ไม่ดี และด้วยเหตุที่ใกล้ถึงกำหนดส่งเอกสาร พวกเขากำลังทำงานอย่างเมามัน แต่พวกเขามาไม่ทันและพลาดกำหนดส่งกระดาษ ถ้าคุณคิดว่าเหมาะสมที่สุด และปรับให้เหมาะสมสำหรับเป้าหมายของพวกเขาเป็นอย่างดี ฉันไม่รู้ว่าคุณจะสรุปอย่างไร บางทีนักเรียนที่จบปริญญาอาจชอบพลาดกำหนดเวลา บางอย่างที่ดูแปลก ๆ และดูเหมือนคุณจะไม่ได้รับสิ่งที่สมเหตุสมผลจากสิ่งนั้น แต่ถ้าคุณตระหนักว่ามนุษย์ไม่ค่อยเก่งในการวางแผน พวกเขามีการวางแผนที่ผิดพลาด และพวกเขามักจะผัดวันประกันพรุ่งด้วยเหตุผลที่ว่า จะไม่สนับสนุนการไตร่ตรอง บางทีคุณอาจจะสามารถพูดว่า “โอ้ นี่เป็นเพียงความผิดพลาดของนักเรียนที่จบปริญญาตรี ในอนาคตฉันควรพยายามช่วยให้พวกเขาบรรลุกำหนดเวลา”

สล็อตออนไลน์

นั่นคือเหตุผลที่คุณต้องการเรียนรู้อคติอย่างเป็นระบบ การวิจัยของฉันโดยพื้นฐานแล้วเราก็แค่ใช้ค้อนของการเรียนรู้เชิงลึกและนำไปใช้กับปัญหานี้ ไม่ใช่แค่เรียนรู้ฟังก์ชันการให้รางวัล แต่มาเรียนรู้อคติกันด้วย ปรากฎว่าสิ่งนี้เป็นที่ทราบกันดีอยู่แล้ว แต่มีผลลัพธ์ที่เป็นไปไม่ได้ที่บอกว่าคุณไม่สามารถทำได้โดยทั่วไป ยิ่งกว่านั้น ฉันคิดว่าฉันจะใช้ถ้อยคำในคำถามที่ฉันกำลังสืบสวนอยู่ เนื่องจากข้อสันนิษฐานที่อ่อนแอกว่าบางข้อที่เราใช้อยู่ในปัจจุบันนั้น มีอะไรบ้างที่คุณยังสามารถใช้ IRL ในรูปแบบที่สมเหตุสมผลได้
ลูคัส: ขอโทษ แค่ถอยหลังสักครึ่งวินาที ทฤษฎีบทความเป็นไปไม่ได้นี้พูดว่าอะไร?
โรฮิน: ทฤษฎีบทความเป็นไปไม่ได้บอกว่า ถ้าคุณคิดว่าโดยพื้นฐานแล้วมนุษย์กำลังใช้นักวางแผนที่ทำหน้าที่ให้รางวัล และพูดถึงพฤติกรรมหรือนโยบาย สิ่งที่ต้องทำเมื่อเวลาผ่านไป ถ้าคุณเห็นทั้งหมดคือ พฤติกรรมของมนุษย์ โดยพื้นฐานแล้ว ฟังก์ชันการให้รางวัลใดๆ ก็เข้ากันได้กับนักวางแผนบางคน ดังนั้นคุณจึงไม่สามารถเรียนรู้อะไรเกี่ยวกับฟังก์ชันการให้รางวัลได้โดยไม่ต้องตั้งสมมติฐานเพิ่มเติม และโดยสัญชาตญาณ นี่เป็นเพราะสำหรับพฤติกรรมที่ซับซ้อนใดๆ ที่คุณเห็น คุณสามารถเรียกมันว่า “เฮ้ มนุษย์กำลังเพิ่มประสิทธิภาพของรางวัลที่ทำให้พวกเขาทำแบบนั้น “หรือคุณอาจพูดว่า “ฉันเดาว่ามนุษย์มีอคติและพวกเขากำลังพยายามทำอย่างอื่น แต่พวกเขาทำสิ่งนี้แทน”
เวอร์ชันสุดโต่งนี้เหมือนกับถ้าคุณให้ตัวเลือกระหว่างแอปเปิ้ลกับส้ม และฉันเลือกแอปเปิ้ล คุณสามารถพูดได้ว่า “เฮ้ โรฮินน่าจะชอบแอปเปิ้ลและเก่งในการเพิ่มผลตอบแทนจากการได้แอปเปิ้ลให้ได้มากที่สุด” หรือคุณอาจพูดได้ว่า “โรฮินอาจชอบส้มและเขาแค่ตอบสนองความต้องการของเขาได้แย่มาก เขามีอคติที่เป็นระบบที่ทำให้เขาเลือกสิ่งที่ตรงกันข้ามกับสิ่งที่เขาต้องการเสมอ” และคุณไม่สามารถแยกความแตกต่างระหว่างสองกรณีนี้ได้ เพียงแค่ดูพฤติกรรมของฉัน
ลูคัส: ใช่ มีเหตุผล ดังนั้นเราจึงสามารถพลิกกลับเข้าไปในแนวความคิดหลักที่คุณคิดได้
โรฮิน: ครับ โดยพื้นฐานแล้วด้วยผลลัพธ์ที่เป็นไปไม่ได้นั้น … เมื่อฉันดูผลลัพธ์ของความเป็นไปไม่ได้ ฉันพูดว่ามนุษย์ทำสิ่งนี้ตลอดเวลา มนุษย์เพียงแค่มองมนุษย์คนอื่น ๆ และพวกเขาสามารถคิดออกว่าพวกเขาต้องการทำอะไร ดังนั้นจึงดูเหมือนว่าอาจมีชุดสมมติฐานง่ายๆ ที่มนุษย์ใช้เพื่ออนุมานว่ามนุษย์คนอื่นกำลังทำอะไรอยู่ ดังนั้น เรื่องง่ายๆ ก็คือเมื่อผลของบางสิ่งหรือสิ่งที่เห็นได้ชัดต่อมนุษย์ ทีนี้ คุณจะตัดสินได้อย่างไรว่าเมื่อไรเป็นอีกคำถามหนึ่ง แต่เมื่อนั่นเป็นความจริง มนุษย์มักจะเข้าใกล้ความเหมาะสมที่สุด และถ้าคุณมีสิ่งนั้น คุณสามารถแยกแยะผู้วางแผนที่บอกว่ามนุษย์ต่อต้านเหตุผลและเลือกสิ่งที่แย่ที่สุดได้เสมอ สิ่ง.
ในทำนองเดียวกัน คุณอาจกล่าวได้ว่าเมื่องานมีความซับซ้อนมากขึ้นเรื่อยๆ หรือต้องการการคำนวณมากขึ้นเรื่อยๆ ความน่าจะเป็นที่มนุษย์จะเลือกการกระทำที่เพิ่มเป้าหมายสูงสุดของตนได้ดีที่สุดก็ลดลงเช่นกัน เนื่องจากงานมีความซับซ้อนมากขึ้นและบางทีมนุษย์อาจไม่ได้ หาทางออกไม่เจอ หาสิ่งที่ดีที่สุดที่ควรทำ บางทีด้วยสมมติฐานที่เพียงพอ เราก็อาจได้อัลกอริทึมบางประเภทที่ใช้งานได้จริง
ดังนั้นเราจึงมองว่าถ้าคุณตั้งสมมติฐานว่ามนุษย์มักจะใกล้เคียงกับเหตุผลและข้อสันนิษฐานอื่นๆ เกี่ยวกับมนุษย์ที่มีพฤติกรรมคล้ายคลึงกันหรือวางแผนคล้ายกันในงานที่คล้ายคลึงกัน คุณอาจจะทำ IRL ได้ดีขึ้นในการตั้งค่าแบบง่าย มากกว่าที่คุณคิดไปเองว่ามนุษย์นั้นเหมาะสมที่สุดหากมนุษย์มีอคติอย่างเป็นระบบจริง ๆ แต่ฉันจะไม่พูดว่าผลลัพธ์ของเรานั้นยอดเยี่ยม ฉันไม่คิดว่าฉันจะพูดอย่างเด็ดขาดว่า “สิ่งนี้จะไม่ได้ผล” ฉันไม่ได้สรุปอย่างชัดเจนว่าสิ่งนี้ยอดเยี่ยมและเราควรจะใส่ทรัพยากรมากขึ้นอย่างแน่นอน อยู่ตรงกลาง บางทีอาจมีด้านลบมากกว่านี้ ดูเหมือนจะเป็นปัญหาที่ยากมาก และฉันไม่แน่ใจว่าเราจะแก้ไขมันอย่างไร

jumboslot

ลูคัส: ฉันก็เลยคิดว่าเป็นจุดเปรียบเทียบที่นี่ ทำไมมนุษย์ถึงประสบความสำเร็จในเรื่องนี้ทุกวันในแง่ของการอนุมานความชอบ?
Rohin: ฉันคิดว่ามนุษย์มีประโยชน์ที่จะสามารถจำลองคนอื่นว่ามีความคล้ายคลึงกันกับตัวเองมาก ถ้าฉันพยายามอนุมานสิ่งที่คุณกำลังทำอยู่ ฉันสามารถพูดได้ว่า “ถ้าฉันอยู่ในปัญหาของลูคัสและฉันกำลังทำเช่นนี้ ฉันจะเพิ่มประสิทธิภาพอะไร” และนั่นเป็นคำตอบที่ดีทีเดียวสำหรับสิ่งที่คุณจะเพิ่มประสิทธิภาพ มนุษย์มีความคล้ายคลึงกันมาก เรามีอคติที่คล้ายคลึงกัน เรามีวิธีคิดที่คล้ายกัน และฉันคิดว่าเราได้ใช้ประโยชน์จากความคล้ายคลึงกันอย่างมากโดยใช้แบบจำลองตนเองของเราเอง เป็นการประมาณแบบดรอปดาวน์ของผู้วางแผนของอีกฝ่ายในภาษาที่ให้รางวัลแก่ผู้วางแผนนี้
แล้วเราก็พูดว่า “เอาล่ะ ถ้าคนอื่นคิดเหมือนฉันและนี่คือสิ่งที่เขาทำสำเร็จ ถ้าอย่างนั้นพวกเขาจะต้องเพิ่มประสิทธิภาพอะไรบ้าง” ฉันคิดว่าคุณจะเห็นว่าเมื่อสมมติฐานนี้พังลง มนุษย์จะยิ่งแย่ลงในการอนุมานเป้าหมาย เป็นการยากสำหรับฉันที่จะอนุมานว่าคนในวัฒนธรรมอื่นพยายามจะทำอะไร พวกเขาอาจมีค่าที่แตกต่างจากของฉันอย่างมาก
ฉันเคยไปทั้งในอินเดียและสหรัฐอเมริกา และบ่อยครั้งสำหรับฉันที่คนในสหรัฐฯ มีปัญหาในการเข้าใจวิธีที่คนอินเดียมองเห็นสังคมและความคาดหวังของครอบครัวและสิ่งต่างๆ เช่นนี้ นั่นคือตัวอย่างที่ผมสังเกตเห็น มันอาจจะจริงในอีกทางหนึ่งด้วย แต่ฉันไม่เคยโตพอที่จะคิดเรื่องนี้จริงๆ ในอินเดีย
ลูคัส: มนุษย์ประสบความสำเร็จในการอนุมานความชอบของบุคคลที่พวกเขาสามารถจำลองว่ามีค่าที่คล้ายคลึงกันกับพวกเขาเอง หรือถ้าคุณรู้ว่าบุคคลนั้นมีค่าเท่ากับของคุณเอง หากการอนุมานความชอบของมนุษย์จากการเรียนรู้การเสริมแรงผกผันนั้นไม่ได้ผลลัพธ์ที่คาดหวังมากที่สุด แล้วอะไรที่คุณเชื่อว่าเป็นวิธีที่แข็งแกร่งกว่าในการอนุมานความชอบของมนุษย์
Rohin: สิ่งหนึ่งที่ฉันแก้ไขคือ ฉันไม่คิดว่ามนุษย์จะทำโดยสมมติว่าผู้คนมีค่านิยมคล้ายกัน เพียงแต่คนคิดในลักษณะเดียวกัน ตัวอย่างเช่น ฉันเต้นไม่เก่ง ถ้าผมเห็นใครเล่นฮิปฮอปหรืออะไรทำนองนั้น ไม่ใช่ว่าฉันให้คุณค่ากับฮิปฮอป ดังนั้นฉันสามารถอนุมานได้ว่าพวกเขาให้คุณค่ากับฮิปฮอป ฉันรู้ว่าฉันทำสิ่งที่ฉันชอบและพวกเขากำลังทำฮิปฮอป ดังนั้นพวกเขาน่าจะชอบทำฮิปฮอป แต่อย่างไรก็ตาม นั่นเป็นประเด็นรอง
ดังนั้น เพียงเพราะว่าอัลกอริธึม IRL ทำงานได้ไม่ดีในตอนนี้ ฉันไม่คิดว่ามันเป็นความจริงที่อัลกอริธึม IRL จะทำได้ไม่ดีในอนาคต มีเหตุผลที่จะคาดหวังว่าพวกเขาจะตรงกับประสิทธิภาพของมนุษย์ ที่กล่าวว่าฉันไม่ได้มองโลกในแง่ดีสุด ๆ เกี่ยวกับ IRL เพราะแม้ว่าเราจะคิดหาวิธีรับอัลกอริธึม IRL และสร้างสมมติฐานโดยปริยายเหล่านี้ทั้งหมดที่มนุษย์สร้างขึ้นเพื่อให้เราสามารถเรียกใช้และรับสิ่งที่มนุษย์คิดได้ มนุษย์คนอื่นกำลังปรับให้เหมาะสม ฉันไม่ค่อยพอใจกับการไปปรับฟังก์ชันอรรถประโยชน์นั้นให้เหมาะสมในอนาคตอันไกล ซึ่งเป็นสมมติฐานเริ่มต้นที่เราดูเหมือนจะมีเมื่อใช้การเรียนรู้การเสริมแรงผกผัน
อาจเป็นไปได้ว่าอัลกอริธึม IRL นั้นดีสำหรับอย่างอื่น แต่สำหรับแอปพลิเคชันนั้น ดูเหมือนว่าฟังก์ชันยูทิลิตี้ที่คุณอนุมานว่าจะไม่ขยายขนาดจริง ๆ กับสิ่งที่อัจฉริยะขั้นสูงจะให้เราทำ มนุษย์คิดต่างไปจากเดิมมากว่าพวกเขาต้องการให้อนาคตเป็นอย่างไร ในแง่หนึ่ง อนาคตจะแตกต่างกันมาก เราจะต้องคิดให้มากว่าเราต้องการให้อนาคตเป็นอย่างไร ประสบการณ์ทั้งหมดของเราจนถึงตอนนี้ไม่ได้ฝึกฝนให้เรานึกถึงสิ่งที่เราสนใจในการตั้งค่าคุณลักษณะ ซึ่งเราได้ยกตัวอย่างง่ายๆ ว่า ความสามารถในการคัดลอกผู้คนได้อย่างง่ายดายหากพวกเขาอัปโหลดเป็นซอฟต์แวร์
ถ้านั่นเป็นสิ่งที่เกิดขึ้น โคลนตัวเอง โอเคไหม? ประชาธิปไตยทำงานอย่างไร? สิ่งเหล่านี้ล้วนเป็นการตัดสินที่มีคุณค่า หากคุณใช้ความเท่าเทียมและดำเนินการตามนั้น คุณจะได้เพียงคนเดียวที่สามารถลอกเลียนตัวเองได้หลายล้านครั้ง และตัดสินผลลัพธ์ของการลงคะแนนทั้งหมดด้วยวิธีนั้น มันดูแย่ แต่สำหรับค่านิยมปัจจุบันของเรา ฉันคิดว่านั่นอาจเป็นสิ่งที่เราต้องการและเรายังไม่ได้คิดเรื่องนี้จริงๆ IRL เพื่ออนุมานฟังก์ชันอรรถประโยชน์ที่เราเพิ่งปรับปรุงอย่างไร้ความปราณีในระยะยาว ดูเหมือนว่าเมื่อโลกเปลี่ยนพวง ฟังก์ชันค่าที่เราอนุมานจะผิดอย่างน่าประหลาดในแบบที่เราทำได้’ ทำนาย
Lucas: ทำไมไม่รันการอัปเดตอย่างต่อเนื่องในขณะที่ผู้คนอัปเดตเมื่อมีการเปลี่ยนแปลงของโลก
[NPC5]Rohin: มันดูสมเหตุสมผลในวงกว้าง นี่เป็นแนวคิดที่คุณสามารถมีได้เกี่ยวกับวิธีการใช้ IRL ในลักษณะที่สมจริงยิ่งขึ้นและใช้งานได้จริง ฉันคิดว่ามันดีมาก ฉันมองโลกในแง่ดีเกี่ยวกับวิธีการที่เป็นเหมือน “โอเค เราจะใช้ IRL เพื่ออนุมานฟังก์ชันค่าหรือฟังก์ชันการให้รางวัล หรือบางอย่าง เราจะใช้สิ่งนั้นเพื่อแจ้งว่า AI ทำอะไร แต่จะไม่ เป็นฟังก์ชันอรรถประโยชน์สุดท้ายทั้งหมด เป็นเพียงการอนุมานสิ่งที่เราทำตอนนี้และระบบ AI จะตรวจสอบกับเรา อาจมีความไม่แน่นอนบางอย่างเกี่ยวกับฟังก์ชันการให้รางวัลที่แท้จริง บางทีมันอาจเก็บฟังก์ชันการให้รางวัลไว้ได้เพียงระยะเวลาหนึ่งเท่านั้น”