Get in my Think Art.

AI Alignment Podcast: การเรียนรู้การเสริมแรงผกผันและการอนุมานความชอบของมนุษย์ด้วย Dylan Hadfield-Menell

AI Alignment Podcast: การเรียนรู้การเสริมแรงผกผันและการอนุมานความชอบของมนุษย์ด้วย Dylan Hadfield-Menell

AI Alignment Podcast: การเรียนรู้การเสริมแรงผกผันและการอนุมานความชอบของมนุษย์ด้วย Dylan Hadfield-Menell

jumbo jili

Inverse Reinforcement Learning and Inferring Human Preferences เป็นพอดคาสต์แรกในชุด AI Alignment ใหม่ ซึ่งจัดโดย Lucas Perry ชุดนี้จะครอบคลุมและสำรวจปัญหาการจัดตำแหน่ง AI ในโดเมนที่หลากหลาย ซึ่งสะท้อนถึงลักษณะสหวิทยาการพื้นฐานของการจัดตำแหน่ง AI ในวงกว้าง เราจะหารือกับนักวิจัยด้านเทคนิคและที่ไม่ใช่ด้านเทคนิคในหลากหลายด้าน เช่น การเรียนรู้ของเครื่อง ความปลอดภัยของ AI การกำกับดูแล การประสานงาน จริยธรรม ปรัชญา และจิตวิทยา ที่เกี่ยวข้องกับโครงการสร้าง AI ที่เป็นประโยชน์ หากฟังดูน่าสนใจสำหรับคุณ เราหวังว่าคุณจะเข้าร่วมการสนทนาโดยติดตามหรือสมัครรับข้อมูลจาก Youtube, Soundcloud หรือไซต์/แอปพลิเคชันพอดแคสต์ที่คุณต้องการ

สล็อต

หากคุณสนใจที่จะสำรวจลักษณะสหวิทยาการของการจัดตำแหน่ง AI เราขอแนะนำให้คุณดูที่นี่ที่แผนที่เบื้องต้นซึ่งจะเริ่มทำแผนที่พื้นที่นี้
ในพอดคาสต์นี้ Lucas ได้พูดคุยกับ Dylan Hadfield-Menell นักศึกษาปริญญาเอกปีที่ 5 ที่ UC Berkeley การวิจัยของดีแลนมุ่งเน้นไปที่ปัญหาการจัดตำแหน่งที่คุ้มค่าในด้านปัญญาประดิษฐ์ ในที่สุดเขาก็กังวลเกี่ยวกับการออกแบบอัลกอริธึมที่สามารถเรียนรู้และดำเนินการตามเป้าหมายที่ตั้งใจไว้ของผู้ใช้ นักออกแบบ และสังคมโดยทั่วไป งานล่าสุดของเขามุ่งเน้นไปที่อัลกอริธึมสำหรับการโต้ตอบระหว่างมนุษย์กับหุ่นยนต์โดยไม่ทราบความต้องการและวิศวกรรมความน่าเชื่อถือสำหรับระบบการเรียนรู้
ลูคัส: ขอ ต้อนรับกลับสู่พอดคาสต์ของสถาบันอนาคตแห่งชีวิต ฉันชื่อ Lucas Perry และฉันทำงานเกี่ยวกับความเสี่ยงด้าน AI และโครงการที่เกี่ยวข้องกับความเสี่ยงด้านอาวุธนิวเคลียร์ที่ FLI วันนี้ เรากำลังเริ่มต้นซีรีส์ใหม่ ซึ่งเราจะมีการสนทนากับนักวิจัยด้านเทคนิคและที่ไม่ใช่ด้านเทคนิคที่เน้นเรื่องความปลอดภัยของ AI และปัญหาการจัดตำแหน่งคุณค่า ในวงกว้าง เราจะมุ่งเน้นไปที่ลักษณะสหวิทยาการของโครงการในการสร้าง AI ที่สอดคล้องกับมูลค่าในที่สุด ที่ซึ่งความสอดคล้องของคุณค่านำมาซึ่งคำถามเปิดซึ่งเป็นส่วนหนึ่งของการสนทนา
โดยทั่วไป ชุดนี้ครอบคลุมประเด็นทางสังคม การเมือง จริยธรรม และเทคนิค และคำถามเกี่ยวกับการสร้าง AI ที่เป็นประโยชน์ เราจะพูดคุยกับผู้เชี่ยวชาญจากหลากหลายโดเมน และหวังว่าคุณจะเข้าร่วมการสนทนา หากดูเหมือนว่าน่าสนใจสำหรับคุณ โปรดติดตามเราบน SoundCloud หรือสมัครรับข้อมูลบน YouTube สำหรับเนื้อหาที่คล้ายกันมากขึ้น
วันนี้เราจะมาพูดคุยกับ Dylan Hadfield Menell Dylan เป็นนักศึกษาปริญญาเอกปีที่ 5 ที่ UC Berkeley ซึ่งได้รับคำแนะนำจาก Anca Dragan, Pieter Abbeel และ Stuart Russell งานวิจัยของเขามุ่งเน้นไปที่ปัญหาการจัดตำแหน่งคุณค่าในปัญญาประดิษฐ์ ด้วยเหตุนี้ฉันจึงให้ดีแลนแก่คุณ เฮ้ ดีแลน ขอบคุณมากสำหรับการมาในพอดคาสต์
ดีแลน: ขอบคุณที่มีฉัน มันเป็นความสุขที่ได้มาอยู่ที่นี่
Lucas: ฉันเดาว่า เราสามารถเริ่มต้นได้ ถ้าคุณช่วยบอกฉันหน่อยเกี่ยวกับงานของคุณในช่วงหลายปีที่ผ่านมา ความสนใจและโครงการของคุณพัฒนาขึ้นอย่างไร? สิ่งนั้นนำคุณมาสู่ที่ที่คุณอยู่ทุกวันนี้ได้อย่างไร
ดีแลน: ฉันเริ่มเรียนในระดับปริญญาตรีและปริญญาเอกที่ทำงานด้านวิทยาการหุ่นยนต์และวิทยาการหุ่นยนต์ตามลำดับชั้น ในช่วงปลายปีแรกของฉัน ที่ปรึกษาของฉันกลับมาจากวันหยุด และเริ่มพูดถึงปัญหาการจัดตำแหน่งคุณค่าและปัญหาความเสี่ยงที่มีอยู่ที่เกี่ยวข้องกับ AI เมื่อถึงจุดนั้น ฉันเริ่มคิดเกี่ยวกับคำถามเกี่ยวกับวัตถุประสงค์ที่ไม่ตรงแนว การจัดแนวคุณค่า และโดยทั่วไปแล้วเราจะรับการตั้งค่าและวัตถุประสงค์ที่ถูกต้องในระบบ AI ได้อย่างไร ประมาณหนึ่งปีหลังจากนั้น ฉันตัดสินใจที่จะทำให้งานวิจัยนี้เป็นเป้าหมายหลักของฉัน ในช่วงสามปีที่ผ่านมา นั่นเป็นสิ่งที่ฉันคิดมากที่สุด
ลูคัส : ใจเย็นๆ ดูเหมือนว่าคุณมีเส้นทางเดิมที่คุณกำลังทำงานเกี่ยวกับหุ่นยนต์ที่ใช้งานได้จริง จากนั้น คุณเปลี่ยนไปสู่การจัดตำแหน่งคุณค่าและความพยายามด้านความปลอดภัยของ AI มากขึ้น
ดีแลน: ใช่ ถูกต้อง
ลูคัส: ก่อนที่เราจะลงมือทำงานเฉพาะของคุณ มันจะดีมากถ้าเราสามารถไปข้างหน้าและกำหนดว่าการเรียนรู้แบบเสริมแรงผกผันคืออะไรกันแน่ สำหรับฉัน ดูเหมือนว่าการเรียนรู้การเสริมแรงผกผัน อย่างน้อย จากมุมมอง ฉันเดาว่าของนักวิจัยด้านความปลอดภัยของ AI ด้านเทคนิค มันถูกมองว่าเป็นวิธีเชิงประจักษ์ในการเอาชนะจริยธรรมเชิงพรรณนา โดยที่เราสามารถให้คำอธิบายที่ชัดเจนเกี่ยวกับ ค่ากำหนดและค่านิยมของตัวแทนที่ได้รับในช่วงเวลาหนึ่งๆ คืออะไร นั่นเป็นลักษณะที่ยุติธรรมหรือไม่?
ดีแลน: นั่นเป็นวิธีหนึ่งในการอธิบายลักษณะนี้ อีกวิธีหนึ่งในการคิดเกี่ยวกับเรื่องนี้ ซึ่งเป็นมุมมองปกติของฉันในบางครั้ง คือการคิดว่าการเรียนรู้การเสริมแรงผกผันเป็นวิธีการทำแบบจำลองพฤติกรรมที่มีคุณสมบัติทั่วไปบางประเภท
ทุกครั้งที่คุณเรียนรู้ในบริบทของแมชชีนเลิร์นนิง มักจะมีอคติที่ควบคุมวิธีการสรุปข้อมูลใหม่ของคุณ การเรียนรู้การเสริมแรงผกผันและการเรียนรู้ตามความชอบ ในระดับหนึ่ง เป็นความลำเอียงในการสร้างแบบจำลองพฤติกรรม กล่าวคือ เราควรจำลองตัวแทนนี้ให้บรรลุเป้าหมาย เป็นการตอบสนองต่อชุดของความพึงพอใจ ที่นำไปสู่คุณสมบัติลักษณะทั่วไปบางประเภทและสภาพแวดล้อมใหม่ สำหรับฉัน การเรียนรู้การเสริมแรงผกผันกำลังสร้างขึ้นในสมมติฐานที่ใช้ตัวแทนในการสร้างแบบจำลองพฤติกรรม

สล็อตออนไลน์

ลูคัส: ด้วยเหตุผลนี้ ฉันอยากจะเจาะลึกลงไปในงานเฉพาะที่คุณกำลังทำงานอยู่ และไปที่บทสรุปของสิ่งที่คุณค้นพบและงานวิจัยของคุณที่คุณได้ทำไปแล้ว จากความสนใจที่คุณได้พัฒนาในการจัดตำแหน่งคุณค่าและการรวมความชอบของมนุษย์ และระบบ AI ที่เรียนรู้การตั้งค่าของมนุษย์ แนวทางหลักที่คุณดำเนินการอยู่คืออะไร
Dylan: ฉันคิดว่าสิ่งแรกที่จริงๆ แล้ว Stuart Russell และฉันเริ่มคิดคือการพยายามทำความเข้าใจในทางทฤษฎี อะไรคือเป้าหมายที่สมเหตุสมผลในการถ่ายทำ และการทำงานที่ดีในการจัดตำแหน่งที่มีคุณค่าคืออะไร สำหรับเรา ดูเหมือนว่าปัญหาเกี่ยวกับวัตถุประสงค์ที่ระบุไม่ถูกต้อง อย่างน้อย ในบางแง่มุม เป็นข้อบกพร่องในทฤษฎี
คณิตศาสตร์ทั้งหมดที่เกี่ยวกับปัญญาประดิษฐ์ เช่น กระบวนการตัดสินใจของ Markov ซึ่งเป็นแบบจำลองทางคณิตศาสตร์กลางที่เราใช้สำหรับการตัดสินใจเมื่อเวลาผ่านไป เริ่มต้นด้วยวัตถุประสงค์หรือฟังก์ชันคำที่กำหนดไว้จากภายนอก เราคิดว่าในทางคณิตศาสตร์ นั่นเป็นสิ่งที่ดีที่ต้องทำเพื่อก้าวหน้า แต่เป็นข้อสันนิษฐานที่ทำให้คนตาบอดในสนามเห็นถึงความสำคัญของการบรรลุวัตถุประสงค์ที่ถูกต้อง
ฉันคิดว่าสิ่งแรกที่เราพยายามทำคือทำความเข้าใจว่าระบบหรือการตั้งค่าสำหรับ AI คืออะไรอย่างน้อยก็ทำในสิ่งที่ถูกต้องตามทฤษฎี มีอะไรที่ถ้าเราสามารถดำเนินการนี้ซึ่งเราคิดว่าสามารถทำงานในโลกแห่งความเป็นจริงกับผู้คนได้ การคิดแบบนั้นทำให้เราเสนอการเรียนรู้การเสริมแรงผกผันแบบมีส่วนร่วม ซึ่งเป็นความพยายามของเราในการทำให้ปฏิสัมพันธ์เป็นแบบแผนโดยที่คุณสื่อสารวัตถุประสงค์ไปยังระบบ
สิ่งสำคัญที่เรามุ่งเน้นคือการรวมไว้ในทฤษฎีที่แสดงถึงความจริงที่ว่าวัตถุประสงค์ที่แท้จริงนั้นไม่รู้จักและไม่ได้สังเกต และจำเป็นต้องไปถึงผ่านการสังเกตจากบุคคล จากนั้น เราได้พยายามตรวจสอบความหมายเชิงทฤษฎีของการเปลี่ยนแปลงแบบจำลองนี้
ในรายงานฉบับแรกที่เราทำ ซึ่งมีชื่อว่า Cooperative Inverse Reinforcement Learning สิ่งที่เราพิจารณาก็คือว่าจริง ๆ แล้วสูตรนี้แตกต่างจากแบบจำลองสภาพแวดล้อมมาตรฐานใน AI อย่างไร โดยเฉพาะอย่างยิ่ง วิธีที่แตกต่างคือมีปฏิสัมพันธ์เชิงกลยุทธ์ในนามของบุคคล วิธีที่คุณสังเกตสิ่งที่คุณควรจะทำนั้นเป็นสื่อกลางโดยบุคคลที่อาจพยายามสอนจริงหรือพยายามสื่อสารอย่างเหมาะสม สิ่งที่เราแสดงให้เห็นคือการสร้างแบบจำลององค์ประกอบการสื่อสารนี้มีความสำคัญอย่างมากจริง ๆ และนำไปสู่พฤติกรรมการเรียนรู้ที่เร็วขึ้นมาก
ในงานต่อมา สิ่งที่เราได้พิจารณาคือการนำแบบจำลองที่เป็นทางการนี้ไปใช้ในทางทฤษฎี และพยายามนำไปใช้กับสถานการณ์ต่างๆ มีงานสำคัญสองชิ้นที่ฉันชอบที่นี่ที่เราทำ หนึ่งคือนำทฤษฎีนั้นมาใช้และวิเคราะห์แบบจำลองอย่างง่ายของการตั้งค่าความเสี่ยงที่มีอยู่อย่างชัดแจ้ง นี่เป็นบทความชื่อ The Off-Switch Game ที่เราเผยแพร่ที่ IJCAI เมื่อฤดูร้อนที่แล้ว มันคืออะไร กำลังทำงานผ่านแบบจำลองอย่างเป็นทางการของปัญหาความสอดคล้องภายในกรอบงาน CIRL (การเรียนรู้การเสริมแรงผกผันแบบมีส่วนร่วม) มันแสดงให้เห็นถึงประโยชน์ของการสร้างเกมประเภทนี้ในแง่ที่ว่าเราได้รับการคาดการณ์และผลลัพธ์ที่น่าสนใจ
อย่างแรกที่เราได้รับคือ มีเงื่อนไขง่ายๆ ที่จำเป็นสำหรับระบบที่ต้องการให้บุคคลปิดการทำงาน ซึ่งก็คือ หุ่นยนต์ ระบบ AI จำเป็นต้องมีความไม่แน่นอนเกี่ยวกับวัตถุประสงค์ที่แท้จริงของมัน กล่าวคือ มันต้องมีความเชื่อในความเป็นไปได้ที่มันอาจจะผิด จากนั้น สิ่งที่ต้องทำคือเชื่อว่าบุคคลที่มีปฏิสัมพันธ์ด้วยนั้นเป็นบุคคลที่มีเหตุผลอย่างสมบูรณ์ หากเป็นเรื่องจริง คุณจะได้รับการรับประกันว่าหุ่นยนต์ตัวนี้ยอมให้บุคคลนั้นปิดเครื่องเสมอ
นั่นเป็นสิ่งที่ดีเพราะในใจของฉัน มันเป็นตัวอย่างของสถานที่ที่ อย่างน้อย ในทางทฤษฎี มันแก้ปัญหาได้ สิ่งนี้ทำให้เรามีวิธีในทางทฤษฎีว่า เราสามารถสร้างระบบที่แก้ไขได้ ตอนนี้ มันยังคงสร้างสมมติฐานที่หนักแน่นมาก ซึ่งก็คือ เป็นเรื่องปกติที่จะจำลองมนุษย์ว่าเหมาะสมที่สุดหรือมีเหตุผล ฉันคิดว่าถ้าคุณดูคนจริงๆ นั่นไม่ใช่ข้อสันนิษฐานที่ยุติธรรมสำหรับเหตุผลทั้งหมด
สิ่งต่อไปที่เราทำในกระดาษนั้นคือเราดูโมเดลนี้ สิ่งที่เราตระหนักคือการเพิ่มจำนวนเล็กน้อยของความไร้เหตุผลทำให้ข้อกำหนดนี้ผิดไป หมายความว่าบางอย่างอาจผิดพลาดได้จริง สิ่งสุดท้ายที่เราทำในบทความนี้คือการดูผลที่ตามมาของการประเมินความมีเหตุผลของมนุษย์ที่สูงเกินไปหรือประเมินต่ำไป ข้อโต้แย้งที่เราทำคือมีข้อแลกเปลี่ยนระหว่างการถือว่าบุคคลนั้นมีเหตุผลมากกว่า ช่วยให้คุณได้รับข้อมูลเพิ่มเติมจากพฤติกรรมของพวกเขา เรียนรู้เพิ่มเติม และโดยหลักการแล้วช่วยพวกเขาได้มากขึ้น หากคุณถือว่ามันมีเหตุผลเกินไป สิ่งนี้อาจนำไปสู่พฤติกรรมที่ไม่ดีได้
[NPC4]มีจุดที่น่าสนใจที่คุณต้องการตั้งเป้า ซึ่งอาจพยายามดูถูกดูแคลนว่าคนที่มีเหตุผลเป็นอย่างไร แต่แน่นอนว่าคุณคงไม่อยากเข้าใจผิดทั้งหมด เราติดตามแนวคิดนั้นในบทความโดย Smitha Milli เป็นผู้เขียนคนแรกที่มีชื่อว่า Should Robots be Obedient? และนั่นพยายามทำให้การแลกเปลี่ยนนี้เพิ่มขึ้นเล็กน้อยระหว่างการรักษาการควบคุมระบบและจำนวนมูลค่าที่ระบบสามารถสร้างให้คุณได้
เราดูความหมายว่าในขณะที่ระบบหุ่นยนต์โต้ตอบกับผู้คนเมื่อเวลาผ่านไป คุณคาดหวังให้พวกเขาเรียนรู้เพิ่มเติมเกี่ยวกับสิ่งที่ผู้คนต้องการ หากคุณมั่นใจมากเกี่ยวกับสิ่งที่ใครบางคนต้องการ และคุณคิดว่าพวกเขาอาจไม่มีเหตุผล คณิตศาสตร์ในเอกสาร Off-Switch คาดการณ์ว่าคุณควรพยายามควบคุมพวกเขา ซึ่งหมายความว่าหากระบบของคุณกำลังเรียนรู้อยู่ตลอดเวลา คุณคาดหวังว่าแม้ในตอนแรกระบบจะเปิดให้มนุษย์ควบคุมและดูแลได้ แต่ก็อาจสูญเสียแรงจูงใจนั้นเมื่อเวลาผ่านไป อันที่จริง คุณสามารถคาดการณ์ได้ว่าจะสูญเสียแรงจูงใจนั้นไปตามเวลา
ใน หาก Robots be Obedient เราจำลองคุณสมบัตินั้นและพิจารณาถึงผลที่ตามมาของมัน เราพบว่าคุณได้รับการยืนยันเบื้องต้นเกี่ยวกับสมมติฐานนี้ ซึ่งก็คือระบบที่รักษาการควบคุมและการกำกับดูแลของมนุษย์นั้นมีคุณค่าน้อยกว่าที่พวกเขาสามารถทำได้ในทางทฤษฎี นอกจากนี้เรายังมองว่าจะเกิดอะไรขึ้นเมื่อคุณมีรูปแบบที่ไม่ถูกต้อง หากระบบ AI มีมาก่อนที่มนุษย์สนใจเกี่ยวกับสิ่งเล็กน้อยในโลก สมมติว่า แสดงว่ามีความมั่นใจทางสถิติมากเกินไปในการประมาณการว่าผู้คนสนใจอะไร และไม่เชื่อฟังบุคคลนั้นบ่อยกว่าที่ควร
เป็นไปได้ว่าเมื่อเราบอกว่าเราต้องการปิดระบบได้ มันก็เป็นคำแถลงที่น้อยกว่าเกี่ยวกับสิ่งที่เราต้องการทำในทางทฤษฎีหรือคุณสมบัติของพฤติกรรมหุ่นยนต์ที่เหมาะสมที่สุดที่เราต้องการ และเป็นการสะท้อนความคิดที่เราเชื่อมากกว่า ในสถานการณ์จริงแทบทุกสถานการณ์ เราอาจไม่สามารถอธิบายตัวแปรที่เกี่ยวข้องทั้งหมดที่เราสนใจได้อย่างเต็มที่
หากคุณกำลังทำให้หุ่นยนต์ของคุณมีเป้าหมายเพื่อค้นหาสิ่งที่คุณสนใจในบางส่วน จริงๆ แล้ว คุณควรให้ความสำคัญกับการให้หุ่นยนต์ฟังคุณ มากกว่าแค่การปรับให้เหมาะสมสำหรับการประมาณค่าของหุ่นยนต์ ฉันคิดว่านั่นทำให้เกิดข้อโต้แย้งทางทฤษฎีที่ค่อนข้างชัดเจนว่าทำไมความสอดคล้องกันจึงเป็นคุณสมบัติที่พึงประสงค์ในระบบ แม้ว่าอย่างน้อยตามมูลค่าที่ตราไว้ ก็ควรลดปริมาณยูทิลิตี้ที่ระบบสามารถสร้างให้กับผู้คนได้
งานชิ้นสุดท้ายที่ฉันคิดว่าจะพูดถึงในที่นี้คือเอกสาร NIPS ของเราตั้งแต่เดือนธันวาคม ซึ่งมีชื่อว่า Inverse Reward Design นั่นคือการเรียนรู้การเสริมแรงผกผันแบบมีส่วนร่วมและผลักไปในทิศทางอื่น แทนที่จะใช้มันเพื่อวิเคราะห์ระบบที่ทรงพลังมากในทางทฤษฎี เราสามารถใช้มันเพื่อพยายามสร้างเครื่องมือที่มีประสิทธิภาพมากขึ้นต่อความผิดพลาดที่นักออกแบบอาจทำ และเริ่มสร้างแนวคิดเริ่มต้นของการจัดแนวคุณค่าและกลยุทธ์การจัดตำแหน่งคุณค่าในกลไกปัจจุบันที่เราใช้ในการโปรแกรมระบบ AI
สิ่งที่งานนั้นดูคือการทำความเข้าใจความไม่แน่นอนที่มีอยู่ในข้อกำหนดวัตถุประสงค์ ในเอกสารการเรียนรู้การเสริมแรงผกผันแบบมีส่วนร่วมเบื้องต้นและเกม Off-Switch เรากล่าวว่าระบบ AI ควรจะมีความไม่แน่นอนเกี่ยวกับวัตถุประสงค์ของพวกเขา และควรได้รับการออกแบบในลักษณะที่อ่อนไหวต่อความไม่แน่นอนนั้น
บทความนี้เกี่ยวกับการพยายามทำความเข้าใจ วิธีที่เป็นประโยชน์ในการไม่แน่ใจเกี่ยวกับวัตถุประสงค์คืออะไร แนวคิดหลักเบื้องหลังคือเราควรคิดถึงสภาพแวดล้อมที่ผู้ออกแบบระบบมีอยู่ในใจ เราใช้ตัวอย่างของหุ่นยนต์ 2 มิติที่นำทางไปทั่วโลก และผู้ออกแบบระบบกำลังคิดเกี่ยวกับหุ่นยนต์ตัวนี้ที่นำทางไปในที่ซึ่งมีภูมิประเทศสามประเภท มีหญ้า มีกรวด และมีทอง คุณสามารถให้เป้าหมายแก่หุ่นยนต์ของคุณ ซึ่งเป็นฟังก์ชันอรรถประโยชน์เพื่อค้นหาการอยู่ในภูมิประเทศประเภทต่างๆ ที่จูงใจให้ไปรับทองคำ และอยู่บนพื้นดินหากทำได้ แต่ให้ใช้ทางลัดข้ามหญ้าเมื่อมีมูลค่าสูง .
เมื่อหุ่นยนต์ตัวนั้นออกไปสู่โลก จะมีภูมิประเทศรูปแบบใหม่ และภูมิประเทศแบบที่นักออกแบบคาดไม่ถึง สิ่งที่เราทำในบทความนี้คือการสร้างแบบจำลองความไม่แน่นอนที่ช่วยให้หุ่นยนต์สามารถกำหนดได้ว่าเมื่อใดที่ควรจะไม่แน่ใจเกี่ยวกับคุณภาพของฟังก์ชันการให้รางวัล เราจะทราบได้อย่างไรว่าฟังก์ชันการให้รางวัลที่ผู้ออกแบบระบบสร้างเป็น AI เราจะทราบได้อย่างไรว่าวัตถุประสงค์นั้นไม่เหมาะกับสถานการณ์ปัจจุบันหรือไม่ คุณสามารถคิดว่านี่เป็นวิธีการพยายามบรรเทากฎหมายของกู๊ดฮาร์ต
[NPC5]Lucas: คุณอยากจะใช้เวลาสักครู่เพื่อแกะสิ่งที่กฎหมายของ Goodhart คืออะไร?
ดีแลน: แน่นอน กฎของกู๊ดฮาร์ตเป็นแนวคิดเก่าในสังคมศาสตร์ที่ย้อนกลับไปก่อนหน้ากู๊ดฮาร์ต ฉันจะบอกว่าในทางเศรษฐศาสตร์ มีแนวคิดทั่วไปเกี่ยวกับปัญหาตัวแทนหลัก ซึ่งเกิดขึ้นตั้งแต่ช่วงทศวรรษ 1970 ตามที่ฉันเข้าใจ และโดยพื้นฐานแล้ว ดูที่ปัญหาการระบุสิ่งจูงใจสำหรับมนุษย์ คุณควรสร้างสัญญาอย่างไร? คุณสร้างแรงจูงใจอย่างไรเพื่อให้บุคคลอื่นเช่นพนักงานช่วยให้คุณได้รับคุณค่า?
กฎของ Goodhart เป็นวิธีที่ดีมากในการสรุปผลลัพธ์จำนวนมาก ซึ่งก็คือว่าเมื่อตัวชี้วัดกลายเป็นวัตถุประสงค์แล้ว ก็จะเลิกเป็นตัวชี้วัดที่ดี คุณสามารถมีทรัพย์สินของโลกได้ ซึ่งสัมพันธ์กันดีกับสิ่งที่คุณต้องการ แต่การเพิ่มประสิทธิภาพสำหรับสิ่งเหล่านี้จริงๆ แล้วนำไปสู่บางสิ่งที่ค่อนข้างแตกต่างไปจากสิ่งที่คุณกำลังมองหา