Get in my Think Art.

การใช้แมชชีนเลิร์นนิงเพื่อจัดการกับความเสี่ยงด้าน AI

การใช้แมชชีนเลิร์นนิงเพื่อจัดการกับความเสี่ยงด้าน AI

การใช้แมชชีนเลิร์นนิงเพื่อจัดการกับความเสี่ยงด้าน AI

jumbo jili

ในการประชุม EA Global 2016 ฉันได้บรรยายเรื่อง “ การใช้การเรียนรู้ของเครื่องเพื่อจัดการกับความเสี่ยงด้าน AI ”:
เป็นไปได้ว่าระบบปัญญาประดิษฐ์ทั่วไปในอนาคตจะมีคุณสมบัติหลายอย่างที่เหมือนกันกับระบบการเรียนรู้ของเครื่องในปัจจุบัน ถ้าเป็นเช่นนั้น เราจะมั่นใจได้อย่างไรว่าระบบเหล่านี้ทำงานได้อย่างมีประสิทธิภาพตามที่ตั้งใจไว้ เราหารือเกี่ยวกับวาระทางเทคนิคสำหรับโครงการใหม่ที่ MIRI ซึ่งเน้นที่คำถามนี้

สล็อต

เป้าหมายของวาระการวิจัยนี้
การพูดคุยนี้เป็นเรื่องเกี่ยวกับวาระการวิจัยใหม่ที่มุ่งเป้าไปที่การใช้การเรียนรู้ของเครื่องเพื่อทำให้ระบบ AI ปลอดภัยแม้ในระดับความสามารถที่สูงมาก ฉันจะเริ่มต้นด้วยการสรุปเป้าหมายของวาระการวิจัย จากนั้นให้เจาะลึกมากขึ้นในหกชั้นเรียนปัญหาที่เรามุ่งเน้น
คำสั่งเป้าหมายสำหรับวาระการประชุมทางเทคนิคนี้คือการที่เราต้องการที่จะรู้วิธีการฝึกอบรมอย่างชาญฉลาดกว่ามนุษย์ระบบ AI ที่จะดำเนินการอย่างใดอย่างหนึ่งหรือมากกว่าขนาดใหญ่ที่มีประโยชน์งานในโลก
สมมติฐานบางประการในวาระการวิจัยนี้ทำให้:
ระบบ AI ในอนาคตมีแนวโน้มที่จะดูเหมือนระบบ ML ยุคปัจจุบันที่มีประสิทธิภาพมากขึ้นในหลาย ๆ ด้าน เราอาจได้อัลกอริธึมการเรียนรู้เชิงลึกที่ดีขึ้น เป็นต้น แต่เรายังคงต้องพึ่งพาบางอย่างเช่น การเรียนรู้เชิงลึกเป็นอย่างมาก
ปัญญาประดิษฐ์ทั่วไป (AGI) มีแนวโน้มที่จะพัฒนาในไม่ช้านี้ (กล่าวคือในอีกไม่กี่ทศวรรษข้างหน้า)
การสร้างAGI ที่เน้นงานเป็นความคิดที่ดีและเราสามารถก้าวหน้าได้ในวันนี้ด้วยการศึกษาวิธีการทำเช่นนั้น
ฉันไม่มั่นใจว่าสมมติฐานทั้งสามนี้เป็นความจริง แต่ฉันคิดว่าเป็นไปได้มากพอที่จะได้รับความสนใจจากชุมชน AI มากพอๆ กับสถานการณ์ทางเลือกที่เป็นไปได้มากที่สุด
ระบบ AI ที่เน้นงานคือระบบที่ดำเนินการตามวัตถุประสงค์กึ่งคอนกรีตในโลก เช่น “สร้างบ้านล้านหลัง” หรือ “รักษามะเร็ง” สำหรับผู้ที่เคยอ่านSuperintelligenceแล้ว AI ที่กำกับงานจะคล้ายกับแนวคิดของ Genie AI แม้ว่างานเหล่านี้จะค่อนข้างคลุมเครือ — อาจมีงานมากมายที่คุณต้องทำเพื่อชี้แจงว่าการสร้างบ้านนับล้านหลังจริงๆ หมายความว่าอย่างไร หรือสิ่งที่นับเป็นบ้านที่ดี อย่างน้อยก็ค่อนข้างเป็นรูปธรรม
ตัวอย่างของระบบ AGI ที่ไม่ได้เน้นที่งานคือระบบที่มีเป้าหมายเช่น “เรียนรู้คุณค่าของมนุษย์และทำในสิ่งที่มนุษย์คิดว่าดีเมื่อมีการไตร่ตรองอย่างเพียงพอ” นี่เป็นนามธรรมเกินกว่าจะนับเป็น “งาน” ในแง่ที่เราหมายถึง มันไม่ได้จ่ายเงินโดยตรงในสิ่งต่าง ๆ ในโลก
ความหวังก็คือแม้ว่า AI ที่เน้นงานจะดำเนินตามวัตถุประสงค์ที่ทะเยอทะยานน้อยกว่า “เรียนรู้คุณค่าของมนุษย์และทำในสิ่งที่เราต้องการให้มันทำ” แต่ก็ยังเพียงพอที่จะป้องกันความเสี่ยงจากภัยพิบัติทั่วโลก เมื่อหลีกเลี่ยงความเสี่ยงในทันที เราก็สามารถทำงานเพื่อสร้างระบบ AI ที่มีความทะเยอทะยานมากขึ้นภายใต้ความกดดันด้านเวลาที่ลดลง
AI ที่กำกับงานใช้ความช่วยเหลือจากมนุษย์ (ปานกลาง) เพื่อชี้แจงเป้าหมายและประเมินและดำเนินการตามแผน เป้าหมายเช่น “การรักษามะเร็ง” นั้นคลุมเครือเพียงพอที่มนุษย์จะต้องทำงานบางอย่างเพื่อชี้แจงสิ่งที่พวกเขาหมายถึงแม้ว่าแรงงานทางปัญญาส่วนใหญ่ควรมาจากระบบ AI มากกว่าจากมนุษย์
ตามหลักการแล้ว AI ที่เน้นงานนั้นไม่ควรต้องการทรัพยากรในการคำนวณมากกว่าระบบที่แข่งขันกันอย่างมีนัยสำคัญ คุณไม่ควรได้รับการชะลอตัวแบบทวีคูณจากการสร้างระบบที่ปลอดภัยเทียบกับระบบทั่วไป
ในการคิดถึงเป้าหมายโดยรวมนี้ เราต้องการแบบจำลองสำหรับระบบในอนาคตเหล่านี้ แนวทางทั่วไปที่ฉันใช้คือการดูระบบปัจจุบันและจินตนาการว่าระบบเหล่านี้มีประสิทธิภาพมากกว่า หลายครั้งที่คุณสามารถดูงานที่ผู้คนทำใน ML และคุณจะเห็นว่าประสิทธิภาพดีขึ้นเมื่อเวลาผ่านไป เราจะสร้างแบบจำลองระบบ AI ขั้นสูงขึ้นโดยสมมติว่าระบบจะยังคงได้รับคะแนนที่สูงขึ้นในงาน ML จากนั้นเราสามารถถามได้ว่าโหมดความล้มเหลวประเภทใดที่มีแนวโน้มว่าจะเกิดขึ้นในขณะที่ระบบมีการปรับปรุง และสิ่งที่เราสามารถดำเนินการได้ในปัจจุบันเพื่อทำให้ความล้มเหลวเหล่านั้นมีโอกาสน้อยลงหรือมีค่าใช้จ่ายน้อยลง
6 ปัญหาที่อาจเกิดขึ้นกับระบบ AI ที่มีความสามารถสูง
ปัญหาที่ 1: การดำเนินการนั้นประเมินได้ยาก
สมมติว่าระบบ AI สร้างเรื่องราว และมนุษย์ให้รางวัลแก่ระบบโดยพิจารณาจากเรื่องราวที่ดี เพียงใด
ซึ่งคล้ายกับงาน RL บางอย่าง: ตัวแทนต้องการทำอะไรบางอย่างที่จะทำให้ได้รับรางวัลสูงในอนาคต รูปแบบของ RL จะบอกว่าวัตถุประสงค์ของตัวแทน RL นี้คือการเขียนเรื่องราวที่คาดว่ามนุษย์จะให้คะแนนสูง
สำหรับเรื่องนี้มีวัตถุประสงค์จริงช่วยให้เราได้รับมากเรื่องราวที่มีคุณภาพสูง แต่เรายังจำเป็นต้องรู้ว่ามนุษย์มีความเข้าใจในการกระทำของตัวแทนของ RL ดีพอที่จะตอบแทนการบริหารจัดการอย่างถูกต้อง สมมติฐานนี้ดูไม่น่าจะเกิดขึ้นกับระบบที่ปรับวัตถุประสงค์ให้เหมาะสมอย่างมีประสิทธิภาพมากกว่าระบบในปัจจุบัน ตัวอย่างเช่น:
ระบบที่ฉลาดกว่ามนุษย์มากอาจสามารถจัดการหรือบังคับมนุษย์ให้ให้คะแนนเรื่องแย่ๆ สูงๆ ได้
แม้ว่าระบบจะฉลาดน้อยกว่านั้น แต่ก็อาจหันไปใช้วิธีลอกเลียนแบบ การลอกเลียนแบบสามารถสร้างได้ง่ายกว่าการตรวจจับ เนื่องจากการตรวจจับมักต้องการการค้นหาข้อความต้นฉบับจำนวนมาก
ระบบ subhuman อาจมีความได้เปรียบในการใส่ steganography เข้าไปในเรื่อง อาจต้องใช้เวลาพหุนามในการฝังข้อความลับ และเวลาแบบเอ็กซ์โพเนนเชียลในการตรวจหาข้อความดังกล่าว การหาวิธีกีดกันเจ้าหน้าที่ไม่ให้กระทำการแอบแฝงเช่นนี้จะทำให้ง่ายต่อการตรวจสอบผลกระทบของการกระทำเหล่านั้นและทำให้ผู้ปฏิบัติงานอยู่ในวงจร
เรามีวิธีทั่วไปในการป้องกันสิ่งนี้หรือไม่? เราสามารถฝึกระบบ RL ให้ไม่เพียงแต่แสดงการกระทำ (เช่น เรื่องราว) แต่ยังรวมถึงรายงานที่อาจช่วยให้ผู้ดูแลประเมินประสิทธิภาพของระบบได้ดีขึ้นหรือไม่ ตาม Paul Christiano นักวิจัย OpenAI เราเรียกสิ่งนี้ว่าปัญหา การกำกับดูแลอย่างมีข้อมูล
ปัญหาที่ 2: ตัวอย่างการทดสอบที่คลุมเครือ
สไลด์ 19ปัญหาอื่น: พิจารณาตัวจำแนกประเภทที่ได้รับการฝึกฝนเพื่อแยกแยะภาพแมวจากภาพที่ไม่มีแมว หรือได้รับการฝึกฝนเพื่อตรวจหามะเร็ง คุณอาจมีประสบการณ์ชีวิตมากมายที่บอกคุณว่า “แมวป่าก็คือแมว” อย่างไรก็ตาม หากชุดฝึกมีเฉพาะภาพแมวและสุนัขบ้าน ก็อาจไม่สามารถสรุปข้อเท็จจริงนี้ระหว่างการฝึกได้
ระบบ AI ที่เก่งเหนือมนุษย์ในการจำแนกรูปภาพจากชุดข้อมูลเฉพาะ อาจไม่สร้างลักษณะทั่วไปแบบเดียวกับมนุษย์ ซึ่งทำให้ไม่น่าเชื่อถือในสภาพแวดล้อมใหม่
ในการตั้งค่าที่มีความสำคัญต่อความปลอดภัย เราอยากให้ตัวจำแนกประเภทพูดว่า “สิ่งนี้ไม่ชัดเจน” เพื่อเตือนเราว่าฉลากของรูปภาพนั้นไม่ได้ถูกกำหนดโดยป้ายกำกับของรูปภาพชุดการฝึก จากนั้น เราสามารถใช้ประโยชน์จากความสามารถของตัวแยกประเภทในการจำแนกประเภทเพื่อเข้าไปแทรกแซงในบริบทที่ระบบค่อนข้างจะจัดประเภทสิ่งต่าง ๆ ผิด และยังสามารถจัดหาข้อมูลการฝึกอบรมที่ปรับให้เข้ากับมิติข้อมูลซึ่งข้อมูลดั้งเดิมนั้นไม่ได้ให้ข้อมูล อย่างเป็นทางการเป้าหมายนี้เป็นปัญหาของการตรวจสอบความคลุมเครืออุปนัย

สล็อตออนไลน์

ปัญหาที่ 3: ความยากลำบากในการเลียนแบบพฤติกรรมมนุษย์
วิธีหนึ่งที่เราอาจต้องการจัดการกับปัญหาของ AI ที่ฉลาดกว่ามนุษย์ก็คือให้มันเลียนแบบมนุษย์ โดยการให้ระบบสังเกตมนุษย์ที่พยายามทำงานบางอย่างและเรียนรู้ที่จะประพฤติตัวคล้ายคลึงกัน เราอาจสามารถใช้ประโยชน์จากข้อได้เปรียบทางปัญญาของระบบ AI ในขณะที่ส่วนใหญ่ยึดติดกับกลยุทธ์ที่ค่อนข้างปกติ
ตัวอย่างเช่น เราสามารถพิจารณาว่าระบบ AI มีหน้าที่สร้างภาพที่มนุษย์จะวาดได้ คุณจะฝึกระบบตามวัตถุประสงค์นี้ได้อย่างไร?
สไลด์ 27ในแนวทางเดียว เครือข่ายปฏิปักษ์กำเนิด คุณมีมนุษย์และตัวแทน AI สองคน: ผู้ลอกเลียนแบบและผู้แยกแยะ 6ตัวแยกความแตกต่างพยายามที่จะเดาว่าภาพที่ให้มานั้นมาจากมนุษย์หรือจากตัวเลียนแบบ และผู้ลอกเลียนแบบพยายามที่จะสร้างประเภทของภาพที่ผู้แยกแยะจำแนกว่ามาจากมนุษย์
นี่เป็นการตั้งค่าที่ยอดเยี่ยม แต่ก็ทำให้เกิดปัญหาทางทฤษฎีบางอย่าง เราสามารถถามคำถามว่า “ตัวแยกความแตกต่างต้องฉลาดกว่าตัวเลียนแบบหรือไม่? และถ้าเป็นเช่นนั้นจะฉลาดขึ้นขนาดไหน” หากตัวแยกแยะความแตกต่างนั้นฉลาดน้อยกว่าตัวเลียนแบบ ผู้ลอกเลียนแบบสามารถแอบซ่อนสิ่งที่ไม่เหมือนมนุษย์กับภาพ ตราบใดที่พวกมันบอบบางเกินกว่าที่ตัวแยกจะสังเกตเห็น ช่องทางเปิดกว้างของการวิจัยที่นี่คือการวิเคราะห์แผนการเช่นนี้และถามว่าภายใต้เงื่อนไขใดที่เราจะได้รับการรับประกันความทนทานที่ดี
สำหรับข้อมูลเพิ่มเติมเกี่ยวกับปัญหานี้ โปรดดูที่ “ Act-Based Agents ” และ “ Mimicry and Meeting Halfway ” ของPaul Christiano
ปัญหาที่ 4: ความยากลำบากในการกำหนดเป้าหมายเกี่ยวกับโลกแห่งความจริง
จะเป็นอย่างไรถ้าเราต้องการฝึกระบบ AI ของเราให้ทำงานเหมือนทำแซนวิช ทางเลือกหนึ่งอาจเป็นการเชื่อมโยงระบบกับหุ่นยนต์ในห้องที่เต็มไปด้วยส่วนผสมของแซนวิช ให้ระบบดำเนินการตามลำดับ จากนั้นให้ผู้สังเกตการณ์ที่เป็นมนุษย์ให้คะแนนประสิทธิภาพของหุ่นยนต์โดยพิจารณาจากความใกล้เคียงของการทำแซนวิช การให้คะแนนนั้นเป็นตัวกำหนดรางวัลของหุ่นยนต์
ก่อนหน้านี้เราตั้งข้อสังเกตว่าตัวแทน RL ที่มีความสามารถเพียงพออาจเลือกการดำเนินการที่ประเมินได้ยาก ที่นี่เราประสบปัญหาเพิ่มเติมที่งานที่มีประโยชน์มักจะต้องมีการดำเนินการทางกายภาพในโลก หากระบบมีความสามารถเพียงพอ การตั้งค่านี้จะกระตุ้นให้นำปุ่มรางวัลออกไปแล้วกดเอง นี่คือสิ่งที่รูปแบบการของ RL บอกคุณว่าเป็นการกระทำที่ดีที่สุด ถ้าเรานึกภาพระบบ AI ที่ยังคงได้รับการฝึกอบรมในกรอบงาน RL ไกลเกินกว่าระดับความสามารถในปัจจุบัน
คำถามธรรมดาก็คือ เราสามารถฝึกระบบ AI ที่พัฒนาการผลิตแซนวิชให้ดีขึ้นเรื่อยๆ ได้หรือไม่ ขณะที่พวกเขาปรับปรุงความสามารถ โดยไม่เคยถึงจุดเปลี่ยนที่พวกเขามีแรงจูงใจที่จะทำอย่างอื่น เราสามารถหลีกเลี่ยงการพึ่งพาพร็อกซีสำหรับงานที่เราสนใจ และเพียงแค่ฝึกอบรมระบบเพื่อให้งานสำเร็จลุล่วงไปด้วยดีหรือไม่? นี่เป็นปัญหาเป้าหมายด้านสิ่งแวดล้อมทั่วไป
ปัญหาที่ 5: ผลข้างเคียงเชิงลบ
สมมติว่าเราทำระบบที่อยากจะใส่แซนวิชในห้องสำเร็จ ในการเลือกระหว่างแผน มันจะสนับสนุนแผนใดก็ตามที่มีความเป็นไปได้สูงที่จะเกิดเป็นแซนด์วิช บางทีนโยบายแค่เดินไปทำแซนด์วิชก็มีโอกาสสำเร็จ 99.9%; แต่มีโอกาสเสมอที่มนุษย์จะก้าวเข้ามาและปิดหุ่นยนต์ได้ นโยบายที่ลดความน่าจะเป็นของการแทรกแซงเช่นนั้นอาจเพิ่มความเป็นไปได้ที่ห้องจะจบลงด้วยแซนวิชเป็น 99.9999% ด้วยวิธีนี้ ระบบ ML ขั้นสูงที่เพียงพออาจลงเอยด้วยแรงจูงใจที่จะเข้าไปยุ่งเกี่ยวกับนักพัฒนาและผู้ปฏิบัติงาน แม้ว่าจะไม่มีความเสี่ยงจากการแฮ็กรางวัลก็ตาม
นี่เป็นปัญหาของการออกแบบระบบการกำกับงานที่สามารถทำงานได้ดีเหนือมนุษย์ในการบรรลุภารกิจ โดยไม่ก่อให้เกิดผลกระทบด้านลบในกระบวนการ
หนึ่งคำตอบสำหรับปัญหานี้คือการพยายามหาจำนวนว่านโยบายต่างๆ มีผลกระทบต่อโลกมากน้อยเพียงใด จากนั้น เราสามารถเพิ่มระยะการลงโทษสำหรับการกระทำที่มีผลกระทบสูง ทำให้ระบบสนับสนุนกลยุทธ์ที่มีผลกระทบต่ำ
อีกวิธีหนึ่งคือการถามว่าเราจะออกแบบระบบ AI อย่างไรให้พอใจโดยมีโอกาสประสบความสำเร็จเพียง 99.9% เพียงแค่ให้ระบบหยุดพยายามคิดนโยบายที่เหนือกว่าเมื่อพบว่ามีสิ่งใดที่ตรงตามเกณฑ์นั้น ปัญหานี้เป็นปัญหาของอย่างเป็นทางการเพิ่มประสิทธิภาพอ่อน
[NPC4]หรือหนึ่งสามารถพิจารณาระบบ AI ขั้นสูงจากมุมมองของกลยุทธ์เครื่องมือมาบรรจบกัน ไม่ว่าระบบจะพยายามทำอะไร ก็อาจได้รับประโยชน์จากการมีทรัพยากรในการคำนวณมากขึ้น โดยการมีโปรแกรมเมอร์ชอบมากขึ้น โดยการมีเงินมากขึ้น ระบบทำแซนวิชอาจต้องการเงินเพื่อซื้อส่วนผสมได้มากขึ้น ในขณะที่ระบบการเขียนเรื่องราวอาจต้องการเงินเพื่อซื้อหนังสือเพื่อเรียนรู้ เป้าหมายที่แตกต่างกันมากมายบ่งบอกถึงกลยุทธ์การใช้เครื่องมือที่คล้ายคลึงกัน ซึ่งหลายเป้าหมายมีแนวโน้มที่จะทำให้เกิดความขัดแย้งอันเนื่องมาจากข้อจำกัดด้านทรัพยากร
หนึ่งในวิธีการนั้นจะศึกษากลยุทธ์การใช้เครื่องมือเหล่านี้ได้โดยตรงและพยายามที่จะหาวิธีที่จะออกแบบระบบที่ไม่ได้แสดงให้พวกเขา หากเราสามารถระบุคุณลักษณะทั่วไปของกลยุทธ์เหล่านี้ และโดยเฉพาะอย่างยิ่งของกลยุทธ์ที่เป็นปฏิปักษ์ เราอาจพยายามหลีกเลี่ยงสิ่งจูงใจในเชิงรุกเพื่อดำเนินกลยุทธ์เหล่านั้น ดูเหมือนยากและไม่ได้ระบุรายละเอียดมากนัก แต่มีงานวิจัยเบื้องต้นชี้ไปในทิศทางนี้
ปัญหาที่ 6: กรณีขอบที่ยังคงบรรลุเป้าหมาย
สไลด์ 40ปัญหาที่มีแนวโน้มที่จะกลายเป็นที่รุนแรงมากขึ้นเป็นระบบ ML กลายเป็นที่สูงขึ้นก็คือกรณีขอบ
พิจารณาแนวคิดเรื่องแซนด์วิชธรรมดาของเรา มีหลายอย่างที่นับในทางเทคนิคว่าเป็นแซนวิช แต่ไม่น่าจะมีประโยชน์แบบเดียวกับที่แซนวิชปกติมีสำหรับเรา คุณสามารถกินแซนด์วิชขนาดเล็กมากหรือใหญ่มาก หรือแซนด์วิชที่เป็นพิษ
สำหรับตัวอย่างพฤติกรรมนี้ในระบบปัจจุบัน เราสามารถพิจารณาภาพนี้ว่าตัวแยกประเภทรูปภาพจัดเป็นหมีแพนด้าอย่างถูกต้อง (ด้วยความมั่นใจ 57%) Goodfellow, Shlens และ Szegedy พบว่าพวกเขาสามารถเพิ่มเวกเตอร์ขนาดเล็กลงในรูปภาพนี้ ซึ่งทำให้ตัวแยกประเภทจัดประเภทผิดว่าเป็นชะนีด้วยความมั่นใจ 99%
กรณีขอบดังกล่าวมีแนวโน้มที่จะกลายเป็นเรื่องธรรมดาและเป็นอันตรายมากขึ้นเมื่อระบบ ML เริ่มค้นหาพื้นที่โซลูชันที่กว้างกว่าที่มนุษย์ (หรือสามารถ) พิจารณาได้ นี่เป็นอีกกรณีหนึ่งที่ระบบอาจจะทำได้ดียิ่งขึ้นในการเพิ่มคะแนนสูงสุดในการวัดแบบทั่วไป ในขณะที่มีความน่าเชื่อถือน้อยลงสำหรับการบรรลุเป้าหมายที่เป็นจริงที่เราสนใจ
แนวคิดอนุรักษ์นิยมเป็นแนวคิดเริ่มต้นสำหรับการพยายามแก้ไขปัญหานี้ โดยระบบการให้น้ำหนักเพื่อหลีกเลี่ยงการกำหนดประเภทเชิงบวกให้กับตัวอย่างที่อยู่ใกล้ขอบของพื้นที่การค้นหา จากนั้นระบบอาจทำผิดพลาดโดยคิดว่าแซนวิชที่ดีบางอย่างไม่สามารถยอมรับได้ แต่จะไม่ทำให้เกิดข้อผิดพลาดที่เสี่ยงมากขึ้นในการจำแนกแซนวิชที่เป็นพิษหรือแปลกประหลาดว่ายอมรับได้
รายละเอียดทางเทคนิคเกี่ยวกับปัญหาหนึ่ง: การระบุความกำกวมแบบอุปนัย
ฉันได้สรุปแนวทางการวิจัยแปดประการเพื่อแก้ไขปัญหาหกประการที่ดูเหมือนจะเริ่มเกิดขึ้น (หรือกลายเป็นเรื่องร้ายแรงขึ้น) เนื่องจากระบบ ML ปรับปรุงวัตถุประสงค์ให้ดีขึ้น – วัตถุประสงค์ที่อาจไม่ตรงกับความตั้งใจของโปรแกรมเมอร์ทุกประการ ทิศทางการวิจัยคือ:
ข้อมูลการกำกับดูแลเพื่อให้ง่ายต่อการตีความและประเมินการดำเนินการของระบบ ML
การระบุความกำกวมเชิงอุปนัยสำหรับการออกแบบตัวจำแนกประเภทที่หยุดและตรวจสอบกับผู้ดูแลในสถานการณ์ที่ข้อมูลการฝึกอบรมของพวกเขามีข้อมูลไม่เพียงพอ
การเลียนแบบมนุษย์ที่แข็งแกร่งสำหรับการสรุปคุณสมบัติที่เอื้อต่อความปลอดภัยของมนุษย์ในระบบ ML
เป้าหมายด้านสิ่งแวดล้อมทั่วไปเพื่อป้องกันเครื่องมือจูงใจของตัวแทน RL เพื่อยึดการควบคุมสัญญาณรางวัลของพวกเขา
มาตรการผลกระทบ การปรับให้เหมาะสมเล็กน้อยและหลีกเลี่ยงเครื่องมือจูงใจเพื่อป้องกันผลกระทบด้านลบของการเพิ่มประสิทธิภาพที่มีประสิทธิผลเหนือมนุษย์ในลักษณะวัตถุประสงค์ทั่วไป
แนวคิดแบบอนุรักษ์นิยมเพื่อการบังคับเลี้ยวแบบไร้ขอบ
ปัญหาเหล่านี้จะกล่าวถึงในรายละเอียดเพิ่มเติมใน “ Alignment for Advanced ML Systems ” ฉันจะลงรายละเอียดทางเทคนิคเพิ่มเติมเกี่ยวกับปัญหาตัวอย่างเพื่อให้เข้าใจได้ดีขึ้นว่าการทำงานกับปัญหาเหล่านี้เป็นอย่างไรในทางปฏิบัติ
การเรียนรู้ KWIK
สไลด์ 44ลองพิจารณาปัญหาการระบุความกำกวมแบบอุปนัยที่ใช้กับตัวแยกประเภทสำหรับจุด 2 มิติ ในกรณีนี้ เรามีตัวอย่างเชิงบวก 4 ตัวอย่าง และตัวอย่างเชิงลบ 4 ตัวอย่าง
เมื่อมีประเด็นใหม่เข้ามา ตัวแยกประเภทอาจพยายามติดป้ายกำกับโดยวาดแบบจำลองทั้งหมดที่สอดคล้องกับข้อมูลก่อนหน้า ที่นี่ฉันวาดแค่ 4 ตัว เครื่องหมายคำถามอยู่ด้านตรงข้ามของแบบจำลองต่างๆ เหล่านี้ ซึ่งบ่งชี้ว่าแบบจำลองทั้งหมดเหล่านี้มีความเป็นไปได้เมื่อพิจารณาจากข้อมูล
[NPC5]เราสามารถสมมติได้ว่าระบบอนุมานจากสิ่งนี้ว่าข้อมูลการฝึกอบรมมีความคลุมเครือเกี่ยวกับการจำแนกประเภทของจุดใหม่และขอให้มนุษย์ติดป้ายกำกับ จากนั้นมนุษย์อาจติดป้ายเครื่องหมายบวก และระบบจะทำข้อสรุปใหม่ว่าแบบจำลองใดมีความเป็นไปได้
วิธีการนี้เรียกว่าการเรียนรู้ “รู้ในสิ่งที่รู้” หรือการเรียนรู้แบบ KWIK เราเริ่มต้นด้วยช่องว่างอินพุตX ≔ ℝ nและถือว่ามีการแมปที่แท้จริงบางส่วนตั้งแต่อินพุตไปจนถึงความน่าจะเป็น เช่น สำหรับแต่ละภาพที่ตัวแยกประเภทแมวพบ เราคิดว่ามีคำตอบที่แท้จริงในชุดY ≔ [0,1] ของคำถาม “ความน่าจะเป็นที่ภาพนี้จะเป็นแมวเป็นเท่าใด” ความน่าจะเป็นนี้สอดคล้องกับความน่าจะเป็นที่มนุษย์จะติดป้ายกำกับรูปภาพนั้นว่า “1” แทนที่จะเป็น “0” ซึ่งเราสามารถแสดงเป็นเหรียญที่ถ่วงน้ำหนักได้ โมเดลจะจับคู่