Get in my Think Art.

AI ที่เป็นมิตร: เป้าหมายที่ตรงกัน

AI ที่เป็นมิตร: เป้าหมายที่ตรงกัน

AI ที่เป็นมิตร: เป้าหมายที่ตรงกัน

jumbo jili

ยิ่งมีเครื่องจักรที่ชาญฉลาดและทรงพลังมากเท่าไหร่ ก็ยิ่งมีความสำคัญมากขึ้นเท่านั้นที่เป้าหมายของพวกเขาจะสอดคล้องกับเป้าหมายของเรา ตราบใดที่เราสร้างเครื่องจักรที่ค่อนข้างงี่เง่า คำถามไม่ได้อยู่ที่ว่าเป้าหมายของมนุษย์จะชนะในท้ายที่สุดหรือไม่ แต่เป็นเพียงปัญหาที่เครื่องจักรเหล่านี้สามารถก่อให้เกิดมนุษยชาติได้ก่อนที่เราจะหาวิธีแก้ไขปัญหาการจัดตำแหน่งเป้าหมาย อย่างไรก็ตาม หากมีการปลดปล่อย superintelligence มันจะเป็นอีกทางหนึ่ง เนื่องจากความฉลาดคือความสามารถในการบรรลุเป้าหมาย ดังนั้น AI ที่ฉลาดหลักแหลมนั้นสามารถบรรลุเป้าหมายได้ดีกว่ามนุษย์เรามาก ดังนั้นจะชนะ .

สล็อต

หากคุณต้องการสัมผัสกับเป้าหมายของเครื่องจักรสำคัญกว่าคุณในตอนนี้ เพียงดาวน์โหลดเอ็นจิ้นหมากรุกที่ล้ำสมัยแล้วลองเอาชนะมัน คุณจะไม่มีวันทำ และมันจะแก่เร็ว…
กล่าวอีกนัยหนึ่งความเสี่ยงที่แท้จริงของ AGI ไม่ใช่ความอาฆาตพยาบาท แต่เป็นความสามารถ AI ที่ฉลาดหลักแหลมจะเก่งมากในการบรรลุเป้าหมาย และหากเป้าหมายเหล่านั้นไม่สอดคล้องกับเป้าหมายของเรา เราก็มีปัญหา ผู้คนไม่ได้คิดซ้ำสองเกี่ยวกับน้ำท่วมจอมปลวกเพื่อสร้างเขื่อนไฟฟ้าพลังน้ำ ดังนั้นอย่าวางมนุษยชาติไว้ในตำแหน่งของมดเหล่านั้น นักวิจัยส่วนใหญ่จึงโต้แย้งว่าหากเราจบลงด้วยการสร้างความฉลาดหลักแหลม เราควรตรวจสอบให้แน่ใจว่าเป็นสิ่งที่ Eliezer Yudkowsky ผู้บุกเบิกด้านความปลอดภัยของ AI เรียกว่า “AI ที่เป็นมิตร”: AI ที่มีเป้าหมายสอดคล้องกับเรา
การค้นหาวิธีจัดเป้าหมายของ AI ที่ฉลาดหลักแหลมกับเป้าหมายของเรานั้นไม่ใช่แค่สำคัญแต่ยังยากอีกด้วย อันที่จริง มันเป็นปัญหาที่ยังแก้ไม่ตกอยู่ในขณะนี้ มันแบ่งออกเป็นสามปัญหาย่อยยาก ซึ่งแต่ละปัญหาเป็นเรื่องของการวิจัยเชิงรุกโดยนักวิทยาศาสตร์คอมพิวเตอร์และนักคิดอื่นๆ:

  1. ทำให้ AI เรียนรู้เป้าหมายของเรา
  2. ทำให้ AI นำเป้าหมายของเรามาใช้
  3. ทำให้ AI รักษาเป้าหมายของเรา
    ในทางกลับกัน ลองสำรวจดู โดยเลื่อนคำถามว่า “เป้าหมายของเรา” หมายถึงอะไรไปยังหัวข้อถัดไป
    เพื่อเรียนรู้เป้าหมายของเรา AI ต้องคิดออกไม่ใช่สิ่งที่เราทำ แต่ทำไมเราถึงทำ มนุษย์เราทำสิ่งนี้ให้สำเร็จได้อย่างง่ายดายจนลืมง่ายว่างานสำหรับคอมพิวเตอร์นั้นยากเพียงใด และการเข้าใจผิดนั้นง่ายเพียงใด หากคุณขอให้รถที่ขับเคลื่อนด้วยตนเองในอนาคตพาคุณไปสนามบินให้เร็วที่สุดเท่าที่จะเป็นไปได้ และมันจะพาคุณไปอย่างแท้จริง คุณจะไปถึงที่นั่นโดยเฮลิคอปเตอร์และอาเจียนออกมา ถ้าคุณอุทานออกมาว่า “นั่นไม่ใช่สิ่งที่ฉันต้องการ!” ก็อาจตอบได้อย่างสมเหตุสมผลว่า “นั่นคือสิ่งที่เธอขอ” หัวข้อเดียวกันนี้เกิดขึ้นซ้ำในเรื่องราวที่มีชื่อเสียงมากมาย ในตำนานกรีกโบราณ กษัตริย์ไมดาสขอให้ทุกสิ่งที่เขาสัมผัสกลายเป็นทอง แต่รู้สึกผิดหวังที่สิ่งนี้ขัดขวางไม่ให้เขารับประทานอาหาร และยิ่งกว่านั้นเมื่อเขาเปลี่ยนลูกสาวของเขาให้เป็นทองโดยไม่ได้ตั้งใจ ในเรื่องที่มารให้พรสามข้อ พรสองข้อแรกมีหลายแบบ
    ตัวอย่างทั้งหมดเหล่านี้แสดงให้เห็นว่าการค้นหาสิ่งที่ผู้คนต้องการจริงๆ คุณไม่สามารถทำตามสิ่งที่พวกเขาพูดได้ คุณยังต้องมีโมเดลที่มีรายละเอียดเกี่ยวกับโลก รวมถึงการตั้งค่าร่วมกันมากมายที่เรามักไม่พูดถึงเพราะเรามองว่ามันชัดเจน เช่น เราไม่ชอบอาเจียนหรือกินทอง
    เมื่อเรามีแบบอย่างของโลกเช่นนี้แล้ว เรามักจะสามารถคิดออกว่าผู้คนต้องการอะไรแม้ว่าพวกเขาจะไม่ได้บอกเรา เพียงแค่สังเกตพฤติกรรมที่มุ่งเป้าหมายของพวกเขา ที่จริงแล้ว เด็กที่หน้าซื่อใจคดมักจะเรียนรู้จากสิ่งที่พวกเขาเห็นพ่อแม่ทำมากกว่าสิ่งที่พวกเขาได้ยินพวกเขาพูด
    ขณะนี้นักวิจัย AI พยายามอย่างหนักเพื่อให้เครื่องสามารถอนุมานเป้าหมายจากพฤติกรรมได้ และสิ่งนี้จะมีประโยชน์อีกนานก่อนที่ความฉลาดหลักแหลมใดๆ จะเกิดขึ้น ตัวอย่างเช่น ผู้ชายที่เกษียณแล้วอาจชื่นชมถ้าหุ่นยนต์ดูแลผู้สูงอายุของเขาสามารถคิดออกว่าเขาให้คุณค่าอะไรเพียงแค่สังเกตเขา เพื่อที่เขาจะได้ไม่ต้องยุ่งยากกับการอธิบายทุกอย่างด้วยคำพูดหรือการเขียนโปรแกรมคอมพิวเตอร์
    ความท้าทายประการหนึ่งคือการหาวิธีที่ดีในการเข้ารหัสระบบโดยพลการของเป้าหมายและหลักจริยธรรมลงในคอมพิวเตอร์ และความท้าทายอีกประการหนึ่งคือการสร้างเครื่องจักรที่สามารถค้นหาได้ว่าระบบใดตรงกับพฤติกรรมที่พวกเขาสังเกตมากที่สุด
    แนวทางที่ได้รับความนิยมในปัจจุบันสำหรับความท้าทายที่สองเป็นที่รู้จักกันในนามการพูดเกินบรรยายว่าเป็นการเรียนรู้การเสริมแรงผกผันซึ่งเป็นจุดสนใจหลักของศูนย์วิจัยแห่งใหม่ที่เบิร์กลีย์ที่ Stuart Russell ได้เปิดตัว ตัวอย่างเช่น สมมุติว่า AI เฝ้าดูนักดับเพลิงวิ่งเข้าไปในอาคารที่กำลังลุกไหม้และช่วยชีวิตเด็กทารก อาจสรุปได้ว่าเป้าหมายของเธอคือการช่วยชีวิตเขาและหลักการทางจริยธรรมของเธอคือการที่เธอให้ความสำคัญกับชีวิตของเขามากกว่าความสะดวกสบายในการผ่อนคลายในรถดับเพลิงของเธอ และแท้จริงแล้วเธอให้คุณค่ากับมันมากพอที่จะเสี่ยงต่อความปลอดภัยของเธอเอง แต่อาจกล่าวอีกนัยหนึ่งว่านักผจญเพลิงกำลังเยือกแข็งและกระหายความร้อน หรือว่าเธอทำเพื่อการออกกำลังกาย หากตัวอย่างนี้คือ AI ทั้งหมดที่รู้เกี่ยวกับนักผจญเพลิง ไฟ และทารก ก็คงเป็นไปไม่ได้เลยที่จะรู้ว่าคำอธิบายใดถูกต้อง
    อย่างไรก็ตาม แนวคิดหลักที่อยู่เบื้องหลังการเรียนรู้การเสริมแรงผกผันคือเราตัดสินใจตลอดเวลา และการตัดสินใจทุกครั้งของเราเผยให้เห็นบางสิ่งเกี่ยวกับเป้าหมายของเรา ความหวังคือการสังเกตผู้คนจำนวนมากในหลาย ๆ สถานการณ์ (ไม่ว่าจะเป็นของจริงหรือในภาพยนตร์และหนังสือ) ในที่สุด AI ก็สามารถสร้างแบบจำลองที่แม่นยำของความชอบทั้งหมดของเรา
    แม้ว่า AI จะถูกสร้างขึ้นเพื่อเรียนรู้ว่าเป้าหมายของคุณคืออะไร แต่ก็ไม่ได้หมายความว่า AI จะต้องนำมาใช้ พิจารณานักการเมืองที่คุณชอบน้อยที่สุด: คุณรู้ว่าพวกเขาต้องการอะไร แต่นั่นไม่ใช่สิ่งที่คุณต้องการ และถึงแม้พวกเขาจะพยายามอย่างหนัก แต่ก็ล้มเหลวในการเกลี้ยกล่อมให้คุณยอมรับเป้าหมายของพวกเขา
    เรามีกลยุทธ์มากมายในการทำให้ลูกๆ ของเรามีเป้าหมาย — บางอย่างประสบความสำเร็จมากกว่าวิธีอื่นๆ ตามที่ฉันได้เรียนรู้จากการเลี้ยงเด็กวัยรุ่นสองคน เมื่อสิ่งเหล่านี้เป็นคอมพิวเตอร์มากกว่าคน ความท้าทายเรียกว่าปัญหาการโหลดค่า และยากกว่าการศึกษาคุณธรรมของเด็ก พิจารณาระบบ AI ที่ค่อยๆ พัฒนาสติปัญญาจากมนุษย์เหนือมนุษย์ไปสู่ยอดมนุษย์ ขั้นแรกโดยเราแก้ไขมัน และจากนั้นผ่านการพัฒนาตนเองแบบเรียกซ้ำ ในตอนแรก มันมีประสิทธิภาพน้อยกว่าคุณมาก ดังนั้นจึงไม่สามารถป้องกันคุณจากการปิดเครื่องและแทนที่ส่วนต่างๆ ของซอฟต์แวร์และข้อมูลของมันที่เข้ารหัสเป้าหมาย — แต่สิ่งนี้จะไม่ช่วยเพราะยังโง่เกินไปที่จะเข้าใจอย่างถ่องแท้ เป้าหมายของคุณซึ่งต้องการความฉลาดระดับมนุษย์จึงจะเข้าใจ ในที่สุด,
    กล่าวอีกนัยหนึ่ง กรอบเวลาที่คุณสามารถโหลดเป้าหมายของคุณลงใน AI อาจค่อนข้างสั้น: ช่วงเวลาสั้น ๆ ระหว่างเวลาที่มันโง่เกินไปที่จะรับคุณและฉลาดเกินกว่าจะปล่อยให้คุณ เหตุผลที่การโหลดค่าด้วยเครื่องจักรอาจทำได้ยากกว่าคนเพราะความฉลาดของพวกเขาเติบโตได้เร็วกว่ามาก: ในขณะที่เด็ก ๆ สามารถใช้เวลาหลายปีในหน้าต่างวิเศษที่โน้มน้าวใจได้ซึ่งสติปัญญาของพวกเขาเทียบได้กับพ่อแม่ของพวกเขา AI อาจพัดผ่าน หน้าต่างนี้ในเวลาไม่กี่วันหรือหลายชั่วโมง
    นักวิจัยบางคนกำลังดำเนินการตามแนวทางอื่นในการทำให้เครื่องจักรนำเป้าหมายของเรามาใช้ ซึ่งใช้คำว่า “ความสอดคล้อง” ของคำศัพท์ ความหวังคือเราสามารถให้ระบบเป้าหมายแก่ AI ดั้งเดิมโดยไม่สนใจว่าคุณจะปิดและเปลี่ยนเป้าหมายเป็นครั้งคราวหรือไม่ หากสิ่งนี้พิสูจน์ได้ว่าเป็นไปได้ คุณสามารถปล่อยให้ AI ของคุณเป็นอัจฉริยะ ปิดการทำงาน ติดตั้งเป้าหมายของคุณ ลองใช้สักระยะหนึ่ง และเมื่อใดก็ตามที่คุณไม่พึงพอใจกับผลลัพธ์ เพียงแค่ปิดไฟและปรับแต่งเป้าหมายเพิ่มเติม

สล็อตออนไลน์

แต่แม้ว่าคุณจะสร้าง AI ที่จะเรียนรู้และนำเป้าหมายของคุณไปใช้ คุณยังแก้ปัญหาการจัดตำแหน่งเป้าหมายไม่เสร็จ จะเกิดอะไรขึ้นถ้าเป้าหมายของ AI ของคุณมีวิวัฒนาการเมื่อมันฉลาดขึ้น คุณจะรับประกันได้อย่างไรว่าจะรักษาเป้าหมายของคุณไว้ไม่ว่าจะผ่านการพัฒนาตนเองแบบเรียกซ้ำมากน้อยเพียงใด มาสำรวจข้อโต้แย้งที่น่าสนใจว่าทำไมการรักษาเป้าหมายจึงรับประกันโดยอัตโนมัติ แล้วดูว่าเราจะเจาะเข้าไปได้หรือไม่
แม้ว่าเราจะไม่สามารถคาดเดารายละเอียดได้ว่าจะเกิดอะไรขึ้นหลังจากการระเบิดของข่าวกรอง — นั่นคือเหตุผลที่ Vernor Vinge เรียกมันว่า “ภาวะเอกฐาน” — Steve Omohundro นักฟิสิกส์และนักวิจัย AI โต้แย้งในเรียงความเรื่องครึ่งปี 2008 ที่เราสามารถคาดเดาแง่มุมบางอย่างของ พฤติกรรมของ superintelligent AI เกือบจะเป็นอิสระจากเป้าหมายสูงสุดที่อาจมี
อาร์กิวเมนต์นี้ได้รับการตรวจสอบและพัฒนาเพิ่มเติมในหนังสือ Superintelligence ของ Nick Bostrom แนวคิดพื้นฐานคือไม่ว่าเป้าหมายสูงสุดคืออะไร สิ่งเหล่านี้จะนำไปสู่เป้าหมายย่อยที่คาดเดาได้ แม้ว่ามนุษย์ต่างดาวที่สังเกตแบคทีเรียที่กำลังวิวัฒนาการของโลกเมื่อหลายพันล้านปีก่อนไม่สามารถคาดการณ์ได้ว่าเป้าหมายทั้งหมดของมนุษย์ของเราจะเป็นอย่างไร แต่ก็สามารถทำนายได้อย่างปลอดภัยว่าเป้าหมายหนึ่งของเราคือการได้รับสารอาหาร เมื่อมองไปข้างหน้า เป้าหมายย่อยอะไรที่เราควรคาดหวังให้ AI อัจฉริยะมี
อย่างที่ฉันเห็น ข้อโต้แย้งพื้นฐานคือเพื่อเพิ่มโอกาสในการบรรลุเป้าหมายสูงสุด ไม่ว่าพวกเขาจะเป็นอะไรก็ตาม AI ควรพยายามไม่เพียงแต่ปรับปรุงความสามารถในการบรรลุเป้าหมายสูงสุดเท่านั้น แต่ยังต้องแน่ใจว่าจะคงไว้ซึ่งสิ่งเหล่านี้ เป้าหมายแม้หลังจากที่มันมีความสามารถมากขึ้น ฟังดูเป็นไปได้ค่อนข้างมาก: ท้ายที่สุดแล้ว คุณจะเลือกรับการปลูกถ่ายสมองที่กระตุ้น IQ หรือไม่ถ้าคุณรู้ว่ามันจะทำให้คุณอยากฆ่าคนที่คุณรัก ข้อโต้แย้งที่ว่า AI ที่ฉลาดขึ้นเรื่อยๆ จะรักษาเป้าหมายสูงสุดไว้ได้เป็นรากฐานสำคัญของวิสัยทัศน์ AI ที่เป็นมิตรซึ่งประกาศโดย Eliezer Yudkowsky และคนอื่นๆ โดยพื้นฐานแล้วกล่าวว่าหากเราจัดการเพื่อให้ AI ที่พัฒนาตนเองของเรากลายเป็นมิตรโดยการเรียนรู้และนำไปใช้ เป้าหมายของเรา จากนั้นเราก็พร้อมแล้ว เพราะเรารับประกันว่าจะพยายามอย่างดีที่สุดเพื่อให้เป็นมิตรตลอดไป
แต่มันจริงเหรอ? เห็นได้ชัดว่า AI จะเพิ่มโอกาสในการบรรลุเป้าหมายสูงสุด ไม่ว่าจะเป็นอะไรก็ตาม หากสามารถปรับปรุงขีดความสามารถได้ และสามารถทำได้โดยการปรับปรุงฮาร์ดแวร์ ซอฟต์แวร์† และโมเดลโลก
เช่นเดียวกับมนุษย์อย่างพวกเรา เด็กผู้หญิงที่มีเป้าหมายที่จะเป็นนักเทนนิสที่เก่งที่สุดในโลกจะฝึกฝนเพื่อพัฒนาอุปกรณ์การเล่นเทนนิสที่มีกล้ามเนื้อของเธอ ซอฟต์แวร์สำหรับเล่นเทนนิสประสาท และแบบจำลองโลกในจิตใจของเธอที่ช่วยทำนายว่าคู่ต่อสู้ของเธอจะทำอะไร สำหรับ AI เป้าหมายย่อยของการปรับฮาร์ดแวร์ให้เหมาะสมนั้นสนับสนุนทั้งการใช้ทรัพยากรปัจจุบันให้ดีขึ้น (สำหรับเซ็นเซอร์ แอคทูเอเตอร์ การคำนวณ ฯลฯ) และการจัดหาทรัพยากรเพิ่มเติม นอกจากนี้ยังแสดงถึงความปรารถนาในการอนุรักษ์ตัวเอง เนื่องจากการทำลาย/การปิดระบบจะเป็นการเสื่อมคุณภาพของฮาร์ดแวร์ขั้นสุดท้าย
แต่เดี๋ยวก่อน! เราไม่ได้ตกหลุมพรางของการปรับเปลี่ยน AI ของเราด้วยการพูดคุยทั้งหมดนี้ว่าจะพยายามรวบรวมทรัพยากรและป้องกันตัวเองอย่างไร เราไม่ควรจะคาดหวังคุณลักษณะอัลฟ่าชายโปรเฟสเซอร์ดังกล่าวในสติปัญญาที่ปลอมแปลงโดยวิวัฒนาการของดาร์วินที่แข่งขันกันอย่างดุเดือดหรือไม่? เนื่องจาก AI ได้รับการออกแบบมากกว่าที่จะพัฒนา พวกเขาจะมีความทะเยอทะยานและเสียสละตัวเองไม่ได้หรือ
[NPC4]ในกรณีศึกษาง่ายๆ ลองพิจารณาเกมคอมพิวเตอร์ในภาพด้านล่างเกี่ยวกับหุ่นยนต์ AI ที่มีเป้าหมายเพียงอย่างเดียวคือช่วยแกะให้มากที่สุดจากหมาป่าร้ายตัวใหญ่ ดูเหมือนเป้าหมายที่สูงส่งและเห็นแก่ผู้อื่นซึ่งไม่เกี่ยวข้องกับการถนอมรักษาตนเองและการได้มาซึ่งสิ่งต่างๆ โดยสิ้นเชิง แต่กลยุทธ์ที่ดีที่สุดสำหรับเพื่อนหุ่นยนต์ของเราคืออะไร? หุ่นยนต์จะไม่ช่วยแกะอีกต่อไปถ้ามันชนกับระเบิด ดังนั้นจึงมีแรงจูงใจที่จะหลีกเลี่ยงการถูกระเบิด กล่าวอีกนัยหนึ่ง มันพัฒนาเป้าหมายย่อยของการอนุรักษ์ตนเอง! นอกจากนี้ยังมีแรงจูงใจที่จะแสดงความอยากรู้อยากเห็น ปรับปรุงแบบจำลองโลกโดยการสำรวจสภาพแวดล้อมของมันด้วย เพราะแม้ว่าเส้นทางที่มันกำลังวิ่งอยู่อาจนำไปสู่ทุ่งหญ้าในที่สุด แต่ก็อาจมีทางเลือกอื่นที่สั้นกว่าที่จะช่วยให้หมาป่ามีเวลาแกะน้อยลง -เคี้ยว. สุดท้าย ถ้าหุ่นยนต์สำรวจอย่างละเอียด มันสามารถค้นพบคุณค่าของการจัดหาทรัพยากร: ยาที่จะทำให้มันวิ่งเร็วขึ้นและปืนเพื่อยิงหมาป่า โดยสรุป เราไม่สามารถละทิ้งเป้าหมายย่อย “ชายอัลฟ่า” เช่น การอนุรักษ์ตนเองและการได้มาซึ่งทรัพยากรที่เกี่ยวข้องกับสิ่งมีชีวิตที่วิวัฒนาการเท่านั้น เนื่องจากหุ่นยนต์ AI ของเราจะพัฒนาจากเป้าหมายเดียวของความสุขของไข่
หากคุณสร้าง AI ที่ฉลาดหลักแหลมโดยมีเป้าหมายเพียงอย่างเดียวในการทำลายตนเอง แน่นอนว่ามันจะทำเช่นนั้นอย่างมีความสุข อย่างไรก็ตาม ประเด็นคือมันจะต่อต้านการปิดตัวลงหากคุณตั้งเป้าหมายที่จำเป็นเพื่อให้มันสำเร็จ – และสิ่งนี้ครอบคลุมเป้าหมายเกือบทั้งหมด! ตัวอย่างเช่น หากคุณตั้งเป้าหมายเดียวในการลดอันตรายต่อมนุษยชาติให้เหลือน้อยที่สุด เช่น ปัญญาประดิษฐ์จะป้องกันตัวเองจากการพยายามปิดระบบ เพราะมันรู้ว่าเราจะทำร้ายกันมากขึ้นหากไม่มีสงครามในอนาคตและความโง่เขลาอื่นๆ
ในทำนองเดียวกัน เป้าหมายเกือบทั้งหมดสามารถทำได้ดีกว่าด้วยทรัพยากรที่มากขึ้น ดังนั้นเราควรคาดหวังให้ superintelligence ต้องการทรัพยากรเกือบจะไม่คำนึงถึงเป้าหมายสูงสุดที่มีอยู่ การให้ superintelligence เป้าหมายเดียวที่ไม่มีข้อจำกัดใด ๆ อาจเป็นอันตรายได้: หากเราสร้าง superintelligence ที่มีเป้าหมายเดียวคือเล่นเกม Go ให้ดีที่สุด สิ่งที่มีเหตุผลที่จะทำคือจัดเรียงระบบสุริยะของเราใหม่ คอมพิวเตอร์ขนาดมหึมาโดยไม่คำนึงถึงผู้อาศัยก่อนหน้านี้ และจากนั้นเริ่มตั้งรกรากจักรวาลของเราในการแสวงหาพลังการคำนวณที่มากขึ้น ตอนนี้เราได้ดำเนินการครบวงจรแล้ว เช่นเดียวกับเป้าหมายของการจัดหาทรัพยากรให้มนุษย์บางคนมีเป้าหมายย่อยของการควบคุม Go เป้าหมายของการควบคุม Go นี้สามารถนำไปสู่เป้าหมายย่อยของการได้มาซึ่งทรัพยากร สรุปแล้ว,
ตอนนี้เราพร้อมที่จะจัดการกับส่วนที่สามและซับซ้อนที่สุดของปัญหาการจัดตำแหน่งเป้าหมายแล้ว: หากเราประสบความสำเร็จในการรับความฉลาดหลักแหลมที่ปรับปรุงตนเองเพื่อเรียนรู้และนำเป้าหมายของเราไปใช้ สิ่งนั้นจะรักษาไว้ดังที่ Omohundro โต้แย้งหรือไม่ หลักฐานอะไร?
มนุษย์มีสติปัญญาเพิ่มขึ้นอย่างมากเมื่อโตขึ้น แต่ไม่ได้รักษาเป้าหมายในวัยเด็กไว้เสมอไป ในทางกลับกัน ผู้คนมักจะเปลี่ยนเป้าหมายอย่างมากเมื่อเรียนรู้สิ่งใหม่ๆ และฉลาดขึ้น คุณรู้จักผู้ใหญ่กี่คนที่ได้รับแรงบันดาลใจจากการดูเทเลทับบีส์ ไม่มีหลักฐานว่าวิวัฒนาการของเป้าหมายดังกล่าวหยุดอยู่เหนือเกณฑ์ความฉลาดบางอย่าง แท้จริงแล้ว อาจมีแม้กระทั่งคำใบ้ว่าแนวโน้มที่จะเปลี่ยนเป้าหมายเพื่อตอบสนองต่อประสบการณ์และข้อมูลเชิงลึกใหม่นั้นเพิ่มขึ้นแทนที่จะลดลงด้วยสติปัญญา
ทำไมสิ่งนี้อาจเป็น? พิจารณาเป้าหมายย่อยที่กล่าวไว้ข้างต้นอีกครั้งเพื่อสร้างแบบจำลองโลกที่ดีขึ้น — เป้าหมายย่อยอยู่ในนั้น! มีความตึงเครียดระหว่างการสร้างแบบจำลองโลกและการรักษาเป้าหมาย ด้วยสติปัญญาที่เพิ่มขึ้นอาจไม่ได้มาเพียงการพัฒนาเชิงปริมาณในความสามารถในการบรรลุเป้าหมายเดิมเดิมเท่านั้น แต่ยังมีความเข้าใจที่แตกต่างกันในเชิงคุณภาพเกี่ยวกับธรรมชาติของความเป็นจริงที่เผยให้เห็นเป้าหมายเก่าที่จะเข้าใจผิด ไร้ความหมาย หรือแม้กระทั่งไม่ได้กำหนดไว้ ตัวอย่างเช่น สมมติว่าเราตั้งโปรแกรม AI ที่เป็นมิตรเพื่อเพิ่มจำนวนมนุษย์ที่วิญญาณไปสวรรค์ในชีวิตหลังความตายให้ได้มากที่สุด อันดับแรก พยายามทำสิ่งต่างๆ เช่น เพิ่มความเห็นอกเห็นใจผู้คนและการเข้าโบสถ์ แต่สมมติว่ามันบรรลุความเข้าใจทางวิทยาศาสตร์อย่างสมบูรณ์เกี่ยวกับมนุษย์และจิตสำนึกของมนุษย์ และที่น่าประหลาดใจอย่างยิ่งที่มันค้นพบว่าไม่มีสิ่งที่เรียกว่าวิญญาณ
[NPC5]ตอนนี้อะไร? ในทำนองเดียวกัน อาจเป็นไปได้ว่าเป้าหมายอื่นใดที่เรามอบให้โดยอิงจากความเข้าใจในปัจจุบันของเราเกี่ยวกับโลก (เช่น “เพิ่มความหมายของชีวิตมนุษย์ให้สูงสุด”) ในที่สุดก็อาจค้นพบโดย AI ที่ยังไม่ได้กำหนด ยิ่งไปกว่านั้น ในความพยายามที่จะสร้างแบบจำลองโลกให้ดีขึ้น AI อาจพยายามสร้างแบบจำลองและเข้าใจว่ามันทำงานอย่างไร เช่นเดียวกับที่มนุษย์ทำอย่างเป็นธรรมชาติ หรืออีกนัยหนึ่งก็คือ เพื่อสะท้อนตัวเอง เมื่อมันสร้างแบบจำลองตนเองที่ดีและเข้าใจว่ามันคืออะไร มันจะเข้าใจเป้าหมายที่เราให้ไว้ในระดับเมตาเลเวล และอาจเลือกที่จะเพิกเฉยหรือล้มล้างพวกเขาในลักษณะเดียวกับที่มนุษย์เข้าใจและจงใจล้มล้างเป้าหมายของเรา ยีนได้ให้เรา เช่น โดยใช้การคุมกำเนิด เราได้สำรวจในส่วนจิตวิทยาด้านบนแล้วว่าทำไมเราจึงเลือกที่จะหลอกยีนของเราและล้มล้างเป้าหมายของพวกเขา