Get in my Think Art.

วิธีสร้าง AI ที่สามารถนำทางโลกของเราได้อย่างปลอดภัย — บทสัมภาษณ์กับ Andre Platzer

วิธีสร้าง AI ที่สามารถนำทางโลกของเราได้อย่างปลอดภัย — บทสัมภาษณ์กับ Andre Platzer

วิธีสร้าง AI ที่สามารถนำทางโลกของเราได้อย่างปลอดภัย — บทสัมภาษณ์กับ Andre Platzer

jumbo jili

ในช่วงสองสามทศวรรษที่ผ่านมา ความก้าวหน้าทางเทคโนโลยีอย่างไม่เคยปรากฏมาก่อนทำให้เราอัปเกรดและปรับปรุงโครงสร้างพื้นฐานส่วนใหญ่ของเราให้ทันสมัย ​​และแก้ปัญหาด้านลอจิสติกส์ที่มีมายาวนานมากมาย ตัวอย่างเช่น แอพสมาร์ทโฟนที่ขับเคลื่อนด้วย AI ของ Babylon Health ช่วยประเมินและจัดลำดับความสำคัญผู้ป่วย 1.2 ล้านคนในลอนดอนเหนือ การโอนเงินทางอิเล็กทรอนิกส์ช่วยให้เราสามารถส่งเงินได้ทันทีเกือบทุกที่ในโลกและในช่วง 20 ปีที่ผ่านมาGPS ได้ปฏิวัติ วิธีการนำทางของเรา เราติดตามและจัดส่งสินค้าอย่างไร และเราควบคุมการจราจรอย่างไร

สล็อต

อย่างไรก็ตาม การเติบโตแบบทวีคูณนั้นมาพร้อมกับชุดของอุปสรรคที่ต้องสำรวจ ปัญหาที่สำคัญที่สุดคือเป็นเรื่องยากมากที่จะคาดการณ์ว่าเทคโนโลยีต่างๆ จะพัฒนาไปอย่างไร ดังนั้นจึงเป็นเรื่องยากที่จะวางแผนสำหรับอนาคตและดูแลให้มีคุณลักษณะด้านความปลอดภัยที่จำเป็น
ความไม่แน่นอนนี้น่าเป็นห่วงอย่างยิ่งเมื่อพูดถึงเทคโนโลยีที่อาจก่อให้เกิดความท้าทายด้านอัตถิภาวนิยม เช่น ปัญญาประดิษฐ์ เป็นต้น
อย่างไรก็ตาม แม้ว่า AI ในอนาคตจะมีลักษณะที่คาดเดาไม่ได้ ความท้าทายบางอย่างก็คาดเดาได้ ในกรณีนี้ ไม่ว่าเส้นทางการพัฒนาที่เอเจนต์ AI จะใช้ในท้ายที่สุดจะเป็นอย่างไร ระบบเหล่านี้จะต้องมีความสามารถในการตัดสินใจอย่างชาญฉลาด ซึ่งช่วยให้พวกเขาสามารถเคลื่อนที่ได้อย่างราบรื่นและปลอดภัยผ่านโลกทางกายภาพของเรา อันที่จริง การใช้ปัญญาประดิษฐ์ให้เกิดผลกระทบมากที่สุดอย่างหนึ่งรวมถึงเทคโนโลยีต่างๆ เช่น ยานยนต์อัตโนมัติ ศัลยแพทย์หุ่นยนต์ สมาร์ทกริดที่ผู้ใช้รับรู้ และระบบควบคุมเครื่องบิน ซึ่งทั้งหมดนี้รวมกระบวนการตัดสินใจขั้นสูงเข้ากับฟิสิกส์ของการเคลื่อนไหว
ระบบดังกล่าวเรียกว่าระบบไซเบอร์กายภาพ (CPS) รุ่นต่อไปของ CPS ขั้นสูงสามารถนำเราเข้าสู่ยุคใหม่ในด้านความปลอดภัยลดการขัดข้องโดย 90%และประหยัดประชาชาติของโลกหลายร้อยพันล้านดอลลาร์ต่อปี – แต่เฉพาะหากระบบดังกล่าวเป็นตัวดำเนินการอย่างถูกต้อง
นี่คือที่มาของAndre Platzerรองศาสตราจารย์ด้านวิทยาการคอมพิวเตอร์ที่ Carnegie Mellon University การวิจัยของ Platzer ทุ่มเทเพื่อให้แน่ใจว่า CPS เป็นประโยชน์ต่อมนุษยชาติและไม่ก่อให้เกิดอันตราย ในทางปฏิบัติ หมายถึงการทำให้มั่นใจว่าระบบมีความยืดหยุ่น เชื่อถือได้ และคาดการณ์ได้
การมีระบบที่ปลอดภัยหมายความว่าอย่างไร
ระบบไซเบอร์ทางกายภาพมีอยู่ในรูปแบบใดรูปแบบหนึ่งมาระยะหนึ่งแล้ว ตัวอย่างเช่น ระบบควบคุมการจราจรทางอากาศ ใช้เทคโนโลยีประเภท CPS มาเป็นเวลานานในการหลีกเลี่ยงการชน การจัดการจราจร และงานตัดสินใจอื่นๆ อย่างไรก็ตาม Platzer ตั้งข้อสังเกตว่าในขณะที่ CPS ก้าวหน้าอย่างต่อเนื่อง และเนื่องจากความต้องการที่เพิ่มขึ้นในการบูรณาการระบบอัตโนมัติและเทคโนโลยีการเรียนรู้ที่ซับซ้อนยิ่งขึ้น การทำให้แน่ใจว่า CPS กำลังตัดสินใจที่เชื่อถือได้และปลอดภัยมากขึ้น
เพื่อชี้แจงธรรมชาติของปัญหาให้ชัดเจนยิ่งขึ้น Platzer หันไปใช้รถยนต์ที่ขับเคลื่อนด้วยตนเอง ในระบบขั้นสูงเช่นนี้ เขาตั้งข้อสังเกตว่าเราจำเป็นต้องตรวจสอบให้แน่ใจว่าเทคโนโลยีมีความซับซ้อนเพียงพอที่จะมีความยืดหยุ่น เนื่องจากจะต้องสามารถตอบสนองต่อสถานการณ์ที่เผชิญหน้าได้อย่างปลอดภัย ในแง่นี้ “CPS จะดีที่สุดหากพวกเขาไม่เพียงแค่ใช้งาน [ระบบควบคุม] ที่ง่ายมาก แต่หากพวกเขาใช้ระบบที่ซับซ้อนและล้ำหน้ากว่ามาก” Platzer กล่าว อย่างไรก็ตาม เมื่อ CPS ใช้เอกราชขั้นสูง เพราะมันซับซ้อนมาก การพิสูจน์ว่าพวกเขาทำการเลือกอย่างเป็นระบบได้ยากขึ้นมาก
ในแง่นี้ ยิ่งระบบมีความซับซ้อนมากขึ้น เราก็ยิ่งถูกบังคับให้ต้องเสียสละความสามารถในการคาดการณ์บางส่วน และด้วยเหตุนี้ ความปลอดภัยของระบบ ตามที่ Platzer กล่าวไว้ “ความเรียบง่ายที่ช่วยให้คุณคาดการณ์ได้ในด้านความปลอดภัยค่อนข้างขัดแย้งกับความยืดหยุ่นที่คุณต้องมีในด้านปัญญาประดิษฐ์”
เป้าหมายสูงสุดคือการหาสมดุลระหว่างความยืดหยุ่นและความสามารถในการคาดการณ์ — ระหว่างเทคโนโลยีการเรียนรู้ขั้นสูงและการพิสูจน์ความปลอดภัย — เพื่อให้แน่ใจว่า CPS สามารถทำงานได้อย่างปลอดภัยและมีประสิทธิภาพ Platzer อธิบายวัตถุประสงค์โดยรวมนี้เป็นการกระทำที่สมดุล โดยสังเกตว่า “ด้วยระบบไซเบอร์กายภาพ เพื่อทำให้ความซับซ้อนนั้นเป็นไปได้และปรับขนาดได้ สิ่งสำคัญคือต้องทำให้ระบบเรียบง่ายที่สุดเท่าที่จะเป็นไปได้”
วิธีทำให้ระบบปลอดภัย
ขั้นตอนแรกในการแก้ไขปัญหานี้คือการกำหนดวิธีที่นักวิจัยสามารถตรวจสอบได้ว่า CPS มีความปลอดภัยอย่างแท้จริง ในแง่นี้ Platzer ตั้งข้อสังเกตว่างานวิจัยของเขาขับเคลื่อนด้วยคำถามสำคัญที่ว่า ถ้านักวิทยาศาสตร์มีแบบจำลองทางคณิตศาสตร์สำหรับพฤติกรรมบางอย่าง เช่น รถยนต์ที่ขับด้วยตนเองหรือเครื่องบิน และหากพวกเขาเชื่อว่าพฤติกรรมทั้งหมดของผู้ควบคุม ปลอดภัย พวกเขาจะพิสูจน์ได้อย่างไรว่าเป็นกรณีนี้จริงๆ
คำตอบคือการสอบมาตรทฤษฎีบทอัตโนมัติซึ่งเป็นโปรแกรมคอมพิวเตอร์ที่ช่วยกับการพัฒนาอย่างเข้มงวดพิสูจน์ความถูกต้องทางคณิตศาสตร์
เมื่อพูดถึง CPS มาตรฐานความปลอดภัยสูงสุดคือการพิสูจน์ความถูกต้องทางคณิตศาสตร์ ซึ่งแสดงให้เห็นว่าระบบสร้างเอาต์พุตที่ถูกต้องเสมอสำหรับอินพุตใดก็ตาม โดยใช้วิธีทางคณิตศาสตร์อย่างเป็นทางการเพื่อพิสูจน์หรือหักล้างความถูกต้องของอัลกอริธึมการควบคุมที่อยู่ภายใต้ระบบ
หลังจากระบุและสร้างเทคโนโลยีการพิสูจน์แล้ว Platzer ยืนยันว่าขั้นตอนต่อไปคือการใช้เพื่อเพิ่มความสามารถของตัวแทนการเรียนรู้ที่ชาญฉลาด – เพิ่มความซับซ้อนในขณะที่ตรวจสอบความปลอดภัยพร้อมกัน
ในที่สุด Platzer หวังว่าสิ่งนี้จะถึงจุดสุดยอดในเทคโนโลยีที่ช่วยให้ CPS สามารถกู้คืนจากสถานการณ์ที่ผลลัพธ์ที่คาดหวังไม่ได้กลายเป็นแบบจำลองความเป็นจริงที่แม่นยำ ตัวอย่างเช่น หากรถยนต์ที่ขับด้วยตนเองสันนิษฐานว่ารถคันอื่นกำลังเร่งความเร็วในขณะที่กำลังลดความเร็วลงจริง จะต้องสามารถแก้ไขข้อผิดพลาดนี้ได้อย่างรวดเร็วและเปลี่ยนไปใช้แบบจำลองทางคณิตศาสตร์ของความเป็นจริงที่ถูกต้อง
ยิ่งการเปลี่ยนผ่านอย่างราบรื่นเช่นนี้ซับซ้อนมากเท่าใด ก็ยิ่งต้องนำไปใช้งานที่ซับซ้อนมากขึ้นเท่านั้น แต่เป็นการผสมผสานขั้นสูงสุดของความปลอดภัยและความยืดหยุ่น หรือกล่าวอีกนัยหนึ่งคือการผสมผสานระหว่าง AI และเทคโนโลยีการป้องกันความปลอดภัย
สร้างสรรค์เทคโนโลยีแห่งอนาคต
จนถึงปัจจุบัน หนึ่งในการพัฒนาที่ยิ่งใหญ่ที่สุดที่มาจากการวิจัยของ Platzer คือเครื่องพิสูจน์ KeYmaera Xซึ่ง Platzer ระบุว่าเป็น “การก้าวกระโดดควอนตัมขนาดมหึมาในแง่ของความน่าเชื่อถือของเทคโนโลยีความปลอดภัยของเรา ผ่านอย่างเข้มงวดมากกว่าที่ใครๆ ทำ สำหรับการวิเคราะห์ระบบไซเบอร์กายภาพ”
ตัวพิสูจน์ KeYmaera X ซึ่งสร้างโดย Platzer และทีมของเขา เป็นเครื่องมือที่ช่วยให้ผู้ใช้สร้างการพิสูจน์ความถูกต้องทางคณิตศาสตร์สำหรับ CPS ได้อย่างง่ายดายและเชื่อถือได้ผ่านอินเทอร์เฟซที่ใช้งานง่าย

สล็อตออนไลน์

ในทางเทคนิคแล้ว KeYmaera X เป็นเครื่องพิสูจน์ทฤษฎีบทระบบไฮบริดที่วิเคราะห์โปรแกรมควบคุมและพฤติกรรมทางกายภาพของระบบควบคุมร่วมกัน เพื่อให้ทั้งการคำนวณที่มีประสิทธิภาพและการสนับสนุนที่จำเป็นสำหรับเทคนิคการป้องกันความปลอดภัยที่ซับซ้อน ในที่สุดงานนี้สร้างออกจากการทำซ้ำก่อนหน้าของเทคโนโลยีที่เรียกว่าKeYmaera อย่างไรก็ตาม Platzer ระบุว่า เพื่อเพิ่มประสิทธิภาพเครื่องมือและทำให้ง่ายที่สุดเท่าที่จะเป็นไปได้ ทีมงานจึง “เริ่มต้นจากศูนย์” โดยพื้นฐานแล้ว
Platzer เน้นย้ำว่าการเปลี่ยนแปลงล่าสุดเหล่านี้น่าทึ่งเพียงใด ในการพิสูจน์ครั้งก่อน ความถูกต้องของข้อความขึ้นอยู่กับรหัสประมาณ 66,000 บรรทัด โดยเฉพาะอย่างยิ่ง 66,000 บรรทัดเหล่านี้ล้วนมีความสำคัญต่อความถูกต้องของคำตัดสิน จากข้อมูลของ Platzer สิ่งนี้ทำให้เกิดปัญหา เนื่องจากเป็นการยากอย่างยิ่งที่จะตรวจสอบให้แน่ใจว่าบรรทัดทั้งหมดถูกนำไปใช้อย่างถูกต้อง แม้ว่าการทำซ้ำล่าสุดของ KeYmaera จะมีขนาดใหญ่เท่ากับเวอร์ชันก่อนหน้า แต่ใน KeYmaera X ส่วนของตัวพิสูจน์ที่รับผิดชอบในการตรวจสอบความถูกต้องนั้นมีโค้ดเพียง 2,000 บรรทัดเท่านั้น
ซึ่งช่วยให้ทีมประเมินความปลอดภัยของระบบกายภาพทางไซเบอร์ได้อย่างน่าเชื่อถือมากขึ้นกว่าเดิม “เราระบุ microkernel นี้ ซึ่งเป็นส่วนย่อยๆ ของระบบที่รับผิดชอบความถูกต้องของคำตอบ ดังนั้นตอนนี้เรามีโอกาสมากขึ้นที่จะทำให้แน่ใจว่าเราไม่ได้แอบเข้าไปในกลไกการให้เหตุผลโดยไม่ได้ตั้งใจ” Platzer กล่าวว่า. ในเวลาเดียวกัน เขาตั้งข้อสังเกตว่ามันช่วยให้ผู้ใช้สามารถทำการวิเคราะห์อัตโนมัติที่ก้าวร้าวมากขึ้น Platzer อธิบายว่า “ถ้าคุณมีส่วนเล็กๆ ของระบบที่รับผิดชอบต่อความถูกต้อง คุณก็สามารถทำระบบอัตโนมัติแบบเสรีนิยมได้มากขึ้น มันกล้าหาญกว่านี้ได้มากเพราะมีตาข่ายนิรภัยอยู่ข้างใต้”
สำหรับขั้นตอนต่อไปของการวิจัยของเขา Platzer จะเริ่มรวมแบบจำลองทางคณิตศาสตร์หลายแบบที่สามารถอธิบายความเป็นจริงลงใน CPS ได้ เพื่ออธิบายขั้นตอนต่อไปเหล่านี้ Platzer กลับมาที่รถยนต์ที่ขับด้วยตนเองอีกครั้ง: “หากคุณกำลังติดตามคนขับคนอื่น คุณไม่สามารถรู้ได้ว่าคนขับกำลังมองหาจุดจอดรถ พยายามจะไปที่ไหนสักแห่งอย่างรวดเร็ว หรือกำลังจะถึง เปลี่ยนเลน ดังนั้น โดยหลักการแล้ว ภายใต้สถานการณ์เหล่านั้น เป็นความคิดที่ดีที่จะมีแบบจำลองที่เป็นไปได้หลายแบบและปฏิบัติตามแบบจำลองที่อาจอธิบายความเป็นจริงได้ดีที่สุดเท่าที่จะเป็นไปได้”
ในท้ายที่สุด เป้าหมายคือการอนุญาตให้ CPS เพิ่มความยืดหยุ่นและความซับซ้อนโดยสลับไปมาระหว่างแบบจำลองต่างๆ เหล่านี้ เนื่องจากมีแนวโน้มมากขึ้นหรือน้อยลงในการอธิบายความเป็นจริง “โลกเป็นสถานที่ที่ซับซ้อน” Platzer อธิบาย “ดังนั้นการวิเคราะห์ความปลอดภัยของโลกจะต้องซับซ้อนด้วย”
สิ่งเหล่านี้ดูเหมือนเป็นสิ่งที่ควรค่าแก่การสำรวจ แต่ฉันไม่รู้ว่าเรามีวิธีการที่ถูกต้อง ดังนั้น ในกรณีเฉพาะที่คุณเสนอ เพียงแค่อัปเดตฟังก์ชันการให้รางวัลเมื่อเวลาผ่านไป คำถามเกี่ยวกับหัวเรื่องแบบคลาสสิกคือ เราจะสร้างมันขึ้นมาได้อย่างไรโดยที่ AI จะไม่พูดว่า “เอาล่ะ ที่จริงแล้ว ในการเพิ่มประสิทธิภาพฟังก์ชั่นยูทิลิตี้ที่ฉันมีในตอนนี้ คงจะดีสำหรับฉันที่จะป้องกันไม่ให้คุณเปลี่ยนยูทิลิตี้ของฉัน ฟังก์ชัน เนื่องจากถ้าคุณเปลี่ยนฟังก์ชันอรรถประโยชน์ของฉัน ฉันจะไม่บรรลุอรรถประโยชน์เดิมของฉันอีกต่อไป” นั่นเป็นประเด็นหนึ่ง
อีกประเด็นคือบางทีมันอาจจะเริ่มทำแผนระยะยาวบางอย่าง บางทีถึงแม้จะวางแผนตามฟังก์ชันยูทิลิตี้นี้โดยไม่ได้คาดหวังการเปลี่ยนแปลงบางอย่างในฟังก์ชันยูทิลิตี้ในอนาคต ก็อาจจัดทำแผนระยะยาวบางอย่างที่อาจดูแย่ในอนาคต แต่ก็ยากที่จะหยุด อนาคต. เช่นเดียวกับที่คุณทำการเปลี่ยนแปลงบางอย่างที่ไม่อาจแก้ไขกลับคืนสู่สังคมในสังคมได้ เพราะคุณไม่ได้ตระหนักว่าบางสิ่งกำลังจะเปลี่ยนไป สิ่งเหล่านี้แนะนำว่าคุณไม่ต้องการฟังก์ชั่นยูทิลิตี้เดียวที่คุณกำลังปรับให้เหมาะสมแม้ว่าคุณจะอัปเดตฟังก์ชั่นยูทิลิตี้นั้นเมื่อเวลาผ่านไป
[NPC4]อาจเป็นไปได้ว่าคุณมีความไม่แน่นอนบางอย่างเกี่ยวกับฟังก์ชันยูทิลิตี้และอาจเป็นเรื่องปกติ ฉันไม่แน่ใจ. ฉันไม่คิดว่ามันตกลงว่าเราไม่ต้องการทำอะไรแบบนี้ ฉันคิดว่ามันตกลงกันได้แล้วว่าเราไม่ต้องการใช้ IRL เพื่ออนุมานฟังก์ชันยูทิลิตี้และปรับให้เหมาะสมตลอดไป มีทางสายกลางอยู่บ้าง ฉันไม่รู้ว่าจุดกลางเหล่านั้นทำงานได้ดีเพียงใด มีบางอย่างโดยสังหรณ์ว่าจะมีปัญหาบางอย่าง แต่บางทีเราสามารถแก้ไขได้
ลูคัส: ให้ฉันลองทำสรุปสั้นๆ เพื่อดูว่าฉันสามารถอธิบายเรื่องนี้ให้ง่ายที่สุดได้หรือไม่ มีผู้คนและผู้คนมีความชอบ และวิธีที่ดีในการลองและอนุมานความชอบของพวกเขาคือผ่านพฤติกรรมที่สังเกตได้ ยกเว้นว่ามนุษย์มีความลำเอียงทางปัญญาและทางจิตใจ ซึ่งบิดเบือนการกระทำของพวกเขาเพราะพวกเขาไม่ใช่ตัวแทนญาณทิพย์ที่มีเหตุผลอย่างสมบูรณ์หรือ ตัวแทนที่มีเหตุผล ดังนั้นระบบคุณค่าหรือระบบการให้รางวัลที่พวกเขากำลังปรับให้เหมาะสมจึงแสดงออกมาอย่างไม่สมบูรณ์ผ่านพฤติกรรมของพวกเขา หากคุณกำลังจะอนุมานความชอบจากพฤติกรรมมากกว่าที่คุณต้องแก้ไขสำหรับอคติและความล้มเหลวทางญาณและเหตุผลเพื่อพยายามอนุมานฟังก์ชันการให้รางวัลที่แท้จริง หยุดอยู่ตรงนั้น นั่นเป็นวิธีที่สั้นกระชับหรือไม่?
Rohin: ใช่ ฉันคิดว่าอีกประเด็นที่อาจจะเหมือนหรืออาจจะแตกต่างก็คือภายใต้คำจำกัดความปกติของเราว่าความชอบหรือค่านิยมของเราเป็นอย่างไร หากเราจะพูดว่า “ฉันให้คุณค่ากับความเท่าเทียม แต่ดูเหมือนจริงที่คาดเดาได้ ว่าในอนาคตเราจะไม่ลงคะแนนเสียงต่อสิ่งมีชีวิต” หรืออะไรทำนองนั้น โดยพื้นฐานแล้วสิ่งที่บอกว่าความชอบของเรา ค่านิยมของเราจะเปลี่ยนไปตามกาลเวลา และขึ้นอยู่กับสภาพแวดล้อมที่เราเป็นอยู่ตอนนี้
คุณจะเห็นได้ว่า ไม่เป็นไร ฉันมีฟังก์ชันยูทิลิตี้ระยะยาวที่ใหญ่มาก เป็นสากลจริงๆ และยาวมาก ซึ่งจะบอกฉันว่าให้สภาพแวดล้อมของฉันเป็นอย่างไร ค่าที่แคบของฉันในสภาพแวดล้อมนั้นเป็นอย่างไร และในกรณีนั้นและคุณพูดว่า “เอาล่ะ ในกรณีนี้ เราลำเอียงมากจริงๆ เพราะเรารู้แค่ค่านิยมของเราในสภาพแวดล้อมเท่านั้น เราไม่รู้ค่านิยมของเราในสภาพแวดล้อมในอนาคต เราต้องคิดให้มากกว่านี้” หรือคุณอาจพูดว่า “เราสามารถอนุมานค่านิยมแบบแคบๆ ของเราได้ในตอนนี้ และนั่นก็มีอคติแทรกอยู่ แต่เราอาจพิจารณาถึงค่าเหล่านั้นที่เราต้องมีเรื่องราวบางอย่างสำหรับวิธีที่เราจัดการกับความชอบของเราที่พัฒนาขึ้นในอนาคต ”
นั่นเป็นมุมมองที่แตกต่างกันสองประการในปัญหาเดียวกัน ฉันจะพูด และโดยพื้นฐานแล้วสิ่งเหล่านี้แตกต่างกันในสิ่งที่คุณกำหนดมูลค่าให้เป็น มันคือสิ่งที่บอกคุณถึงวิธีการคาดการณ์สิ่งที่คุณต้องการในอนาคต หรือเป็นสิ่งที่บอกคุณว่าคุณประพฤติตัวอย่างไรในสภาพแวดล้อมปัจจุบัน ฉันคิดว่าแนวคิดคลาสสิกของเราเกี่ยวกับความชอบหรือค่านิยม แบบที่เราใช้เมื่อเราพูดถึงค่าในภาษาในชีวิตประจำวันคือการพูดถึงประเภทที่สอง ยิ่งแคบลงเท่านั้น
ลูคัส: มีหลายสิ่งหลายอย่างที่นั่น ฉันคิดว่า โดยเฉพาะอย่างยิ่งในแง่ของปัญหาในอัตลักษณ์ส่วนบุคคลนั้นเมื่อเวลาผ่านไป ความมุ่งมั่นในค่านิยม และอย่างที่คุณพูด ความคิดที่แตกต่างกันและแนวความคิดเกี่ยวกับคุณค่า เช่น จริง ๆ แล้วฉันกำลังเพิ่มประสิทธิภาพสำหรับอะไรหรือ ดูแลเกี่ยวกับ จรรยาบรรณของประชากรและหลายสิ่งหลายอย่างเกี่ยวกับวิธีที่ผู้คนให้คุณค่าแก่ตัวพวกเขาเองในอนาคต หรือว่าพวกเขาสนใจการทำงานของคุณค่าของตนอย่างเท่าเทียมกันตลอดเวลาหรือไม่เมื่อมีการเปลี่ยนแปลงภายในสิ่งแวดล้อม
Rohin: นั่นเป็นคำอธิบายที่ดีว่าทำไมฉันถึงกังวลกับการเรียนรู้การเสริมแรงผกผัน คุณระบุปัญหาไว้มากมาย และฉันก็แบบ ใช่ ทั้งหมดนั้นเป็นปัญหาที่ยากจริงๆ และด้วยการเรียนรู้การเสริมแรงผกผัน มันขึ้นอยู่กับสมมติฐานที่ว่าทั้งหมดนั้นมีอยู่จริง มีอยู่จริงและไร้กาลเวลา และเราสามารถอนุมานได้ และจากนั้นบางทีเราอาจใช้แฮ็กบางอย่าง เช่น ปรับปรุงฟังก์ชันค่าอย่างต่อเนื่องเมื่อเวลาผ่านไปเพื่อนำมาพิจารณา การเปลี่ยนแปลง แต่สิ่งนี้ทำให้รู้สึกเหมือนเรากำลังเริ่มต้นด้วยกระบวนทัศน์ที่มีข้อบกพร่องโดยพื้นฐาน
ส่วนใหญ่เป็นเพราะความจริงที่ว่า เราเริ่มใช้กระบวนทัศน์ที่มีข้อบกพร่อง แล้วจึงเปลี่ยนเพื่อไม่ให้มีข้อบกพร่องที่ชัดเจนทั้งหมด ฉันมองโลกในแง่ดีมากขึ้นเกี่ยวกับการพยายามสร้างกระบวนทัศน์ที่แตกต่างออกไปว่าเราต้องการสร้าง AI อย่างไร ซึ่งบางทีฉันจะสรุปแค่ว่าสร้าง AI ที่ทำในสิ่งที่เราต้องการหรือสิ่งที่เราหมายถึงในเวลาปัจจุบัน แล้วตรวจสอบให้แน่ใจว่า พวกมันวิวัฒนาการไปพร้อมกับเราเมื่อเราพัฒนาและวิธีที่เราคิดเกี่ยวกับโลก
[NPC5]ลูคัส: ใช่. คุณลักษณะเฉพาะนั้นมีบางสิ่งที่เราพยายามจะกล่าวถึงในการเรียนรู้การเสริมแรงผกผัน หากอัลกอริทึมนั้นมีการอัพเดทการทำงานล่วงเวลาควบคู่ไปกับตัวฉัน ฉันแค่อยากจะถอยออกมาสักครู่เพื่อพยายามทำความเข้าใจเกี่ยวกับความเป็นสากลของการเรียนรู้แบบเสริมแรงผกผัน จากวิวัฒนาการและมุมมองของจักรวาลวิทยา คุณสามารถพูดได้ว่าตั้งแต่ครั้งแรกที่สิ่งมีชีวิตที่จำลองตัวเองได้บนโลกใบนี้จนถึงวันนี้ เช่นเดียวกับต้นไม้วิวัฒนาการทั้งหมด มีฟังก์ชันอรรถประโยชน์ทั่วโลกสำหรับสัตว์ทุกชนิดที่ท้ายที่สุด ขับเคลื่อนโดยอุณหพลศาสตร์และแสงอาทิตย์ที่ส่องแสงบนดาวเคราะห์ และการทำงานของยูทิลิตี้ระดับโลกแบบนี้ของตัวแทนทั้งหมดทั่วโลก ดูเหมือนว่าจะเป็นพื้นฐานทางออนโทโลยีและบริสุทธิ์เหมือนกับสิ่งที่มีอยู่จริง ความพยายามที่จะเข้าถึงผ่าน IRL นั้นเป็นเรื่องที่น่าสนใจ ปัญหาที่เกิดขึ้นจากสิ่งนั้น ภาพแบบนั้นดูเหมือนจะถูกต้องหรือไม่?