Get in my Think Art.

Tag: Q-learning

ความปลอดภัยของ AI: การวัดและหลีกเลี่ยงผลข้างเคียงโดยใช้ความสามารถในการเข้าถึงแบบสัมพัทธ์

ความปลอดภัยของ AI: การวัดและหลีกเลี่ยงผลข้างเคียงโดยใช้ความสามารถในการเข้าถึงแบบสัมพัทธ์

ความปลอดภัยของ AI: การวัดและหลีกเลี่ยงผลข้างเคียงโดยใช้ความสามารถในการเข้าถึงแบบสัมพัทธ์ jumbo jili ความท้าทายที่สำคัญในความปลอดภัยของ AI คือการระบุความชอบของมนุษย์ต่อระบบ AI ได้อย่างน่าเชื่อถือ ข้อกำหนดที่ไม่ถูกต้องหรือไม่สมบูรณ์ของวัตถุประสงค์สามารถส่งผลให้เกิดพฤติกรรมที่ไม่พึงประสงค์เช่น สเปคการเล่นเกม หรือก่อให้เกิด ผลกระทบด้านลบ มีหลายวิธีที่จะทำให้แนวคิดของ “ผลข้างเคียง” แม่นยำยิ่งขึ้น – ฉันคิดว่ามันเป็นการหยุดชะงักของสภาพแวดล้อมของตัวแทนซึ่งไม่จำเป็นสำหรับการบรรลุวัตถุประสงค์ ตัวอย่างเช่น ถ้าหุ่นยนต์ถือกล่องและชนแจกันในทางของมัน การทำลายแจกันเป็นผลข้างเคียง เนื่องจากหุ่นยนต์สามารถไปรอบๆ แจกันได้อย่างง่ายดาย ในทางกลับกัน หุ่นยนต์ทำอาหารที่ทำไข่เจียวต้องทำลายไข่ ดังนั้นการแตกไข่จึงไม่ใช่ผลข้างเคียง สล็อต เราจะวัดผลข้างเคียงในลักษณะทั่วไปที่ไม่ได้ปรับให้เข้ากับสภาพแวดล้อมหรืองานเฉพาะ และสร้างแรงจูงใจให้ตัวแทนหลีกเลี่ยงได้อย่างไร นี่คือคำถามกลางของเรากระดาษที่ผ่านมาส่วนหนึ่งของความท้าทายคือ ง่ายที่จะแนะนำสิ่งจูงใจที่ไม่ดีสำหรับตัวแทนเมื่อพยายามลงโทษผลข้างเคียง งานก่อนหน้านี้เกี่ยวกับปัญหานี้มุ่งเน้นไปที่การรักษาความสามารถในการย้อนกลับได้หรือการลดผลกระทบของตัวแทนต่อสิ่งแวดล้อม และทั้งสองแนวทางนี้นำเสนอสิ่งจูงใจที่เป็นปัญหาประเภทต่างๆ:การรักษาความสามารถในการย้อนกลับได้ (เช่น การรักษาสถานะเริ่มต้นให้เข้าถึงได้) ส่งเสริมให้ตัวแทนป้องกันเหตุการณ์ที่ไม่สามารถย้อนกลับได้ในสิ่งแวดล้อม (เช่น มนุษย์กินอาหาร) นอกจากนี้ หากวัตถุประสงค์ต้องการการกระทำที่ไม่สามารถย้อนกลับได้ (เช่น การทำลายไข่สำหรับไข่เจียว) การกระทำที่ไม่สามารถย้อนกลับได้อีกจะไม่ถูกลงโทษ เนื่องจากการย้อนกลับได้สูญหายไปแล้วการลงโทษผลกระทบ […]