Get in my Think Art.

AI Alignment Podcast: ปัญหานายพลไบแซนไทน์ การวางยาพิษ และการเรียนรู้ของเครื่องแบบกระจายกับ El Mahdi El Mhamdi (Beneficial AGI 2019)

AI Alignment Podcast: ปัญหานายพลไบแซนไทน์ การวางยาพิษ และการเรียนรู้ของเครื่องแบบกระจายกับ El Mahdi El Mhamdi (Beneficial AGI 2019)

AI Alignment Podcast: ปัญหานายพลไบแซนไทน์ การวางยาพิษ และการเรียนรู้ของเครื่องแบบกระจายกับ El Mahdi El Mhamdi (Beneficial AGI 2019)

jumbo jili

แม่ทัพสามคนโหวตว่าจะโจมตีหรือหนีจากการล้อมปราสาท นายพลคนหนึ่งทุจริตและสองคนไม่ได้ จะเกิดอะไรขึ้นเมื่อนายพลที่ทุจริตส่งคำตอบที่แตกต่างกันไปยังนายพลอีกสองคน
ความผิดไบเซนไทน์คือ“ สภาพของระบบคอมพิวเตอร์กระจายโดยเฉพาะอย่างยิ่งระบบที่ส่วนประกอบอาจล้มเหลวและมีข้อมูลที่ไม่สมบูรณ์อยู่กับว่าเป็นองค์ประกอบที่ล้มเหลวในการคำนวณ คำนี้ใช้ชื่อจากอุปมานิทัศน์ “ปัญหานายพลไบแซนไทน์” พัฒนาขึ้นเพื่ออธิบายสภาวะนี้ โดยที่นักแสดงต้องเห็นด้วยกับกลยุทธ์ร่วมกันเพื่อหลีกเลี่ยงความล้มเหลวของระบบที่ร้ายแรง แต่นักแสดงบางคนไม่น่าเชื่อถือ “

สล็อต

ปัญหาของนายพลไบแซนไทน์และปัญหาที่เกี่ยวข้องในการรักษาเครือข่ายคอมพิวเตอร์แบบกระจายที่เชื่อถือได้นั้นส่องสว่างสำหรับทั้งการจัดตำแหน่ง AI และเครือข่ายสมัยใหม่ที่เราโต้ตอบด้วยเช่น Youtube, Facebook หรือ Google การสำรวจพื้นที่นี้ทำให้เราเห็นข้อจำกัดของการคำนวณแบบกระจายที่เชื่อถือได้ ข้อกังวลด้านความปลอดภัยและภัยคุกคามในพื้นที่นี้ และการแลกเปลี่ยนที่เราจะต้องทำเพื่อระดับประสิทธิภาพหรือความปลอดภัยที่แตกต่างกัน
The Byzantine Generals’ Problem, Poisoning, and Distributed Machine Learning with El Mahdi El Mhamdiเป็นพอดคาสต์ที่เก้าในชุด AI Alignment Podcast ซึ่งจัดโดย Lucas Perry El Mahdi เป็นผู้บุกเบิกแมชชีนเลิร์นนิงแบบ Byzantine ที่มีความยืดหยุ่น โดยคิดค้นชุดของอัลกอริธึมที่ปลอดภัยซึ่งพิสูจน์ได้ว่าเขาเพิ่งนำเสนอที่ NeurIPS และ ICML สนใจในชีววิทยาเชิงทฤษฎี งานของเขายังรวมถึงการวิเคราะห์การแพร่กระจายข้อผิดพลาดและเครือข่ายที่ใช้กับทั้งโครงข่ายประสาทและชีวโมเลกุล ตอนพิเศษนี้ถูกบันทึกในการประชุมBeneficial AGI 2019ในเปอร์โตริโก เราหวังว่าคุณจะเข้าร่วมการสนทนาโดยติดตามเราหรือสมัครรับพอดคาสต์ของเราบนYoutube , SoundCloud , iTunes ,Google Play , Stitcherหรือไซต์/แอปพลิเคชันพอดแคสต์ที่คุณต้องการ คุณสามารถค้นหาทั้งหมดที่เอไอพอดคาสต์การจัดที่นี่
โดยเฉพาะอย่างยิ่ง El Mahdi ให้เหตุผลในการสัมภาษณ์ครั้งแรก (และในพอดคาสต์) ว่าความปลอดภัยของ AI ทางเทคนิคไม่เพียงเกี่ยวข้องกับความกังวลในระยะยาวเท่านั้น แต่ยังมีความสำคัญในประเด็นเร่งด่วนในปัจจุบัน เช่น การวางยาพิษทางโซเชียลมีเดียของการอภิปรายในที่สาธารณะและการเผยแพร่ข้อมูลที่ผิด ทั้ง ซึ่งตกอยู่ในพิษ-ความยืดหยุ่น. อีกตัวอย่างหนึ่งที่เขาชอบใช้คือการเสพติดโซเชียลมีเดีย ซึ่งถือได้ว่าเป็นกรณีของ (ไม่ใช่) การเรียนรู้แบบขัดจังหวะอย่างปลอดภัย ค่าที่ไม่ตรงแนวนี้เป็นปัญหาอยู่แล้วกับรูปแบบ AI ดั้งเดิมที่ปรับโลกของเราในปัจจุบันให้เหมาะสม เนื่องจากมีเวลาในการรับชมสูงสุดบนอินเทอร์เน็ต
คำถามหลัง (Safe Interruptibility) เป็นอีกหนึ่งคำถามทางเทคนิคด้านความปลอดภัยของ AI ที่ El Mahdi ใช้ในบริบทของ Reinforcement Learning การวิจัยแนวนี้ใน ขั้นต้นถูกมองว่าเป็น “นิยายวิทยาศาสตร์” ในการสัมภาษณ์ (5 นาที) El Mahdi อธิบายว่าเหตุใดจึงเป็นคำถามที่เหมือนจริงที่เกิดขึ้นตามธรรมชาติใน การเรียนรู้แบบเสริมกำลัง
“งานเอลมาห์ในการเรียนรู้เครื่องไบเซนไทน์มีความยืดหยุ่นและหัวข้ออื่น ๆ ที่เกี่ยวข้องที่มีอยู่ในของเขา รายละเอียดนักวิชาการของ Google การปรับเปลี่ยนไลบรารีแมชชีนเลิร์นนิ่งยอดนิยม TensorFlow เพื่อให้เป็นแบบ Byzantine-resilient (และยังสนับสนุนการสื่อสารผ่านช่อง UDP เป็นต้น) เพิ่งได้รับการโอเพนซอร์สบน Github โดยเพื่อนร่วมงานของ El Mahdiโดยอิงจากงานอัลกอริทึมของเขาที่เรากล่าวถึงในพอดคาสต์ .
ลูคัส : เฮ้ ทุกคน ยินดีต้อนรับกลับสู่ซีรีส์ AI Alignment Podcast ฉันชื่อลูคัส เพอร์รี และวันนี้เราจะมาพูดคุยกับเอล มาห์ดี เอล มัมดีเกี่ยวกับปัญหาไบแซนไทน์ ความอดทนของไบแซนไทน์ และพิษในการเรียนรู้แบบกระจายและเครือข่ายคอมพิวเตอร์ หากคุณพบว่าพอดคาสต์นี้น่าสนใจหรือมีประโยชน์ โปรดกดถูกใจและติดตามเราบนแพลตฟอร์มรายการที่คุณต้องการ El Mahdi El Mhamdi เป็นผู้บุกเบิกแมชชีนเลิร์นนิงแบบ Byzantine ที่มีความยืดหยุ่น โดยคิดค้นชุดของอัลกอริทึมที่ปลอดภัยที่พิสูจน์ได้ ซึ่งเขาเพิ่งนำเสนอที่ NeurIPS และ ICML สนใจในชีววิทยาเชิงทฤษฎี งานของเขายังรวมถึงการวิเคราะห์การแพร่กระจายข้อผิดพลาดและเครือข่ายที่ใช้กับทั้งโครงข่ายประสาทและชีวโมเลกุล ด้วยเหตุนี้ เอล มาห์ดีจะเริ่มต้นเราด้วยการทดลองทางความคิด
เอล มาห์ดี: ลองนึกภาพว่าคุณเป็นส่วนหนึ่งของกลุ่มนายพลสามคน เช่น จากกองทัพไบแซนไทน์ที่ล้อมรอบเมืองที่คุณต้องการจะบุกรุก แต่คุณก็ต้องการล่าถอยด้วย หากการล่าถอยเป็นทางเลือกที่ปลอดภัยที่สุดสำหรับกองทัพของคุณ คุณคงไม่อยากโจมตีเมื่อคุณแพ้ ดังนั้นแม่ทัพทั้งสามคนที่คุณเป็นส่วนหนึ่งอยู่ในเมืองทั้งสามด้าน พวกเขาส่งข่าวกรองบางอย่างเข้าไปในกำแพงเมือง และขึ้นอยู่กับข้อมูลข่าวกรองนี้ พวกเขาคิดว่าพวกเขาจะมีโอกาสชนะและต้องการโจมตี หรือคิดว่าจะพ่ายแพ้ต่อเมือง ดังนั้นมันจะดีกว่าสำหรับ พวกเขาจะล่าถอย การตัดสินใจครั้งสุดท้ายของคุณจะเป็นการลงคะแนนเสียงข้างมาก ดังนั้นคุณจึงสื่อสารผ่านพลม้าบางคนที่น่าเชื่อถือสำหรับการอภิปรายนี้ แต่อาจมีคนหนึ่งในพวกท่านที่อาจได้รับความเสียหายจากเมืองนี้

สล็อตออนไลน์

สถานการณ์จะมีปัญหาถ้า พูด มีนายพล A นายพล B และนายพล C นายพล A ตัดสินใจที่จะโจมตี นายพล B ตัดสินใจล่าถอยโดยอาศัยความฉลาดของพวกเขาด้วยเหตุผลบางประการ A และ B ไม่ทุจริต และกล่าวว่า C ทุจริต แน่นอน A และ B พวกเขาไม่รู้ว่าใครเป็นคนทุจริต บอกว่าซีทุจริต สิ่งที่แม่ทัพคนนี้จะทำ พวกเขาคิดอย่างไร ดังนั้น A จึงต้องการโจมตี พวกเขาจะบอกพวกเขาว่า “ฉันยังต้องการโจมตี ฉันจะโจมตี” จากนั้นพวกเขาจะบอกนายพลบีว่า “ฉันก็ต้องการถอยเช่นกัน ฉันจะถอย” A ได้รับคะแนนโหวตโจมตีสองครั้งและโหวตถอยหนึ่งครั้ง นายพล B ได้รับการโหวตถอยสองครั้งและโหวตโจมตีเพียงครั้งเดียว หากพวกเขาเชื่อใจทุกคน พวกเขาไม่ตรวจสอบซ้ำซาก นี่จะเป็นหายนะ
จะโจมตีคนเดียว; B จะถอยกลับ; แน่นอน C ไม่สนใจเพราะเขาเสียหายจากเมืองต่างๆ คุณสามารถบอกฉันว่าพวกเขาสามารถหลีกเลี่ยงได้โดยการตรวจสอบอีกครั้ง ตัวอย่างเช่น A และ B สามารถสื่อสารสิ่งที่ C บอกพวกเขาได้ สมมติว่านายพลทุกคนสื่อสารกับนายพลทุกคนเกี่ยวกับสิ่งที่เขาตัดสินใจและสิ่งที่ส่วนที่เหลือของกลุ่มบอกพวกเขา A จะรายงานตัว B “นายพล C บอกให้ฉันโจมตี” จากนั้น B ก็บอก C ว่า “นายพล C บอกให้ฉันถอยทัพ” แต่แล้ว A และ B ก็ไม่มีทางสรุปได้ว่าความไม่สอดคล้องกันนั้นมาจากข้อเท็จจริงที่ว่า C ทุจริตหรือการรายงานทั่วไปเกี่ยวกับสิ่งที่ C บอกพวกเขาว่าทุจริต
ฉันเป็นนายพล A ฉันมีเหตุผลที่ถูกต้องทั้งหมดที่จะคิดด้วยความน่าจะเป็นแบบเดียวกับที่ C อาจจะโกหกฉัน หรือ B ก็อาจจะโกหกฉันด้วย ฉันไม่รู้ว่าคุณรายงานผิดที่ C บอกคุณมากพอที่จะทำให้เมืองเสียหายหรือเปล่า ถ้ามีสามคน เป็นไปไม่ได้ที่จะสร้างข้อตกลงในสถานการณ์นี้ จะเห็นได้โดยง่ายว่าสิ่งนี้จะทำให้มีแม่ทัพมากกว่าสามนาย อย่างที่ฉันว่า 100 ทันทีที่นายพลที่ไม่ทุจริตมีค่าน้อยกว่าสองในสาม เพราะสิ่งที่เราเห็นกับนายพลสามคนนั้นจะเกิดขึ้นกับเศษส่วนที่ไม่คอรัปชั่น . สมมติว่าคุณมีนายพล 33 คนจาก 100 คนที่ทุจริต ดังนั้นสิ่งที่พวกเขาสามารถทำได้คือพวกเขาสามารถเปลี่ยนคะแนนเสียงข้างมากในแต่ละด้านได้

jumboslot

แต่ที่แย่ไปกว่านั้น สมมติว่าคุณมีแม่ทัพทุจริต 34 คน และอีก 66 คนไม่มีแม่ทัพทุจริต สมมติว่าแม่ทัพที่ไม่ทุจริต 66 คนเหล่านั้นเป็นฝ่ายโจมตี 33 คน ฝ่ายล่าถอย 33 คน ปัญหาคือว่าเมื่อคุณอยู่ในด้านใดด้านหนึ่ง สมมติว่าคุณอยู่ในด้านล่าถอย คุณมีกลุ่ม 34 บวก 33 อยู่ข้างหน้าคุณ ซึ่งมีกลุ่มที่เป็นอันตรายส่วนใหญ่ ส่วนใหญ่นี้สามารถสมรู้ร่วมคิด เป็นส่วนหนึ่งของสมมติฐานไบแซนไทน์ ผู้ประสงค์ร้ายสามารถสมรู้ร่วมคิดและพวกเขาจะรายงานข้อความที่ไม่สอดคล้องกันส่วนใหญ่เกี่ยวกับชนกลุ่มน้อยใน 33 ข้อความ คุณไม่สามารถพิสูจน์ได้ว่าความไม่สอดคล้องกันนั้นมาจากกลุ่ม 34 เพราะพวกเขาเป็นส่วนใหญ่
ลูคัส: เมื่อเราคิดถึง 100 คนหรือ 100 นายพล ทำไมพวกเขาถึงถูกแบ่งออกเป็นสามกลุ่มโดยอัตโนมัติ? เกิดอะไรขึ้นถ้ามีมากกว่าสามกลุ่ม?
เอลมาห์ดี: เรากำลังทำข้อตกลงไบแซนไทน์ในรูปแบบที่ง่ายที่สุด เราต้องการเห็นด้วยกับการโจมตีกับการล่าถอย เมื่อมันกลายเป็นหลายมิติ มันจะยิ่งยุ่งเหยิง มีผลลัพธ์ที่เป็นไปไม่ได้และผลลัพธ์ที่เป็นไปไม่ได้มากกว่า เช่นเดียวกับการตัดสินใจแบบไบนารี มีทฤษฎีบทความเป็นไปไม่ได้ในการมีข้อตกลงหากคุณมีข้อความที่ไม่ได้ลงนามถึงพลม้า เมื่อใดก็ตามที่กลุ่มทุจริตเกิน 33% คุณไม่สามารถตกลงกันได้ ปัญหานี้มีหลากหลายรูปแบบ ขึ้นอยู่กับสมมติฐานที่คุณสามารถสันนิษฐานได้ ในที่นี้ โดยไม่แม้แต่จะเอ่ยถึง เราถือว่ามีความล่าช้ามาก พลม้ามักจะมาถึงในที่สุด หากพลม้าตายระหว่างทาง และคุณไม่มีทางตรวจสอบได้ว่าพวกเขามาถึงหรือไม่ หรือคุณจะรอได้ตลอดไป เพราะคุณไม่มีหลักฐานว่าทหารม้าเสียชีวิตระหว่างทาง
คุณไม่มีกลไกที่จะบอกคุณว่า “หยุดรอพวกพลม้า หยุดรอข้อความจากนายพล B เพราะทหารม้าตาย” คุณสามารถรอได้ตลอดไปและมีทฤษฎีบทที่แสดงให้เห็นว่าเมื่อคุณมีความล่าช้าที่ไม่ จำกัด และเช่นเดียวกับในการคำนวณแบบกระจาย เมื่อใดก็ตามที่คุณมีความล่าช้า เราจะพูดถึงความไม่ตรงกัน หากคุณมีการสื่อสารแบบซิงโครนัส มีทฤษฎีบทหนึ่งที่มีชื่อเสียงมากที่บอกคุณว่าฉันทามติเป็นไปไม่ได้ แม้แต่ในกรณีที่เป็นอันตราย แต่ก็เหมือนกับใน
ลูคัส: ในกรณีปกติทางโลก
เอล มาห์ดี: ใช่ มันเรียกว่าฟิชเชอร์ลินช์แพทฤษฎีบททฤษฎีบท
ลูคัส: ใช่แล้ว เพียงเพื่อเจาะลึกลงไปในปมของปัญหา ประเด็นในเบื้องต้นก็คือว่าเมื่อกลุ่มคอมพิวเตอร์หรือกลุ่มนายพลหรืออะไรก็ตามที่กำลังพยายามตรวจสอบว่าใครอยู่ท่ามกลางความคลาดเคลื่อนและความคล้ายคลึงกันของรายการและทุกคนที่อ้างสิทธิ์ในสิ่งใด คือเมื่อดูเหมือนว่าจะมีเสียงข้างมากในระดับของการส่งที่เสียหายแล้วใช่คุณทำผิดพลาด
เอล มาห์ดี: ใช่ เป็นไปไม่ได้ที่จะบรรลุข้อตกลง มีตัวแทนที่เป็นอันตรายอยู่ด้านบนเสมอซึ่งเป็นไปไม่ได้ที่จะเห็นด้วย ขึ้นอยู่กับสถานการณ์ จะเป็นหนึ่งในสามหรือบางครั้งหรือครึ่งหรือหนึ่งในสี่ขึ้นอยู่กับข้อกำหนดของคุณ
ลูคัส: ถ้าคุณเริ่มปรับสมมติฐานที่อยู่เบื้องหลังการทดลองทางความคิด มันจะเปลี่ยนจำนวนเครื่องหรือตัวแทนที่เสียหายซึ่งจำเป็นเพื่อพลิกคนส่วนใหญ่และทำให้การสื่อสารเป็นพิษ
เอล มาห์ดี: ถูก ต้อง แต่ตัวอย่างเช่น คุณพูดถึงบางสิ่งที่เกี่ยวข้องกับการอภิปรายในวันนี้ ซึ่งถ้าเราไม่เห็นด้วยกับการตัดสินใจสองอย่าง ถอยทัพ โจมตี จะเกิดอะไรขึ้นถ้าเราเห็นด้วยกับการตัดสินใจแบบหลายมิติ โจมตีหรือถอยในมิติเดียวแล้ว
[NPC5]ลูคัส: หยุดนะ ล้อมต่อไป
El Mahdi: ใช่ เช่นเดียวกับการเพิ่มความเป็นไปได้หรือมิติและข้อตกลงหลายมิติ พวกเขายิ่งสิ้นหวังไปในทิศทางนั้น
ลูคัส: มีทฤษฎีบทที่เป็นไปไม่ได้และปัญหาอื่นๆ อีกมากที่ระบบแบบกระจายเหล่านี้เสี่ยงต่อระบบจำนวนเล็กน้อยที่เสียหายและเกิดความผิดพลาดในเครือข่ายแบบกระจายทั้งหมด