วิธีการใหม่ของ OpenAI สำหรับการเรียนรู้การเลียนแบบ one-shot, มองเข้าไปในอนาคตของ AI

One-Shot เลียนแบบการเรียนรู้ Yan Duan, Marcin Andrychowicz, Bradly C. Stadie, Jonathan Ho, Jonas Schneider, Ilya Sutskever, Pieter Abbeel, Wojciech Zaremba

ในวันที่ 16 พฤษภาคมนักวิจัยของ OpenAI ได้แชร์วิดีโอของหนึ่งในโครงการของพวกเขาพร้อมกับเอกสารสำคัญสองข้อในการสำรวจปัญหาคอขวดที่สำคัญสามประการของการพัฒนา AI ในปัจจุบัน: การเรียนรู้แบบ meta-learning การเรียนรู้ครั้งเดียวและการสร้างข้อมูลอัตโนมัติ ในโพสต์ก่อนหน้าของฉันฉันสัญญาบทความที่ทุ่มเทให้กับปัญหาที่น่าสนใจของการเรียนรู้แบบ one-shot ดังนั้นที่นี่ไป คุณสามารถเริ่มต้นด้วยการดูวิดีโอที่เผยแพร่ซึ่งอธิบายการทำงานที่น่าทึ่งของพวกเขา:

ในวิดีโอนี้คุณจะเห็นหุ่นยนต์ก้อนหนึ่งซ้อนกันอยู่ด้านบนของกันและกัน รู้งานที่ซับซ้อนที่หุ่นยนต์อุตสาหกรรมสามารถดำเนินการได้หากนักวิจัยไม่พยายามอธิบายสิ่งที่เกิดขึ้นในหลาย ๆ บัญชีเรื่องนี้จะทำให้เกิดปัญหา ในสภาพแวดล้อมที่มีการควบคุมงานนั้นเรียบง่ายวิธีการเชิงปฏิบัติ (hard-coded) ได้แก้ปัญหานี้ไปแล้วสิ่งที่สัญญาและการปฏิวัติคือกรอบทั่วไปที่อยู่ภายใต้ขอบเขตที่สามารถขยายได้ถึงพฤติกรรมที่ซับซ้อนและปรับตัวได้หลายแบบ

ความแตกต่างในจิตใจระหว่างมนุษย์กับสัตว์ที่สูงกว่าอย่างมากแน่นอนว่าเป็นระดับหนึ่งและไม่ใจดี
- Charles Darwin

โดยการเปรียบเทียบบทความนี้เป็นหลักฐานที่แข็งแกร่งว่าความแตกต่างในระบบความรู้ความเข้าใจระหว่าง AI ที่เป็นตัวเป็นตนปัจจุบัน (ปัญญาประดิษฐ์ของระบบทางกายภาพ) และหุ่นยนต์ในศตวรรษที่ 22 จะเป็นหนึ่งในมาตราส่วนและไม่ใช่ของจริง ตั้งแต่ปี 2012 การแข่งขัน ImageNet * การวิจัยการเรียนรู้อย่างลึกซึ้งได้เริ่มเฟื่องฟูไม่มากที่จะปรับเปลี่ยนลักษณะของการคำนวณแบบกระจายที่กระทำโดยเครือข่ายประสาทเทียม แต่โดยการค้นหาวิธีใหม่ในการสร้างเครือข่ายโครงสร้างเพื่อให้พวกเขาเรียนรู้งานเฉพาะ สำหรับฟังก์ชั่นเครือข่ายนิวรัลคือโครงสร้างโครงสร้างนี้ไม่ได้เข้ารหัสยาก (ไม่ได้ออกแบบด้วยมือ) แต่เป็นผลลัพธ์ของหน่วยคำนวณเชิงอะตอมที่เชื่อมต่อระหว่างอินพุตและเอาท์พุตเริ่มแรกซึ่งสามารถปรับเปลี่ยนโครงสร้างและการเชื่อมต่อได้ มันคือการปรับเปลี่ยนโครงสร้างโดยรวมของเครือข่ายที่เรียนรู้ฟังก์ชั่นเฉพาะ

ในบทความนี้พวกเขาสร้างกรอบงานทั่วไปที่สามารถฝึกอบรมตัวแทนเพื่อเป็นตัวแทนของงานในทางที่เป็นนามธรรมและเรียนรู้ที่จะถ่ายโอนความรู้นี้ไปยังงานที่มองไม่เห็นใหม่ (การเรียนรู้การถ่ายโอน) หลังจากการสาธิตเพียงงานเดียว

เรื่องงาน

แม้ว่าการใช้งานสถาปัตยกรรมที่แตกต่างกันพวกเขาใช้สองงานเป็นตัวอย่างเพื่อแสดงประสิทธิภาพของวิธีการทั่วไป

การเข้าถึงอนุภาค

ในตัวอย่างแรกระบบจะรับอินพุตของตำแหน่งเป้าหมายสีบนระนาบและวิดีโอสาธิตเดียวของเอเจนต์จำลองที่ไปยังเป้าหมายที่ระบุ

รูปที่ 2 หุ่นยนต์เป็นจุดมวลที่ควบคุมด้วยแรง 2 มิติ ตระกูลของภารกิจคือการเข้าถึงจุดสังเกตเป้าหมาย ตัวตนของสถานที่สำคัญแตกต่างจากงานหนึ่งไปอีกงานหนึ่งและโมเดลจะต้องทราบว่าเป้าหมายใดที่จะดำเนินการตามการสาธิต ภาพประกอบ (ซ้าย) ของหุ่นยนต์ (กลาง) ภารกิจคือเข้าถึงกล่องส้ม (ขวา) ภารกิจคือเข้าถึงสามเหลี่ยมสีเขียว

ในระหว่างการฝึกอบรมระบบจะต้องทำซ้ำงานเดียวกัน (ถึงสีส้ม) แต่จากการกำหนดค่าอื่นโดยมีตำแหน่งเริ่มต้นที่แตกต่างกันสำหรับหุ่นยนต์และเป้าหมาย ไม่ชัดเจนว่าในระหว่างการทดสอบเอเจนต์จะถูกทดสอบในงานที่เขาได้รับการฝึกฝน (ถึงส้ม) หรือในภารกิจที่เขาไม่เคยเห็นมาก่อน (ยกตัวอย่างเช่นสีเขียว) หรือทั้งสองอย่าง

นโยบายที่ผ่านการฝึกอบรมจะได้รับการประเมินในสถานการณ์ใหม่และปรับเงื่อนไขในการสาธิตวิถีใหม่ที่มองไม่เห็นในระหว่างการฝึกอบรม

เป็นที่แน่นอนว่าเอเจนต์ต้องอนุมานเป้าหมายเป้าหมายจากการสาธิตที่ไม่ซ้ำกันและเริ่มต้นอีกครั้งจากการกำหนดค่าอื่น นี่ก็หมายความว่าลำดับที่แน่นอนของมอเตอร์ไม่สามารถเรียนรู้มาก่อนการทดสอบและจะต้องอนุมานผ่านนามธรรม (การแสดงโครงสร้างระดับสูงกว่า) ของงานและการวางแผนมอเตอร์

บล็อกการซ้อน

ในตัวอย่างที่สองเอเจนต์ต้องเรียนรู้วิธีสแต็กคิวบ์ (ระบุด้วยสีที่ต่างกัน) ในลำดับเดียวกันกับที่แสดงในการสาธิตแบบจำลองเดียว การสาธิตแบบจำลองนี้เป็นชุดของภาพสองมิติที่สร้างขึ้นโดยเครื่องยนต์ฟิสิกส์ 3 มิติซึ่งมีการจำลองคุณสมบัติของมอเตอร์และอุปกรณ์เกี่ยวกับประสาทสัมผัสของหุ่นยนต์

นโยบาย One-shot นโยบายเดียวที่ผ่านการฝึกอบรมเพื่อแก้ปัญหาหลายอย่าง งานอันดับสูงสุด: {abc, def}, งานด้านล่าง: {ab, cd, ef}

ในตัวอย่างทั้งสองตำแหน่งเริ่มต้นของคิวบ์ในการสาธิตและในการทดสอบจริงจะแตกต่างกันแต่ละงานเริ่มต้นจากตำแหน่งเริ่มต้นอื่น หุ่นยนต์ไม่พยายามแทนที่คิวบ์เพื่อให้ตรงกับตำแหน่งเริ่มต้นของการสาธิตมันจะถ่ายโอนภารกิจระดับสูงขึ้นของการซ้อนคิวบ์ตามสถานะที่เขาเริ่ม

การฝึกอบรมโดยใช้การสุ่มโดเมน

ในทั้งสองกรณีภาพทั้งหมดที่ใช้ในระหว่างการฝึกอบรมจะได้รับจากการจำลองโดยใช้การสุ่มโดเมนซึ่งพวกเขาจะสุ่มภาพตัวอย่างต่อไปนี้:

จำนวนและรูปร่างของวัตถุที่เบี่ยงเบนความสนใจบนโต๊ะตำแหน่งและพื้นผิวของวัตถุทั้งหมดบนโต๊ะพื้นผิวของตารางพื้น skybox และหุ่นยนต์ตำแหน่งการวางแนวและมุมมองของกล้องจำนวนไฟในฉากตำแหน่งการวางแนว และลักษณะเฉพาะของไฟประเภทและปริมาณของสัญญาณรบกวนแบบสุ่มที่เพิ่มเข้าไปในภาพ

ชุดฝึกอบรมสำหรับการเข้าถึงอนุภาค

เราพิจารณาชุดภารกิจที่ยากขึ้นเรื่อย ๆ โดยที่จำนวนสถานที่สำคัญเพิ่มขึ้นจาก 2 เป็น 10 สำหรับแต่ละกลุ่มภารกิจเรารวบรวมเส้นทางการเคลื่อนที่ 10,000 ตำแหน่งสำหรับการฝึกอบรมโดยที่ตำแหน่งของจุดสังเกตและตำแหน่งเริ่มต้นของหุ่นยนต์จุดจะถูกสุ่ม เราใช้นโยบายผู้เชี่ยวชาญแบบเข้ารหัสเพื่อสร้างการสาธิตอย่างมีประสิทธิภาพ เราเพิ่มเสียงให้กับวิถีโดยรบกวนการคำนวณก่อนที่จะนำไปใช้กับสภาพแวดล้อมและเราใช้การโคลนนิ่งพฤติกรรมอย่างง่ายเพื่อฝึกอบรมนโยบายโครงข่ายประสาทเทียม

ชุดฝึกอบรมสำหรับบล็อกซ้อน

เป็นที่ทราบกันว่าเรารวบรวมงานการฝึกอบรม 140 รายการและงานทดสอบอีก 43 งานซึ่งแต่ละแบบมีรูปแบบที่ต้องการแตกต่างกันของบล็อก จำนวนบล็อกในแต่ละงานอาจแตกต่างกันระหว่าง 2 และ 10 เราเก็บรวบรวม 1,000 วิถีต่อภารกิจสำหรับการฝึกอบรมและบำรุงรักษาชุดของวิถีและการกำหนดค่าเริ่มต้นที่จะใช้สำหรับการประเมินผลแยกต่างหาก คล้ายกับภารกิจการเข้าถึงอนุภาคเราฉีดเสียงเข้าสู่กระบวนการรวบรวมวิถี วิถีการทำงานจะถูกรวบรวมโดยใช้นโยบายที่กำหนดรหัสแบบยาก

การสาธิตที่ประสบความสำเร็จได้รับการรวบรวมโดยใช้นโยบายแบบกำหนดรหัสตายตัว

โปรดทราบว่าในระหว่างการเรียนรู้วิถีที่ถูกต้องถูกสร้างขึ้นโดยนโยบาย“ ฮาร์ดโค้ด” ขั้นตอนที่ฉันเชื่อว่าต้องอาศัยเทคนิคแบบคลาสสิกของการระบุและการควบคุมระบบ ดังนั้นในระหว่างการฝึกอบรมและการทดสอบเอเจนต์มีสองอินพุต: a) การสาธิตในการกำหนดค่า A และ b) การกำหนดค่าเริ่มต้น B ในระหว่างการฝึกอบรมเท่านั้นอัลกอริทึมการเรียนรู้ยังสามารถเข้าถึงการตอบสนองในอุดมคติ: ตอบปัญหาและเปรียบเทียบการตอบสนองของตัวแทนระหว่างการเรียนรู้ทำให้เป็นปัญหาการเรียนรู้แบบมีผู้สอน

สำหรับงานฝึกอบรมแต่ละครั้งเราถือว่าการสาธิตสำเร็จ

หากไม่ชัดเจนฉันจะอธิบายความแตกต่างระหว่างกระบวนทัศน์การเรียนรู้ประเภทต่างๆในหัวข้อถัดไป

อัลกอริทึมการเพิ่มประสิทธิภาพและฟังก์ชั่นการสูญเสีย

การเรียนรู้ภายใต้การดูแลหมายถึงกระบวนทัศน์การฝึกอบรมซึ่งในการตัดสินใจแต่ละครั้งเครือข่ายสามารถเข้าถึงตัวเลือกที่ถูกต้องที่เขาควรทำและด้วยเหตุนี้ความคิดที่ผิดพลาด ตัวอย่างเช่นในงานการจำแนกประเภทระหว่างสุนัขและแมวฉลากของภาพของสุนัขและแมวในระหว่างการฝึกอบรมเป็นที่รู้จักกันล่วงหน้าและข้อผิดพลาดจะถูกตรวจพบทันที ในแง่นั้นมันแตกต่างจากการเรียนรู้ที่ไม่มีผู้ดูแลโดยทั่วไปตัวแทนจะถูกขอให้ค้นหาโครงสร้างที่ไม่รู้จักก่อนหน้านี้ในอินพุตที่เขาได้รับและหากไม่มีป้ายกำกับของแมวและสุนัขจะต้องค้นพบว่ามีสองกลุ่มของวัตถุต่าง ๆ เท่านั้น ข้อมูลที่มีอยู่ในข้อมูล นอกจากนี้ยังแตกต่างจากการเรียนรู้การเสริมแรงที่มักใช้กับระบบเรียลไทม์ซึ่งไม่ทราบลำดับการตัดสินใจที่นำไปสู่เป้าหมาย แต่จะมีเพียง“ รางวัล” สุดท้ายเท่านั้นที่จะตัดสินว่าลำดับนั้นถูกต้องหรือไม่ โดยใช้การเรียนรู้เลียนแบบพวกเขาเปลี่ยนปัญหาการเรียนรู้การเสริมแรงแบบคลาสสิกให้เป็นปัญหาการเรียนรู้แบบมีผู้สอนซึ่งมีการคำนวณข้อผิดพลาดจากระยะทางเป็นเส้นทางการสังเกต

เนื่องจากเป็นกรณีของการตั้งค่าการฝึกอบรมแบบมีผู้ควบคุมงานในมือจะถูกกำหนดอย่างสมบูรณ์โดยฟังก์ชันการสูญเสียซึ่งมีวัตถุประสงค์เพื่อวัดจำนวนตัวแทนจากพฤติกรรมที่ตั้งใจไว้ การกำหนดฟังก์ชั่นนี้มักเป็นขั้นตอนที่สำคัญเนื่องจากเป็นตัวกำหนดว่าอัลกอริธึมการปรับให้เหมาะสมปรับปรุงพารามิเตอร์ของโมเดลอย่างไร อัลกอริธึมเหล่านั้นมีความสำคัญในแง่ของเวลาในการคำนวณและมักจะต้องมีการปรับเปลี่ยนเพื่อให้สามารถบรรจบกันได้ แน่นอนว่าโซลูชันที่จะลดฟังก์ชั่นในมิติที่สูงมากนั้นจะอยู่ในเชลล์ขนาดเล็กมากของพื้นที่พารามิเตอร์โดยมีระยะห่างระหว่างกันเล็กน้อยเมื่อคุณอยู่ห่างจากโดเมนขนาดเล็กระยะทางระหว่างโซลูชันจะเพิ่มขึ้นอย่างรวดเร็ว มีงานที่น่าสนใจมากมายในเรื่องนั้นโดย Jennifer Chayes ที่น่าทึ่งมากเธอแปรงเรื่องในการสัมภาษณ์ที่น่าสนใจในตอนสุดท้ายของ Talking Machines

ในระหว่างการฝึกอบรมของเครือข่ายนโยบาย (ทั้งเครือข่ายสามารถตัดสินใจได้จากการป้อนข้อมูลการดำเนินการที่จะดำเนินการ) พวกเขาดำเนินการเส้นทางการสาธิตที่ประสบความสำเร็จเป็นครั้งแรก ในส่วนนี้พวกเขาจะเปรียบเทียบสองวิธีการโคลนนิ่งพฤติกรรมคลาสสิก (ไม่แน่ใจว่าพวกเขาใช้งานอย่างไร) และอัลกอริทึม DAGGER สิ่งนี้จะอนุญาตให้มีการลดฟังก์ชั่นการสูญเสียซ้ำทั้งผ่าน l2 หรือการสูญเสียข้ามเอนโทรปีบนพื้นฐานของการกระทำที่ต่อเนื่องหรือไม่ต่อเนื่อง (ขึ้นอยู่กับการแจกแจงของเหตุการณ์ในลำดับ) ในการทดลองทั้งหมดพวกเขาใช้อัลกอริธึม Adamax เพื่อทำการปรับให้เหมาะสมด้วยอัตราการเรียนรู้ 0.001

ขนาดขั้นตอนเริ่มต้นเล็กและสลายตัวแบบทวีคูณ

อัลกอริทึมในตัวมันไม่อนุญาตให้ถ่ายโอนมันเป็นวิธีที่คุณสร้างชุดฝึกอบรมและฟังก์ชั่นการสูญเสียที่จะอนุญาตให้ถ่ายโอน

มีการถ่ายโอนสองชนิดในงาน ชนิดแรกเรียกว่า "การเชื่อมช่องว่างความเป็นจริง" มันเป็นลักษณะทั่วไปในการเรียนรู้ที่อนุญาตให้มีการถ่ายโอนระหว่างการฝึกอบรมเกี่ยวกับปัจจัยการจำลองการทดสอบสิ่งเร้าธรรมชาติ ข้อมูลการจำลองมักจะเป็นการประเมินที่ไม่สมบูรณ์ของโลกแห่งความเป็นจริงสมบูรณ์แบบเกินไปขาดความซับซ้อนของวัตถุจริง ในโลกแห่งความเป็นจริงกล้องอาจมีข้อผิดพลาดและเสียงดังการควบคุมมอเตอร์จะแม่นยำน้อยลงสีจะเปลี่ยนพื้นผิวจะสมบูรณ์ยิ่งขึ้นเป็นต้นเพื่อให้การถ่ายโอนครั้งแรกนี้พวกเขาใช้วิธีการที่พวกเขาเรียกว่า : มันคือการเพิ่มสัญญาณรบกวนให้กับอินพุตที่เครือข่ายสามารถเรียนรู้โครงสร้างที่เกี่ยวข้องทั่วไปที่จะช่วยให้มันสามารถพูดคุยกับโลกแห่งความจริงได้อย่างเหมาะสม ตัวอย่างเช่นพวกเขาจะเปลี่ยนมุมกล้องระหว่างตัวอย่างการฝึกอบรมเปลี่ยนพื้นผิวหรือทำให้วิถีสมบูรณ์แบบน้อยลง โดยการเพิ่มเสียงรบกวนในระหว่างการฝึกอบรมเราเพิ่มความแข็งแกร่ง

การถ่ายโอนครั้งที่สองที่ผ่านการทดสอบที่นี่คือความสามารถในการสร้างลำดับมอเตอร์ที่เกี่ยวข้องในชุดการกำหนดค่าและเป้าหมายที่มองไม่เห็นก่อนหน้านี้โดยอิงจากการสาธิตครั้งเดียวที่เริ่มต้นในการกำหนดค่าเริ่มต้นอื่น การถ่ายโอนที่นี่อีกครั้งจะเกิดขึ้นได้โดยวิธีการที่เราสร้างชุดฝึกอบรมและจำลองฟังก์ชันการสูญเสีย โดยการนำเสนอการสาธิตในระหว่างการฝึกอบรมที่ไม่ได้เริ่มต้นจากเงื่อนไขเริ่มต้นเดียวกันเพื่อให้บรรลุเป้าหมายที่คล้ายกันคุณอนุญาตให้เครือข่ายเรียนรู้ที่จะฝังการเป็นตัวแทนระดับสูงขึ้นของเป้าหมายโดยไม่ต้องใช้ตำแหน่งที่แน่นอน ลำดับมอเตอร์ที่ไม่ได้เลียนแบบง่าย สถาปัตยกรรมเริ่มต้นไร้เดียงสาช่วยให้การฝึกอบรมเพื่อปรับเปลี่ยนโครงสร้างในทางที่เกี่ยวข้องและโครงสร้างที่ผ่านการฝึกอบรมนี้แสดงถึงหน้าที่สุดท้าย

วัตถุประสงค์

สำหรับกระบวนทัศน์บล็อกซ้อนพวกเขามีข้อ จำกัด หลายประการที่พวกเขาต้องการให้ตัวแทนการเรียนรู้ของพวกเขาพบกัน

ควรนำไปใช้กับอินสแตนซ์งานที่มีจำนวนบล็อกแตกต่างกันได้ง่าย
มันควรจะพูดคุยกับการเรียงสับเปลี่ยนของงานเดียวกัน ตัวอย่างเช่นนโยบายควรทำงานได้ดีกับงาน {dcba} แม้ว่าจะได้รับการฝึกอบรมเฉพาะในงาน {abcd}
ควรรองรับการสาธิตความยาวของตัวแปร

พวกเขามีคำถามหลายข้อที่พวกเขาต้องการคำตอบสำหรับงานนี้

การฝึกอบรมกับการโคลนนิ่งพฤติกรรมเปรียบเทียบกับ DAGGER อย่างไรเนื่องจากข้อมูลที่เพียงพอสามารถรวบรวมแบบออฟไลน์ได้
การปรับสภาพในการสาธิตทั้งหมดเปรียบเทียบกับการปรับสภาพในการกำหนดค่าที่ต้องการขั้นสุดท้ายอย่างไรแม้ว่าการกำหนดค่าสุดท้ายจะมีข้อมูลเพียงพอที่จะระบุงานอย่างเต็มที่หรือไม่
การปรับสภาพในการสาธิตทั้งหมดเปรียบเทียบกับการปรับสภาพบน“ สแนปช็อต” ของวิถีซึ่งเป็นชุดย่อยของเฟรมเล็ก ๆ ที่ให้ข้อมูลมากที่สุด
กรอบการทำงานของเราสามารถสรุปประเภทงานที่ไม่เคยเห็นมาก่อนในระหว่างการฝึกอบรมได้หรือไม่? (++)
ข้อ จำกัด ในปัจจุบันของวิธีการคืออะไร?

สถาปัตยกรรม

การเข้าถึงอนุภาค

สำหรับตัวอย่างแรกนี้พวกเขาได้เปรียบเทียบสถาปัตยกรรมทั้งสามโดยใช้เครือข่ายประสาทแบบ Long Short Term Memory (LSTM) คำอธิบายของเครือข่ายเหล่านั้นจะถูกโพสต์ในอนาคตเกี่ยวกับความทรงจำและความสนใจซึ่งเป็นวิชาที่น่าสนใจอย่างยิ่งทั้งในด้านความรู้ความเข้าใจและวิทยาศาสตร์การคำนวณ ในสาระสำคัญ LSTM ฟีดเครือข่ายเอาท์พุทก่อนหน้านี้ (ในเวลา) เป็นส่วนหนึ่งของการป้อนข้อมูลของเครือข่ายในแต่ละจุดเวลาใหม่ช่วยให้ข้อมูลของรัฐในอดีตที่จะแจ้งให้ปัจจุบัน (จึงชื่อของเครือข่ายหน่วยความจำระยะสั้น) พวกเขาเป็นรากฐานของเทคโนโลยีล้ำสมัยที่เกี่ยวข้องกับอนุกรมเวลา (Alexa, Siri ฯลฯ )

ที่นี่พวกเขาใช้ทั้งสามเงื่อนไขเฉพาะ:

  1. LSTM ธรรมดา: เรียนรู้ที่จะฝังวิถีและสถานะปัจจุบันเพื่อป้อนไปยัง perceptron หลายชั้นที่จะสร้างการเคลื่อนไหวของมอเตอร์
  2. LSTM ด้วยความสนใจ: สร้างน้ำหนักแทนจุดสังเกตของเส้นทางการเคลื่อนที่
  3. สถานะสุดท้ายพร้อมความสนใจ: ใช้ในการฝึกอบรมเฉพาะสถานะสุดท้ายเพื่อสร้างน้ำหนักเหนือสถานที่สำคัญคล้ายกับสถาปัตยกรรมก่อนหน้า

บล็อกการซ้อน

ในขณะที่ตามหลักการแล้วเครือข่ายประสาททั่วไปสามารถเรียนรู้การทำแผนที่จากการสาธิตและการสังเกตการณ์ในปัจจุบันไปจนถึงการกระทำที่เหมาะสมเราพบว่ามันสำคัญที่จะต้องใช้สถาปัตยกรรมที่เหมาะสม สถาปัตยกรรมของเราสำหรับการเรียนรู้การซ้อนบล็อกเป็นหนึ่งในการมีส่วนร่วมหลักของบทความนี้และเราเชื่อว่ามันเป็นตัวแทนของสิ่งที่สถาปัตยกรรมสำหรับการเรียนรู้การเลียนแบบหนึ่งนัดของงานที่ซับซ้อนมากขึ้นอาจมีลักษณะในอนาคต

โมดูลความสนใจ

บทความยังคงอยู่ในระดับค่อนข้างสูงในการอธิบายโครงสร้างของเครือข่ายที่ใช้ในการเรียนรู้งาน ส่วนประกอบสำคัญของสถาปัตยกรรมคือโมดูลความสนใจของพวกเขา แต่ฉันเชื่อว่าหัวข้อนี้ต้องมีการโพสต์เจาะลึกรายละเอียดในบทบาทที่สำคัญ โดยการเปรียบเทียบกับแนวคิดวิทยาศาสตร์เกี่ยวกับความรู้ความเข้าใจของความสนใจที่ยั่งยืนโมดูลความสนใจจะใช้ในการเก็บและมุ่งเน้นไปที่ข้อมูลที่เกี่ยวข้องที่มีอยู่ในช่วงที่แตกต่างกันของพื้นที่และเวลา มันสร้างเอาท์พุทขนาดคงที่ที่มีการฝังเนื้อหาข้อมูลที่ยืดเวลาและพื้นที่ โดยการเปรียบเทียบกับโทโพโลยีสาขาคณิตศาสตร์ที่ฉันเชื่อว่าจะแจ้งให้ทราบอย่างชัดเจนว่าเราเข้าใจการนำเสนอแบบกระจายในอนาคตได้อย่างไรเครือข่ายความสนใจดำเนินการสัณฐานวิทยาแบบทอพอโลยีของข้อมูลความโค้งเดียวกันรูปร่างที่แตกต่างกัน โปรดทราบว่าเครือข่ายเหล่านี้ไม่ได้มีบทบาทของเครื่องตรวจจับความแจ่มใสที่สามารถมุ่งเน้นไปที่เหตุการณ์ที่ไม่คาดคิดหรือหายากซึ่งเป็นฟังก์ชั่นที่เกี่ยวข้องกับแนวคิดของความสนใจในด้านประสาทวิทยา

ที่นี่พวกเขาใช้เครือข่ายความสนใจสองประเภท: ก) เครือข่ายความสนใจชั่วคราวที่สร้างผลรวมน้ำหนักเหนือเนื้อหา (แบบสอบถามบริบทและเวกเตอร์หน่วยความจำ) ที่เก็บไว้ในหน่วยความจำและ b) เครือข่ายความสนใจย่านที่สามารถกู้คืนข้อมูลที่สัมพันธ์กับบล็อก ตำแหน่งขึ้นอยู่กับแบบสอบถามปัจจุบันของตัวแทน

เครือข่ายความสนใจชั่วคราวด้วย c: บริบทเวกเตอร์, m: หน่วยความจำเวกเตอร์, q: แบบสอบถามเวกเตอร์, v: น้ำหนักเวกเตอร์ที่เรียนรู้ เอาต์พุตมีขนาดเท่ากันกับเวกเตอร์หน่วยความจำ มันเป็นการรวมกันเชิงเส้นของเวกเตอร์เหล่านั้นที่อนุญาตให้เวกเตอร์หน่วยความจำบางส่วนมีผลกระทบมากขึ้นกับเอาต์พุตตามบริบทและเวกเตอร์เคียวรีแนวคิดเดียวกันที่นี่การแข่งขันระหว่างข้อมูลเชิงพื้นที่ได้รับการปรับปรุงโดยระบบความสนใจ

เครือข่ายนโยบาย

เครือข่ายที่สมบูรณ์นั้นประกอบด้วยเครือข่ายย่อยสามเครือข่าย: เครือข่ายสาธิตเครือข่ายบริบทและเครือข่ายการจัดการ

เครือข่ายการสาธิตได้รับวิถีการสาธิตเป็นอินพุตและสร้างการฝังของการสาธิตที่จะใช้ตามนโยบาย ขนาดของการฝังนี้จะเพิ่มขึ้นแบบเส้นตรงตามฟังก์ชันความยาวของการสาธิตรวมถึงจำนวนบล็อกในสภาพแวดล้อม

ดังที่แสดงไว้ที่นี่เครือข่ายการสาธิตสามารถฝังการสาธิตของความซับซ้อนและขนาดที่แตกต่างกันในรูปแบบทั่วไปที่เครือข่ายบริบทจะใช้เพื่อเป็นตัวแทนของงาน อาจเป็นไปได้ว่าระดับนี้เกิดขึ้นเมื่อมีการวางนัยทั่วไปการฝังการสาธิตควรทิ้งข้อมูลเกี่ยวกับวิถีและตำแหน่งที่แน่นอนของลูกบาศก์ที่เห็นในระหว่างการสาธิต

ดูที่โครงสร้างของเครือข่ายบริบทแม้ว่าจะอยู่ในระดับสูงมากเราจะเห็นส่วนต่อประสานกับเครือข่ายการสาธิตที่ให้การสาธิตการฝังไปยังโมดูลความสนใจทางโลกกลาง นอกจากนี้เรายังเห็นว่าการกระทำก่อนหน้า (LSTM) และสถานะปัจจุบันจะถูกป้อนเข้าด้วยการเชื่อมต่อกับการสาธิตเพื่อฝังบริบททั่วโลกที่ฝังอยู่ที่ส่งไปยังเครือข่ายมอเตอร์

คำอธิบายฟังก์ชั่นเครือข่ายของพวกเขาอยู่ในความคิดของฉันในส่วนที่สำคัญที่สุดของกระดาษ:

เครือข่ายบริบทเริ่มต้นด้วยการคำนวณเวกเตอร์แบบสอบถามเป็นฟังก์ชันของสถานะปัจจุบันซึ่งจะถูกใช้เพื่อเข้าร่วมในขั้นตอนเวลาต่างๆในการฝังการสาธิต น้ำหนักรวมของบล็อกที่ต่างกันภายในขั้นตอนเดียวกันนั้นถูกรวมเข้าด้วยกันเพื่อสร้างน้ำหนักต่อขั้นตอนเดียว ผลที่ตามมาของความสนใจชั่วขณะนี้คือเวกเตอร์ที่มีขนาดเป็นสัดส่วนกับจำนวนบล็อกในสภาพแวดล้อม จากนั้นเราจะใช้ความสนใจในพื้นที่ใกล้เคียงเพื่อเผยแพร่ข้อมูลข้ามงานแต่งงานของแต่ละบล็อก กระบวนการนี้ทำซ้ำหลายครั้งโดยที่รัฐมีความก้าวหน้าโดยใช้เซลล์ LSTM ที่มีน้ำหนักที่ไม่ถูกผูกไว้
ลำดับการทำงานก่อนหน้านี้สร้างการฝังที่มีขนาดไม่ขึ้นกับความยาวของการสาธิต แต่ยังขึ้นอยู่กับจำนวนบล็อก จากนั้นเราจะใช้ความสนใจแบบอ่อนมาตรฐานเพื่อสร้างเวกเตอร์มิติคงที่ซึ่งเนื้อหาหน่วยความจำประกอบด้วยตำแหน่งของแต่ละบล็อกเท่านั้นเท่านั้นซึ่งเมื่อรวมกับสถานะของหุ่นยนต์จะสร้างอินพุตที่ส่งผ่านไปยังเครือข่ายการจัดการ
แม้ว่าจำนวนวัตถุในสภาพแวดล้อมอาจแตกต่างกันในแต่ละขั้นตอนของการใช้งานการจัดการจำนวนวัตถุที่เกี่ยวข้องนั้นมีขนาดเล็กและมักจะได้รับการแก้ไข สำหรับสภาพแวดล้อมการซ้อนบล็อกโดยเฉพาะหุ่นยนต์จะต้องให้ความสนใจกับตำแหน่งของบล็อกที่พยายามรับ (บล็อกต้นทาง) เช่นเดียวกับตำแหน่งของบล็อกที่พยายามวางอยู่ด้านบนของ ( บล็อกเป้าหมาย) ดังนั้นเครือข่ายที่ผ่านการฝึกอบรมอย่างถูกต้องสามารถเรียนรู้ที่จะจับคู่สถานะปัจจุบันกับขั้นตอนที่สอดคล้องกันในการสาธิตและสรุปตัวตนของแหล่งที่มาและบล็อกเป้าหมายที่แสดงเป็นน้ำหนักเบา ๆ ที่น่าสนใจมากกว่าบล็อกที่แตกต่างกัน ถูกส่งผ่านไปยังเครือข่ายการจัดการ

วิธีที่พวกเขาเสร็จสิ้นการอธิบายของพวกเขาเป็นตัวอย่างที่สมบูรณ์แบบของการวิจัยในปัจจุบันของ AI จากแนวทางของระบบผู้เชี่ยวชาญไปสู่แนวทางของระบบการเรียนรู้และยังเป็นคำแนะนำในการอภิปรายเกี่ยวกับวิธีที่สมองวิวัฒนาการด้านล่าง

แม้ว่าเราจะไม่บังคับใช้การตีความนี้ในการฝึกอบรมการวิเคราะห์การทดสอบของเราสนับสนุนการตีความนี้ว่านโยบายที่เรียนรู้ทำงานอย่างไรภายใน

พวกเขาไม่รู้ว่ามันทำงานอย่างไร! พวกเขาสร้างโครงสร้างที่สามารถทำการคำนวณบางอย่างและเก็บข้อมูลบางอย่างที่เราคิดว่าเป็นประโยชน์ล่วงหน้าและให้ชุดฝึกอบรมโดยหวังว่าโครงสร้างทั้งหมดจะได้เรียนรู้! มีการวิจัยวูดูปัญญาประดิษฐ์ที่เพิ่มขึ้นเป็นศิลปะวิธีที่จะควบคุมการค้นหาฮิวริสติกในทิศทางที่ถูกต้อง และดูเหมือนว่านักมายากลเหล่านี้จำนวนมากกำลังทำงานให้กับ openAI

ในคำพูดของพวกเขาเองเครือข่ายการจัดการเป็นโครงสร้างที่ง่ายที่สุดจากบริบทที่ถูกป้อนไปยัง Multi-layer perceptron การกระทำของมอเตอร์จะเกิดขึ้น

ผล

ผลลัพธ์มักเป็นส่วนที่ฉันสนใจเพียงเล็กน้อยโดยเฉพาะอย่างยิ่งเอกสารทางเทคนิคที่ยอดเยี่ยม ฉันจะดำเนินการอย่างรวดเร็วบรรทัดล่างคือวิธีการนี้ใช้ได้ผลกับความแม่นยำคล้ายกับนโยบายผู้เชี่ยวชาญที่กำหนดค่าตายตัวและตรงกันข้ามกับวิธีดำเนินการเฉพาะเหล่านั้น

การเข้าถึงอนุภาค

การบล็อกแบบซ้อน

ในการทดลองเหล่านี้พวกเขายังทดสอบเงื่อนไขที่แตกต่างกัน การใช้ DAGGER พวกเขาเปรียบเทียบเงื่อนไขอินพุตที่แตกต่างกันสามแบบด้วยการสุ่มตัวอย่างวิถีที่แสดง: วิถีเต็มรูปแบบภาพรวมของวิถีหรือใช้สถานะสุดท้ายเท่านั้น พวกเขายังเปรียบเทียบอัลกอริทึมการโคลนนิ่งพฤติกรรมกับเส้นทางการเคลื่อนที่เต็มรูปแบบของการสาธิต

หลักฐานที่แข็งแกร่งของความสามารถของระบบในการพูดคุยกันมากกว่าเอกลักษณ์ลูกบาศก์

อภิปรายผล

การอ่านความก้าวหน้าอย่างรวดเร็วของ OpenAI ในช่วงหลายเดือนที่ผ่านมาฉันรู้สึกอยากเติบโตขึ้นเพื่อพูดคุยเกี่ยวกับงานของพวกเขาและแบ่งปันความคิดของฉันเกี่ยวกับสิ่งที่ฉันเชื่อว่างานของพวกเขาและความก้าวหน้าของ AI โดยรวม สมองชีวภาพทำงาน โดยเฉพาะอย่างยิ่งความคิดที่เพิ่มขึ้นนี้ฟังก์ชั่นการรับรู้ที่ดูเหมือนร่วมกันระหว่างมนุษย์ไม่มากนักเนื่องจากโครงสร้างที่ใช้ร่วมกันซึ่งรู้วิธีการทำงาน แต่กลับเป็นผลมาจากโครงสร้างไร้เดียงสาที่คล้ายกันซึ่งเผชิญหน้ากับสภาพแวดล้อมเดียวกัน เรียนรู้การทำงานที่คล้ายกัน ฟังก์ชั่นเป็นผลมาจากโครงสร้างที่ไม่มีฟังก์ชั่นที่สามารถเรียนรู้งานเฉพาะเนื่องจากสภาพแวดล้อมที่เฉพาะเจาะจงมากกว่าโครงสร้างที่สามารถทำงานได้ตามปกติเพียงแค่ปรับแต่งพารามิเตอร์สองสามตัวเพื่อปรับให้เข้ากับสภาพแวดล้อม

งานกับการกำหนดค่า: ความหมายที่กำหนดเอง

ฉันต้องยอมรับว่าฉันไม่เข้าใจว่าทำไมพวกเขาเลือกที่จะพูดคุยเกี่ยวกับงานต่าง ๆ ในแบบที่พวกเขาทำ งานถูกกำหนดในการทดสอบการบล็อกซ้อนเป็นชุดของสตริงที่แสดงตำแหน่งของบล็อกที่สัมพันธ์กันจำนวนองค์ประกอบในชุดจะกำหนดจำนวนของสแต็คและจำนวนอักขระตามจำนวนบล็อกที่ต้องจัดเรียง . งานคือการจัดเรียงของบล็อกในกองโดยไม่คำนึงถึงตำแหน่งที่แน่นอนของสแต็ค

บางบล็อกอาจอยู่บนโต๊ะ แต่ไม่ใช่ส่วนหนึ่งของงาน

ทางเลือกของพวกเขาในการกำหนดตำแหน่งสัมพัทธ์และจำนวนสแต็คเป็นเกณฑ์สำหรับงานที่แยกต่างหากดูเหมือนว่าจะไม่มีความหมาย แน่นอนมันอาจสมเหตุสมผลที่จะพูดคุยเกี่ยวกับงานต่าง ๆ ตามตำแหน่งเริ่มต้นที่แน่นอนของบล็อก (สิ่งที่พวกเขาอ้างถึงเป็นการกำหนดค่า) ฉันเชื่อว่าลักษณะทั่วไปของปัญหาปรากฏชัดเจนสำหรับพวกเขา แต่เพื่อจุดประสงค์ที่ชัดเจนพวกเขาไม่ต้องการเข้าไปดูรายละเอียด มันสมเหตุสมผลมากกว่าที่จะวางกรอบการเรียนรู้นโยบายเป็นภาพรวมสองประเภทวิธีที่พวกเขาทำในภายหลัง:

โปรดทราบว่าการวางนัยทั่วไปได้รับการประเมินในหลายระดับ: นโยบายที่เรียนรู้ไม่เพียง แต่ต้องการทำให้เป็นรูปแบบทั่วไปสำหรับการกำหนดค่าใหม่และการสาธิตงานใหม่ที่เห็นอยู่แล้ว แต่ยังจำเป็นต้องทำให้เป็นงานทั่วไปด้วย

เพียงแค่แทนที่ "งาน" โดย "สั่งซื้อสแต็ค" ในการเรียนรู้งานอย่างถูกต้องหมายความว่าเอเจนต์เรียนรู้การฝังที่สามารถทำให้นามธรรมตำแหน่งของคิวบ์ (การกำหนดค่า) แต่ยังรวมถึงเอกลักษณ์ (งาน) จำนวนสแต็ค (ภารกิจ) และวิถีการสาธิต (แนะนำสั้น ๆ ใน เครื่องหมายคำพูด) เพื่อสร้างการตอบสนองของมอเตอร์ที่เกี่ยวข้อง

การสรุปทั่วไปเหล่านั้นดูขัดแย้งกันเครือข่ายเดียวกันสามารถสรุปการกำหนดค่าเริ่มต้นของคิวบ์หรือข้อมูลประจำตัวของพวกเขาได้อย่างไรและยังสามารถกู้คืนตำแหน่งสัมบูรณ์สำหรับการตอบสนองของมอเตอร์ได้อย่างไร

สิ่งนี้อธิบายถึงความต้องการเครือข่ายย่อยแบบร่วมมือที่แตกต่างกันในระหว่างการเรียนรู้การรับอินพุตที่แตกต่างกันและอธิบายว่าในเครือข่ายบริบทการแสดงภาพนามธรรมของงานนั้นจะได้รับข้อมูลลำดับที่ต่ำกว่าเช่นคิวบ์ตำแหน่งสัมบูรณ์

คุณอาจคิดว่าการแสดงความคิดเห็นเกี่ยวกับความแตกต่างของงานและการตั้งค่านี้เป็นเรื่องโง่ แต่มันเป็นสิ่งสำคัญที่จะต้องเข้าใจว่ามันเป็นสาระสำคัญในกระบวนการเดียวกันของนามธรรมที่เล่นบนวัตถุที่แตกต่างกัน (และสิ่งนี้เปิดสำหรับส่วนต่อไปนี้)

ไม่มีการเรียนรู้โดยไม่แปรเปลี่ยน

การถ่ายโอนการเรียนรู้อาจเป็นแนวคิดที่น่าสนใจที่สุดของความรู้ความเข้าใจไม่ว่าจะเป็นแบบซิลิโกหรือในร่างกายมันเป็นหัวข้อที่ร้อนแรงมากสำหรับนักวิจัย AI และนักประสาทวิทยาและเป็นเรื่องของวิทยานิพนธ์ระดับปริญญาเอกของฉัน โปรดทราบว่ามีการสำรวจแนวคิดที่เกี่ยวข้องอย่างใกล้ชิดในหลาย ๆ สาขาก่อนการเรียนรู้ด้วยเครื่องและนามธรรมและแนวคิดที่กำหนดไว้เพียงบางส่วนนี้มักมีชื่อมากมาย นักปรัชญานักมานุษยวิทยาและนักสังคมวิทยาอาจเรียกมันว่า (โพสต์) โครงสร้างนิยม (Claude Levi-Strauss, Michel Foucault) นักภาษาศาสตร์จะพูดถึงโครงสร้างของ Syntagma และ Nested Tree (Noam Chomsky) นักคณิตศาสตร์อาจนึกถึง Homeomorphism หรือ Invariants และการศึกษา นักวิจัยหรือนักประสาทวิทยาอาจอ้างถึงว่าเป็นการเรียนรู้เชิงโครงสร้าง คุณอาจเห็นแนวคิดที่เกี่ยวข้องในด้านการเรียนรู้ของเครื่องเช่นการเรียนรู้ด้วยการเป็นตัวแทนและการเรียนรู้เมตาซึ่งขึ้นอยู่กับผู้เขียนอาจอ้างถึงการเรียนรู้การถ่ายโอนหรือกระบวนทัศน์การเรียนรู้ที่ใช้ในการเรียนรู้การถ่ายโอน เมื่อพูดถึง Deep Neural Networks ความแตกต่างเหล่านี้จะเบลอเช่นเดียวกับที่ Neural net กำลังเรียนรู้ที่จะฝังปัญหาบางอย่าง (การเรียนรู้การเป็นตัวแทน) โดยการปรับเปลี่ยนโครงสร้าง (meta-learning) โดยปกติจะอยู่ในสภาพแวดล้อมที่มีเสียงดัง

นักวิจัย AI และนักวิทยาศาสตร์เกี่ยวกับความรู้ความเข้าใจมักจะมีคำจำกัดความที่เป็นรูปธรรมของการเรียนรู้การถ่ายโอนมันเป็นกระบวนการที่อนุญาตให้ระบบใช้ความรู้ที่ได้มาในงานบางอย่างเพื่อทำงานอื่นที่ใช้โครงสร้างการแต่งร่วมกันตามที่อธิบายไว้ในบทความ) วิทยาศาสตร์เกี่ยวกับความรู้ความเข้าใจมีความคิดเกี่ยวกับการถ่ายโอนทั้งใกล้และไกลขึ้นอยู่กับว่างานทั้งสองดูเหมือนจะแตกต่างกันอย่างไร แต่จากมุมมองที่เป็นนามธรรมมากขึ้นในสภาพแวดล้อมที่มีเสียงดังและซับซ้อนการเรียนรู้ทั้งหมดเป็นรูปแบบของการเรียนรู้การถ่ายโอนและความแตกต่างระหว่างการถ่ายโอนที่ใกล้และไกลมากเป็นเพียงเรื่องของการแบ่งปันข้อมูล - อีกเรื่องของธรรมชาติ

ในสภาพแวดล้อมที่มีการควบคุมความพยายามจะทำล่วงหน้าเพื่อสร้าง discretisation ยากของความจริง แต่ในความเป็นจริง discretisation นี้ทำซ้ำขั้นตอนสิ่งที่เรียนรู้การถ่ายโอนมันรวมกันเป็นชุดที่ไม่ จำกัด ของรัฐที่พบในความเป็นจริงภายใต้โครงสร้าง ในสาระสำคัญการเรียนรู้การโอนหมายถึงโดยตรงหรือโดยการขยายไปยังกระบวนการที่ตัวแทนการเรียนรู้ใช้ค่าคงที่เพื่อสร้างแบบจำลองของโลก มันเป็นกระบวนการที่ใช้ความเหมือนกันการทำซ้ำและการแปรผันของสิ่งเดียวกันเพื่อสร้างรูปแบบที่เป็นนามธรรมมากขึ้นและเป็นตัวแทนที่ประกอบด้วยโครงสร้างที่จะตระการตาในช่วงความแปรปรวนโดยอินพุต โดยทั่วไปแล้วจะช่วยให้สามารถสร้างการดำเนินงานขั้นพื้นฐานซึ่งเราจัดการกลุ่มข้อมูลเหมือนในคณิตศาสตร์ที่อนุญาตให้มีการรวมและแยก มันช่วยให้ตัวตนมันอธิบายความสามารถของเราในการจัดหมวดหมู่วัตถุ Josh Tenembaum ให้ตัวอย่างที่พูดกับฉันจริง ๆ : ลองจินตนาการว่าคุณกำลังสอนเด็กอายุสองขวบให้รู้จักม้าเป็นครั้งแรกคุณแสดงภาพม้าที่แตกต่างกันสองภาพจากนั้นคุณแสดงภาพม้าอีกตัวหนึ่งและ รูปบ้านและขอให้เขาบอกคุณว่าอันไหนคือม้า เด็ก ๆ จะทำสิ่งนี้ได้อย่างง่ายดาย แต่มันก็ยังเป็นสิ่งที่คอมพิวเตอร์ไม่สามารถทำได้ด้วยอินพุตที่น้อยมาก (การเรียนรู้ด้วยการยิงครั้งเดียว)

เด็ก ๆ ทำมันได้อย่างไร

การรับรู้ของสัตว์ได้รับการศึกษาในเด็กและเกี่ยวข้องกับความสามารถของเราในการแยกชิ้นส่วนของวัตถุออกเป็นชิ้นส่วนที่เกี่ยวข้อง, ช่วงสีของขน, ขนาดของคอ, รูปร่างโดยรวม ฯลฯ ความสามารถนี้เป็นสิ่งที่ช่วยให้คุณเปิดประตู ไม่เคยเห็นมาก่อนคุณได้เรียนรู้ลำดับมอเตอร์ที่พูดคุยกับสถานการณ์ใด ๆ (ความเห็นทั่วไปของโดเมน) นอกจากนี้ยังเป็นสิ่งที่คุณใช้ในการสร้างแบบจำลองอธิบายที่ทำให้โลกง่ายขึ้นคุณอาจแปลกใจในตอนแรกจากการปรากฏตัวของนกกาเหว่าในนาฬิกาสวิสที่มีชื่อเสียง แต่หลังจากการปรากฏตัวครั้งที่สองคุณจะคาดหวัง การค้นหาความไม่แปรเปลี่ยนเป็นวิธีเรียนรู้โครงข่ายประสาทเทียมและโมเดลเหล่านั้นถูกสร้างขึ้นโดยไม่รู้ตัว ตัวอย่างคือวิธีที่เราเรียนรู้เกี่ยวกับฟิสิกส์อย่างสังหรณ์ใจก่อนที่จะได้ยินคณิตศาสตร์และตัวเลข

บางคนอาจถามว่าเด็กที่เกิดในสภาวะไร้น้ำหนักจะปรับตัวเข้ากับแรงโน้มถ่วงของโลกได้เร็วแค่ไหนและเรียนรู้อย่างหยั่งรู้ว่าวัตถุจะตกลงสู่พื้นเมื่อหล่นลงมา?

เราอาจตั้งสมมติฐานว่าทารกและสัตว์ส่วนใหญ่จะแก้ไขแบบจำลองโดยไม่รู้ตัวเหมือนกับเมื่อคุณวางถุงเท้าบนอุ้งเท้าของสุนัขและต้องใช้เวลาพอสมควรในการปรับให้เข้ากับข้อมูลใหม่

แต่สำหรับเด็กเล็กการซักถามอย่างมีสติและการแก้ไขโมเดลที่ใช้งานง่ายของเขาจะเกิดขึ้นจากความอยากรู้ผ่านภาษาสัญลักษณ์และความเชื่อ ความสามารถของเราในการซักถามและเปลี่ยนแบบจำลองของเรานั้นน่าสนใจและในฐานะที่เป็นไซด์โนตมนุษย์อาจเป็นสปีชีส์เดียวที่สามารถใช้กระบวนการพูดได้ แต่สปีชีส์อื่นอาจทำการแก้ไขที่คล้ายกัน

Invariance เป็นคุณสมบัติบังคับของเวลาหากทุกอย่างเป็นสิ่งใหม่เสมอและไม่สามารถคาดเดาได้เลยก็จะยังคงมีค่าคงที่ที่ไม่เหมือนใครนี้ว่าทุกอย่างจะใหม่และคาดเดาไม่ได้ มันเป็นไปไม่ได้ที่จะจินตนาการถึงโลกที่ปราศจากความแปรปรวนเนื่องจากอาจไม่มีโลกที่อ้างถึงหากไม่มีชีวิตที่ไม่แปรเปลี่ยนจะเป็นไปไม่ได้และสมองของเราก็ไร้ประโยชน์ Life เป็นเครื่องจักรที่ทำงานโดยการทำซ้ำเหตุการณ์ที่คาดการณ์ซ้ำของสาเหตุและผลกระทบของการรวมตัวกันของพลังงานในวงจร และในการแสวงหาชีวิตเพื่อปรับปรุงการใช้วงจรที่จำเป็นเหล่านั้นสมองของเราเป็นเครื่องมือที่ดีที่สุด มันเป็นเครื่องทำนายอวัยวะที่ปรับตัวได้สามารถค้นหาการทำซ้ำแบบไดนามิกและใช้มันเพื่อโต้ตอบกับโลกได้ดียิ่งขึ้น

วิธีการที่ชีวิตเลือกมีความแข็งแกร่งอย่างยิ่งต่อการเปลี่ยนแปลงโครงสร้างเล็กน้อย สิ่งที่ยังคงเหมือนเดิมคือโลกคุณสมบัติทางสถิติของสภาพแวดล้อม แต่โครงสร้างของระบบประสาทที่พบมันอาจแตกต่างกันไปตราบใดที่มันสามารถฝังข้อมูลที่เกี่ยวข้องที่มันพัฒนาเพื่อรักษา สิ่งนี้อธิบายได้ว่าทำไมสมองของเราจึงแตกต่างกันไปในแต่ละบุคคลแม้แต่เยื่อหุ้มสมองหลักและยังมีฟังก์ชั่นเหมือนกัน

ระบบประสาทมีการปรับตัวพวกเขาไม่ต้องการวิวัฒนาการและการกลายพันธุ์ทางพันธุกรรมช้าเพื่อปรับเปลี่ยนพฤติกรรมในรูปแบบที่เกี่ยวข้อง ระบบประสาทอย่างง่ายเช่นที่พบใน C. Elegans ทำหน้าที่เป็นผู้ประสานงานภายในโดยธรรมชาติและเซ็นเซอร์ภายนอก: จับอาหารและเดินไปหามันหลบหนีจากความเจ็บปวดทำซ้ำ ระบบง่าย ๆ เหล่านั้นในตอนแรกนั้นมีความแข็งแกร่งและดำเนินการประมาณอย่างรุนแรงของโลกที่มีเสียงดังของเราเพื่อที่จะแยกแยะมันในชุดเล็ก ๆ ของสถานะที่เป็นไปได้ (อาหารทางซ้ายความร้อนใต้ ฯลฯ ) ความสามารถของมอเตอร์และประสาทสัมผัสของเราพัฒนาขึ้นพร้อมกับความสามารถในการทำนายระบบประสาทของเรา เมื่อเซ็นเซอร์ของเรามีความแม่นยำมากขึ้นระบบประสาทก็ค่อยๆสามารถปรับเปลี่ยนโครงสร้างเพื่อเก็บข้อมูลและเรียนรู้จากประสบการณ์ ในขั้นต้นมันสามารถเรียนรู้ที่จะรับรู้บางประเภทของอินพุตเช่นชนิดของกลิ่นหรือรูปแบบแสงและยังสามารถเรียนรู้ผ่านการลองผิดลองถูกเพื่อควบคุมระบบมอเตอร์ที่ซับซ้อนมากขึ้น โปรดทราบว่าโลกมีความซับซ้อนมากจนสมองของเราพัฒนาไปสู่กระบวนทัศน์การเรียนรู้โดยธรรมชาติแทนที่จะเป็นวิธีดำเนินการโดยธรรมชาติ เกมนี้มีความสมบูรณ์แบบง่ายเกม Go มีพื้นที่ขนาดใหญ่กว่า (2.10¹⁷⁰) มากกว่าจำนวนอะตอมในจักรวาล (10⁸⁰) และเมื่อสิ่งมีชีวิตมีความซับซ้อนมากขึ้นพยายามที่จะประเมินรหัสยากที่สุดเท่าที่จะทำได้ ระบุว่ามันอาจกลายเป็นเรื่องยากเนื่องจากการระเบิดแบบ combinatorial

บางคนอาจเชื่อว่าสมองของเราถูกสร้างขึ้นในลักษณะที่มันแสดงให้เห็นถึงพื้นที่ที่มันจะมีวิวัฒนาการในนั้นใน DNA ที่ใดที่หนึ่งมียีนสำหรับสิ่งที่ถือเป็นใบหน้าหรือองค์กรชั่วคราวของคลื่นเสียงที่ทำให้ ขึ้นคำ พวกเขาอาจเชื่อว่าความรู้ที่มีมา แต่กำเนิดนี้ถูกเข้ารหัสเมื่อแรกเกิดที่ไหนสักแห่ง คนอื่นอาจเชื่อเช่นเดียวกับครูปรัชญาของฉันเมื่อฉันอยู่ในโรงเรียนมัธยมการดำรงอยู่นั้นสำคัญกว่าและสมองของเรานั้นถูกกำหนดไว้อย่างสมบูรณ์โดยการเผชิญหน้ากับสิ่งมีชีวิตและโลก ความเป็นจริงนั้นมีความซับซ้อนมากขึ้นและสำหรับระบบ Telencephalic ส่วนใหญ่ที่ได้รับการศึกษาจนถึงตอนนี้สมองไม่ได้เข้ารหัสฟังก์ชันที่มันจะทำงานได้ แต่จะเรียนรู้ขึ้นอยู่กับข้อมูลที่มีอยู่ในอินพุต หากข้อมูลที่เกี่ยวข้องต่ำเกินไปความสามารถในการเรียนรู้ในโครงสร้างเหล่านั้นอาจมีวันหมดอายุ (เช่นมัว) แต่ถ้าโครงสร้างโดยกำเนิดไม่ได้เข้ารหัสฟังก์ชั่นสุดท้ายสมองจะมีโครงสร้างที่เฉพาะเจาะจง โครงสร้างนี้ได้รับการเก็บรักษาไว้เป็นรายบุคคลและบุคคลที่มีสายพันธุ์เดียวกันจะมีหน้าที่และการขับเคลื่อนร่วมกัน DNA สร้างโครงสร้างบางอย่างในสถานที่ซึ่งเป็นโครงสร้างที่ไม่สามารถทำหน้าที่สุดท้ายได้โดยกำเนิด แต่โครงสร้างสามารถเรียนรู้ความซับซ้อนของงานเฉพาะตามประสบการณ์ของแต่ละบุคคล ไม่น่าแปลกใจที่วิวัฒนาการนำไปสู่การปรากฎของกำแพงเลือดสมองที่มีประสิทธิภาพสูงแยกสมองออกจากส่วนที่เหลือของร่างกายเช่นเดียวกับเยื่อหุ้มสมองและเปลือกกระดูกแข็งปกป้องมันจากโลกภายนอกเพราะแตกต่างจากอวัยวะอื่น ๆ ที่ โครงสร้างถูกเข้ารหัสในจีโนมโครงสร้างของสมองที่ผ่านการฝึกอบรมไม่สามารถสร้างใหม่จากแบบจำลองที่เก็บไว้โดยกำเนิด สิ่งที่น่าสนใจคือเราเห็นกลไกการเรียนรู้แบบเดียวกันที่เกิดขึ้นจากการเปรียบเทียบผ่านการพัฒนาเครือข่ายที่ซับซ้อนยิ่งขึ้นที่มีการทำงานที่ซับซ้อนมากขึ้น

โครงสร้างองค์ประกอบยากที่จะมองเห็น แต่ทุกที่

ในฐานะที่เป็นไซด์โนทมันเป็นเรื่องแปลกที่แม้แต่ผู้เขียนก็ไม่ได้ตระหนักว่าภารกิจแรกที่พวกเขาถึงเป้าหมายนั้นมีโครงสร้างเรียงความ

งานที่เข้าถึงอนุภาคได้แสดงให้เห็นถึงความท้าทายในการวางนัยทั่วไปในสถานการณ์ง่าย ๆ อย่างไรก็ตามงานไม่ได้แบ่งโครงสร้างแบบองค์ประกอบทำให้การประเมินของการวางนัยทั่วไปเป็นงานใหม่ที่ท้าทาย

แม้ว่าโครงสร้างนั้นจะอยู่ในระดับที่ต่ำกว่าการบล็อกซ้อนและไม่สามารถเข้าถึงการจัดการทดลองได้อย่างง่ายดาย แต่งานนั้นเป็นโครงสร้างที่ใช้ร่วมกัน ใกล้เคียงกับโลกถึงระนาบโครงสร้างประกอบหนึ่งคือตัวตนของลูกบาศก์ (สี) ถูกเก็บรักษาไว้ด้วยการแปลและไปจากบล็อก A - หรือตำแหน่งเริ่มต้นสุ่ม - ที่ตำแหน่ง (Xa1, Ya1) เพื่อบล็อก B ที่ตำแหน่ง (Xb1, Yb2 ) เป็นส่วนหนึ่งของโครงสร้าง compositional ลำดับเดียวกันสูงกว่าไปจากบล็อก A ที่ตำแหน่ง (Xa2, Ya2) ถึงบล็อก B ที่ตำแหน่ง (Xb2, Yb2)

เชื่อมต่อระหว่างเครือข่าย

การสร้างเครือข่ายประสาทเทียมในการรักษาอินพุตที่ระดับต่าง ๆ ของนามธรรมจะต้องมีการเชื่อมต่อซึ่งเป็นโดเมนที่ฉันเชื่อว่านำเสนอสิ่งที่เหลือไว้ให้ค้นพบ อินเทอร์เฟซเหล่านั้นมีลักษณะมากมาย พวกมันสามารถถูกมองว่าเป็นภาษากลางระหว่างสองเครือข่ายดังที่แสดงในบทความเครือข่ายระดับล่างที่มีระบบความสนใจ (เครือข่ายการสาธิต) สามารถแปลการสาธิตในการเป็นตัวแทนเครือข่ายอื่น (เครือข่ายบริบท) สามารถใช้ เพื่อควบคุมการดำเนินการใด ๆ ก็ตามที่ความยาวหรือการกำหนดค่าเริ่มต้นของการสาธิต

พื้นผิวของภาษานี้อยู่ที่นี่เป็นเครื่องบินขนาดคงที่ แต่เราสามารถจินตนาการถึงการเปลี่ยนแปลงที่เป็นไปได้ที่จะปรับปรุงการสื่อสารระหว่างเครือข่าย ตัวอย่างเช่นขนาดของพื้นผิวอาจถูกตั้งค่าให้เพิ่มขึ้นหรือลดลงแบบไดนามิกเมื่อเครือข่ายโต้ตอบระหว่างการเรียนรู้ดังนั้นการบีบอัดหรือขยายความซับซ้อนของภาษา นอกจากนี้เรายังสามารถจินตนาการถึงการโต้ตอบที่มีพลังมากขึ้นเช่นผ่านข้อเสนอแนะ เราสามารถจินตนาการถึงการมีอยู่ของเครือข่ายผู้อำนวยความสะดวกซึ่งจะเรียนรู้วิธีการสื่อสารที่ราบรื่นระหว่างเครือข่ายที่มีอยู่เป็นเครือข่ายแบบขนานที่เรียนรู้การปรับอินพุตของเครือข่ายแรกตามอินพุตและเอาต์พุตของเครือข่ายที่สอง เราสามารถจินตนาการเครือข่ายบริบทที่ซับซ้อนที่ทำหน้าที่เป็นยาชูกำลัง (เปลี่ยนแปลงช้า) ไปยังเครือข่ายพิเศษอื่น ๆ อีกมากมาย ... พื้นที่การวิจัยที่น่าสนใจในอนาคต!

กรณีที่ล้มเหลวบอกใบ้ถึงบทบาทที่เป็นไปได้ของโมดูลใหม่ที่อาจมี

เป็นที่น่าสังเกตว่าข้อผิดพลาดมักเกิดจากความผิดพลาดของมอเตอร์และจำนวนข้อผิดพลาดเพิ่มขึ้นตามความซับซ้อนของงาน

ฟังก์ชั่นมอเตอร์ไม่ควรลดลงโดยการเพิ่มจำนวนเป้าหมายเท่านั้นนี่เป็นหลักฐานที่ชัดเจนว่าวิธีที่เครือข่ายการสืบพันธุ์เรียนรู้ที่จะพูดคุยกับเครือข่ายมอเตอร์นั้นเป็นนามธรรมเกินไป มันแปลกเพราะพวกเขาบอกว่าการทดสอบแสดงให้เห็นว่าการเชื่อมต่อระหว่างเครือข่ายบริบทและเครือข่ายมอเตอร์นั้นค่อนข้างเป็นรูปธรรม (ตำแหน่งของหุ่นยนต์ตำแหน่งของเป้าหมาย)

วิธีแก้ปัญหาที่เป็นไปได้อาจเป็นเพราะนี่คือสถาปัตยกรรมแบบแยกส่วนเพื่อใช้ฟังก์ชั่นการสูญเสียที่แตกต่างกันหรือฟังก์ชั่นการสูญเสียแบบแยกส่วนที่เป็นตัวแทนของแต่ละแง่มุมที่เฉพาะเจาะจงของงาน มันจะได้รับการช่วยเหลือจากพื้นที่สมองก่อนการเคลื่อนไหวเพื่อประกันการสาธิตและเครือข่ายบริบทยังคงเป็นนามธรรมโดยไม่ทำให้คำสั่งมอเตอร์แย่ลง ภูมิภาค Premotor มีความจำเป็นที่จะต้อง จำกัด วงวัตถุให้ดีขึ้นตามเป้าหมาย (จากเครือข่ายนามธรรม) และอินพุตประสาทสัมผัสเพื่อเลือกคำสั่งมอเตอร์ที่ดีที่สุด ดูเหมือนว่าเครือข่ายบริบทจะพยายามถ่ายโอนการสาธิตไปยังการฝังในระดับที่สูงขึ้นและเตรียมการเคลื่อนไหวของมอเตอร์ในเวลาเดียวกันในบริบทปัจจุบัน บทบาทของเครือข่ายก่อนมอเตอร์คือการเรียนรู้ที่จะสื่อสารกับระบบมอเตอร์ในลักษณะที่มุ่งเน้นและปรับตัวได้รวมทั้งการทำงานของ premotor และ cerebellum สำหรับการเรียนรู้ยนต์และการปรับตัวที่รวดเร็ว

มีทฤษฎีที่น่าสนใจความขัดแย้งของ Moravec ที่คาดการณ์ว่ามันจะไม่เป็นความรู้ความเข้าใจในระดับที่สูงขึ้นซึ่งจะต้องเสียภาษี แต่เป็นการรักษาอินพุตของระบบประสาทและเอาท์พุทของมอเตอร์ สิ่งนี้สามารถอธิบายได้ว่ามีเซลล์ประสาทจำนวนมากอยู่ในสมองของเรา (มากกว่าสมองส่วนที่เหลือของเรา) เพื่อควบคุมการเคลื่อนไหวของมอเตอร์ ความขัดแย้งนี้ถูกกำหนดขึ้นในเวลา (ยุค 80) เมื่อเรายังเชื่อว่าเราสามารถฝังความรู้ของเราลงในเครื่องเพื่อทำงานที่ซับซ้อนในสภาพแวดล้อมที่มีเสียงดังที่ไม่สามารถควบคุมได้ แน่นอนว่าความขัดแย้งนี้สมเหตุสมผลถ้าเครื่องจักรกลสามารถเป็นตัวแทนของโลกในชุดของรัฐที่ discretized การสร้างฟังก์ชันระดับที่สูงขึ้นเมื่อมันจะง่ายขึ้น แต่ฉันเชื่อว่าทั้งสองจะพิสูจน์ได้ว่าต้องเสียภาษีอย่างมากและการเป็นตัวแทนภายในที่ใช้ในการเชื่อมต่อระหว่างเครือข่ายจะห่างไกลจากสิ่งใดที่คล้ายกับการเป็นตัวแทนที่ใส่ใจของเรา

ข้อสรุป

บทความนี้แสดงให้เห็นว่าโดยการสร้างเครือข่ายประสาทที่แตกต่างกันในการรักษาปัญหาที่เฉพาะเจาะจงบทความนี้แสดงให้เห็นว่าการสร้างงานที่ต้องการการวางนัยทั่วไปและการสร้างสภาพแวดล้อมการเรียนรู้ที่เหมาะสมผ่านการสุ่มโดเมน ระบบความสนใจสามารถเรียนรู้ที่จะพูดเกินจริงกว่าการทำสำเนาแบบง่าย สามารถเรียนรู้ที่จะค้นพบเป้าหมายในการสั่งซื้อที่สูงขึ้นซึ่งแสดงให้เห็นเพียงครั้งเดียวในสตรีมข้อมูลและทำการคำนวณในพื้นที่ทั่วไปเพื่อกู้คืนการกระทำที่เหมาะสมที่สามารถทำซ้ำเป้าหมายนั้นในบริบทที่แตกต่างกัน

ในอนาคตเราจะเห็นความซับซ้อนที่เพิ่มขึ้นของโครงสร้างที่สร้างขึ้นบนหน่วยการสร้างปรมาณูเหล่านั้นสามารถเรียนรู้ที่จะสรุปงานที่ซับซ้อน แต่ที่สำคัญกว่านั้นดำเนินการหลายอย่างเช่นในสภาพแวดล้อมใหม่โดยไม่ต้องพึ่งพาวิธีการเข้ารหัสที่ยาก ที่เก็บข้อมูลหน่วยความจำ ที่เก็บข้อมูลหน่วยความจำจะถูกแทนที่ด้วยการนำเสนอแบบกระจายข้ามเครือข่ายหน่วยความจำระบบ attentional จะถูกแทนที่ด้วยกิจกรรมแบบวนรอบในเครือข่าย attentional แบบเรียลไทม์ คำถามยังคงอยู่ว่าเราจะสามารถปรับใช้เทคโนโลยีอนุกรมที่แข็งแกร่ง (เครื่องทัวริง) เพื่อเพิ่มการพึ่งพาการคำนวณแบบกระจายในระบบ embodied ได้อย่างไร