AI summary 1 แหล่ง · 6 วันก่อน

วิธีใหม่ทำให้ AI เรียนรู้อย่างปลอดภัย แม้ไม่รู้กฎเกมทั้งหมด

นักวิจัยเสนอเทคนิค 2 แบบเพื่อแก้ปัญหา safe reinforcement learning — ตัวแรกใช้ shielding กับ robust MDPs ที่ไม่ต้องรู้ dynamics ทั้งหมด ตัวที่สองชื่อ CSPO แก้ปัญหา delayed constraint correction ในวิธี primal-dual เดิม ทั้งสองช่วยให้ agent ทำงานตามข้อจำกัดความปลอดภัยได้เร็วขึ้นและเสถียรกว่า

01
แหล่งข่าว
03
ประเด็น
6 วันก่อน
อัปเดต
  • Shielding framework ใหม่ทำงานกับ MDPs ที่มีความไม่แน่นอนในการเปลี่ยนสถานะ ไม่ต้องรู้ dynamics ที่แน่นอน
  • CSPO ใช้ constraint sensitivity ในการอัปเดต policy เพื่อลดการสั่นไหวและการละเมิดข้อจำกัด
  • ทั้งสองวิธีรับประกันความปลอดภัยผ่าน formal verification — LTL formula และ CMDP constraints
แหล่งต้นทาง · 2

ลิงก์ต้นทางอยู่ครบ เพื่อให้เปิดอ่านเต็มและเทียบข้อมูลเองได้

แชร์
ข่าวที่เกี่ยวข้อง