Live AI Wire
วิจัยใหม่แก้ปัญหา LLM ติดอยู่ในคำตอบเดิม ด้วยวิธีฝึกแบบร่วมมือ
นักวิจัย arXiv พบว่า reinforcement learning ที่ใช้ verifier ในการปรับปรุง LLM มักตกอยู่ในสถานการณ์ exploration collapse — โมเดลบรรจบลงไปที่รูปแบบคำตอบแคบ ๆ ที่ได้คะแนนสูง แล้วหยุดสำรวจวิธีใหม่ บทความ 3 ฉบับเสนอแนวทางต่างกัน: ยกเลิกการแข่งขัน winner-takes-all ใช้ optimization-style tasks ที่ขยายพื้นที่ค้นหา และปรับวิธีให้ teacher ไม่เห็นคำตอบเต็มตั้งแต่แรก เพื่อให้ student เรียนรู้ทีละขั้น
arXiv — cs.AI