Live AI Wire

วิจัยใหม่แก้ปัญหา LLM ติดอยู่ในคำตอบเดิม ด้วยวิธีฝึกแบบร่วมมือ

นักวิจัย arXiv พบว่า reinforcement learning ที่ใช้ verifier ในการปรับปรุง LLM มักตกอยู่ในสถานการณ์ exploration collapse — โมเดลบรรจบลงไปที่รูปแบบคำตอบแคบ ๆ ที่ได้คะแนนสูง แล้วหยุดสำรวจวิธีใหม่ บทความ 3 ฉบับเสนอแนวทางต่างกัน: ยกเลิกการแข่งขัน winner-takes-all ใช้ optimization-style tasks ที่ขยายพื้นที่ค้นหา และปรับวิธีให้ teacher ไม่เห็นคำตอบเต็มตั้งแต่แรก เพื่อให้ student เรียนรู้ทีละขั้น

05 มิ.ย. 2569 12:11 1 แหล่งข่าว AI สรุปภาษาไทย

arXiv — cs.AI

ประเด็นที่ควรจับตา

RLVR ที่ใช้ group-based optimization (เช่น GRPO) ตกอยู่ exploration collapse — โมเดลบรรจบเร็วเกินไปบนคำตอบแคบ
OPT* ใช้ feasibility checker และ complexity parameter ขยายพื้นที่ค้นหาโดยไม่ต้องเพิ่มข้อมูล human label
Adaptive teacher exposure ลดความไม่ตรงกันระหว่างสิ่งที่ teacher เห็นกับความสามารถปัจจุบันของ student

วิจัยใหม่แก้ปัญหา LLM ติดอยู่ในคำตอบเดิม ด้วยวิธีฝึกแบบร่วมมือ

ประเด็นที่ควรจับตา

Join Our Free Trial