Live AI Wire
LLM ต้องใช้โค้ดหรือการให้เหตุผล? วิจัยเปรียบเทียบความทนทานแบบจำลองการให้รางวัลกระบวนการ
3 บทความ arXiv ใหม่วิเคราะห์จุดอ่อนของ LLM ในปัญหาคณิตศาสตร์และการให้เหตุผลวิทยาศาสตร์ เมื่อเปลี่ยนตัวเลขหรือชื่อแม้เล็กน้อย LLM สูญความแม่นยำไป — แม้ใช้โค้ด Python ช่วยก็ไม่เสถียร วิจัยชี้ว่า Process Reward Models (PRM) สามารถตรวจจับข้อผิดพลาดขั้นกลางได้ แต่ยังไม่มี benchmark ครอบคลุมเพียงพอ โดยเฉพาะในโดเมนวิทยาศาสตร์ที่ต้องเครื่องมือเฉพาะ
arXiv — cs.AI