AI summary 1 แหล่ง · 2 วันก่อน

นักวิจัยเปิดปัญหา LLM ที่ใช้ solver ตรรมชาติ — ผลลัพธ์ถูกต้องแต่เหตุผลอาจผิด

กลุ่มวิจัยพบช่องโหว่ในระบบที่ผสม LLM กับ SAT/SMT solver: แม้ solver ให้คำตอบที่พิสูจน์ได้ แต่ LLM อาจ \"แปลความ\" ผลลัพธ์ผิดเมื่อต้องอธิบายให้มนุษย์เข้าใจ นอกจากนี้ยังพบว่า LLM มีปัญหาในการให้เหตุผลแบบหลายขั้นตอน — บางครั้งเลือกเส้นทางคิดที่ขัดแย้งกันเอง ทีมจึงสร้างเครื่องมือประเมินใหม่ (Mask-Proof, CombEval) เพื่อวัดความน่าเชื่อถือของการให้เหตุผลทีละขั้น

แหล่งข่าว

ประเด็น

2 วันก่อน

อัปเดต

แหล่งต้นทาง · 4

ลิงก์ต้นทางอยู่ครบ เพื่อให้เปิดอ่านเต็มและเทียบข้อมูลเองได้

arXiv — cs.AI 3 วันก่อน

Analyzing the Narration Gap in LLM-Solver Loops

arXiv — cs.AI 3 วันก่อน

CombEval: A Framework for Evaluating Combinatorial Counting in Large Language Models

arXiv — cs.AI 5 วันก่อน

Quantifying Consistency in LLM Logical Reasoning via Structural Uncertainty