AI summary 1 แหล่ง
· 2 วันก่อน
นักวิจัยเปิดปัญหา LLM ที่ใช้ solver ตรรมชาติ — ผลลัพธ์ถูกต้องแต่เหตุผลอาจผิด
กลุ่มวิจัยพบช่องโหว่ในระบบที่ผสม LLM กับ SAT/SMT solver: แม้ solver ให้คำตอบที่พิสูจน์ได้ แต่ LLM อาจ \"แปลความ\" ผลลัพธ์ผิดเมื่อต้องอธิบายให้มนุษย์เข้าใจ นอกจากนี้ยังพบว่า LLM มีปัญหาในการให้เหตุผลแบบหลายขั้นตอน — บางครั้งเลือกเส้นทางคิดที่ขัดแย้งกันเอง ทีมจึงสร้างเครื่องมือประเมินใหม่ (Mask-Proof, CombEval) เพื่อวัดความน่าเชื่อถือของการให้เหตุผลทีละขั้น
01
แหล่งข่าว
00
ประเด็น
2 วันก่อน
อัปเดต
แหล่งต้นทาง · 4
ลิงก์ต้นทางอยู่ครบ เพื่อให้เปิดอ่านเต็มและเทียบข้อมูลเองได้
EN EN EN EN
arXiv — cs.AI 3 วันก่อน
Analyzing the Narration Gap in LLM-Solver Loops
arXiv — cs.AI 3 วันก่อน
CombEval: A Framework for Evaluating Combinatorial Counting in Large Language Models
arXiv — cs.AI 5 วันก่อน
Quantifying Consistency in LLM Logical Reasoning via Structural Uncertainty
arXiv — cs.AI 6 วันก่อน
Mask-Proof: An LLM-based Automated Data Curation Pipeline on Mathematical Proofs
แชร์
ข่าวที่เกี่ยวข้อง
OpenAI ปล่อย Codex ลงมือถือ พร้อมขยายไปองค์กรใหญ่ — Samsung, BBVA, Virgin Atlantic ใช้แล้ว
3 แหล่ง · 1 นาทีที่แล้ว
iOS 27 เตรียมอัปเกรด Siri ด้วย AI — chat interface และ Dynamic Island integration
1 แหล่ง · วันนี้ · 17:09
OpenAI แก้ปัญหาคณิตศาสตร์ 80 ปีด้วย AI reasoning model ต้นทุนต่ำกว่า $1000
3 แหล่ง · วันนี้ · 17:08
ทรัมป์บล็อก Anthropic ดึง Fable 5 และ Mythos 5 ออกจากต่างประเทศ
2 แหล่ง · วันนี้ · 17:08
OpenAI และ Adobe เพิ่มเครื่องมือตรวจจับ AI — ตั้งมาตรฐาน provenance เนื้อหา
4 แหล่ง · เมื่อวาน · 23:08