AI summary 1 แหล่ง · วันนี้ · 23:12

งานวิจัย AI reasoning ใหม่เน้น graph-based และ benchmark อัตโนมัติ

มีเปเปอร์ใหม่หลายชุดจาก arXiv ที่พยายามแก้ปัญหาการ evaluate และปรับปรุง reasoning ของ LLM โดย Project Auto-World ใช้ LLM สร้าง benchmark ที่ยากขึ้นเองอัตโนมัติ ส่วนงานวิจัย quantization พบว่า INT4/INT3 ทำให้โมเดลคิดยาวขึ้น (token inflation) แม้ตอบถูก ซึ่งเพิ่มต้นทุนแอบแฝง งาน Tree-of-Thought วิเคราะห์ว่า search strategy ต่างๆ ทำงานอย่างไรเมื่อ compute budget เปลี่ยน และมีชุด benchmark ใหม่หลายตัวที่เน้น graph-structured reasoning เช่น GraphARC และ VAMPS ที่ทดสอบความสามารถในการใช้ visual/graph เป็นตัวช่วยคิด แนวโน้มชัดคือ reasoning research กำลังเลื่อนจาก chain-like ไปสู่ graph-based และเริ่มใช้ automation ในการสร้างโจทย์ทดสอบ

แหล่งข่าว

ประเด็น

วันนี้ · 23:12

อัปเดต

แหล่งต้นทาง · 9

ลิงก์ต้นทางอยู่ครบ เพื่อให้เปิดอ่านเต็มและเทียบข้อมูลเองได้

arXiv — cs.AI วันนี้ · 04:00

Project Auto-World: Towards Automated Benchmarking of Neural Relational Reasoners

arXiv — cs.AI วันนี้ · 04:00

Quantization Inflates Reasoning: Token Inflation as a Hidden Cost of Low-Bit Reasoning Models

arXiv — cs.AI วันนี้ · 04:00

Position Spaces and Graphs