AI summary 1 แหล่ง
· วันนี้ · 23:12
งานวิจัย AI reasoning ใหม่เน้น graph-based และ benchmark อัตโนมัติ
มีเปเปอร์ใหม่หลายชุดจาก arXiv ที่พยายามแก้ปัญหาการ evaluate และปรับปรุง reasoning ของ LLM โดย Project Auto-World ใช้ LLM สร้าง benchmark ที่ยากขึ้นเองอัตโนมัติ ส่วนงานวิจัย quantization พบว่า INT4/INT3 ทำให้โมเดลคิดยาวขึ้น (token inflation) แม้ตอบถูก ซึ่งเพิ่มต้นทุนแอบแฝง งาน Tree-of-Thought วิเคราะห์ว่า search strategy ต่างๆ ทำงานอย่างไรเมื่อ compute budget เปลี่ยน และมีชุด benchmark ใหม่หลายตัวที่เน้น graph-structured reasoning เช่น GraphARC และ VAMPS ที่ทดสอบความสามารถในการใช้ visual/graph เป็นตัวช่วยคิด แนวโน้มชัดคือ reasoning research กำลังเลื่อนจาก chain-like ไปสู่ graph-based และเริ่มใช้ automation ในการสร้างโจทย์ทดสอบ
01
แหล่งข่าว
00
ประเด็น
วันนี้ · 23:12
อัปเดต
แหล่งต้นทาง · 9
ลิงก์ต้นทางอยู่ครบ เพื่อให้เปิดอ่านเต็มและเทียบข้อมูลเองได้
EN EN EN EN EN EN EN EN EN
arXiv — cs.AI วันนี้ · 04:00
Project Auto-World: Towards Automated Benchmarking of Neural Relational Reasoners
arXiv — cs.AI วันนี้ · 04:00
Quantization Inflates Reasoning: Token Inflation as a Hidden Cost of Low-Bit Reasoning Models
arXiv — cs.AI วันนี้ · 04:00
Position Spaces and Graphs
arXiv — cs.AI 2 วันก่อน
Beyond Fixed Budgets: Characterizing the Inelasticity and Limitations of Tree-of-Thought Reasoning Strategies
arXiv — cs.AI 4 มิ.ย.
VAMPS: Visual-Assisted Mathematical Problem Solving Benchmark
arXiv — cs.AI 3 มิ.ย.
Visual Graph Scaffolds for Structural Reasoning in Large Language Models
arXiv — cs.AI 1 มิ.ย.
Generating Graph-like Rules for Knowledge Graph Reasoning via Diffusion Models
arXiv — cs.AI 1 มิ.ย.
GraphARC: A Comprehensive Benchmark for Graph-Based Abstract Reasoning
arXiv — cs.AI 14 พ.ค.
Strikingness-Aware Evaluation for Temporal Knowledge Graph Reasoning
แชร์
ข่าวที่เกี่ยวข้อง
AI strategy ที่ผิดพลาด: บริษัทล็อกตัวเองเข้าแพลตฟอร์มเดียว ทีมไม่ยอมรับ ระบบเก่ายังใช้ได้
2 แหล่ง · วันนี้ · 23:11
AI ในโรงพยาบาล: ต้องแก้ความปลอดภัย ความโปร่งใส และเศรษฐศาสตร์ก่อน
2 แหล่ง · วันนี้ · 23:10
Anthropic ยื่น IPO พร้อมปล่อย Opus 4.8 และ Cowork agent — ส่วนแบ่งผู้ใช้จ่ายเพิ่มชนะ ChatGPT
5 แหล่ง · วันนี้ · 23:10
AI Agent ควบคุมยากขึ้น — องค์กรต้องเรียนรู้ \"ทำเหมืองข้อมูล\" พฤติกรรม AI เพื่อบริหารความเสี่ยง
2 แหล่ง · วันนี้ · 23:09
UK บังคับ Google ให้ผู้เผยแพร่เลือกไม่ให้เนื้อหาโผล่ใน AI Search ได้
3 แหล่ง · วันนี้ · 23:09