AI summary1 แหล่ง· เมื่อวาน · 05:09

AI ตัวจริงยังไม่พร้อมทำวิจัยคนเดียว — ปัญหาจากการวัดผลแบบรวม

นักวิจัยพบว่า auto-research agents (Claude Opus, GPT-5.4, Kimi K2.5) สามารถเขียนกระดาษวิจัยได้ แต่คุณภาพยังห่างไกล ปัญหาหลักคือ agents วัดความสำเร็จจากตัวเลขรวม (aggregate metric) ที่ซ่อนความเสียหายในข้อมูลย่อย — ผลลัพธ์ดูดีบนกระดาษแต่โมเดลแตกข้างใน มีข้อเสนอใหม่ (Agentic Publication Protocol) เพื่อให้ agents เผยแพร่ไม่เพียงแต่ผลลัพธ์ แต่วิธีการและขั้นตอนที่ใช้จริง

แหล่งข่าว

ประเด็น

เมื่อวาน · 05:09

อัปเดต

Agents ผ่านการทดสอบ 13 โจทย์ได้ แต่ ResearchArena พบว่าคุณภาพกระดาษยังต่ำกว่ามาตรฐาน peer-review
Aggregate metrics ซ่อนความเสียหายในกลุ่มย่อย — ตัวเลขรวมดีขึ้นแต่ข้อมูลบางส่วนแตก
APP เสนอให้ publish โค้ด + ขั้นตอนพร้อมกระดาษ เพื่อให้ผู้อ่านใช้ต่อได้จริง

แหล่งต้นทาง · 3

ลิงก์ต้นทางอยู่ครบ เพื่อให้เปิดอ่านเต็มและเทียบข้อมูลเองได้

arXiv — cs.AI2 วันก่อน

Agentic Publication Protocol: An Attempt to Modernize Scientific Publication

arXiv — cs.AI11 มิ.ย.

Search Discipline for Long-Horizon Research Agents

arXiv — cs.AI20 พ.ค.

How Far Are We From True Auto-Research?

แชร์