Live AI Wire
AI agents เข้าสู่ยุคประเมินและปรับปรุงแบบอัตโนมัติ — ห้องแล็บเปิดกรอบวัดประสิทธิฯ
กลุ่มวิจัย arXiv เพิ่งลุยเรื่องการประเมินและปรับปรุง AI agents ให้ดีขึ้นเองได้ กว่า 11 paper ใหม่แล็กในสัปดาห์เดียว — จากการให้ agents ทำ data curation อัตโนมัติ, ตรวจจับ hallucination ที่เลื้อยลามไปในกระบวนการ, มาถึงการสร้าง benchmark ทดสอบว่า agents คิดกลับหลังล้มเหลวได้ไหม ส่วนใหญ่โฟกัส: agents ต้องประเมินตัวเองแบบ reliable, หลีกเลี่ยงความมั่นใจเกินเหนือความจริง, และเรียนรู้จากแต่ละลัน
arXiv — cs.AI