Live AI Wire
OpenAI เปิดแนวทางประเมิน AI ตัวจริง ตรวจสอบความสามารถและความปลอดภัย
OpenAI ปล่อยคู่มือวิธีประเมิน AI model ระดับ frontier อย่างไม่ลำเอียง ครอบคลุมการวัดความสามารถ safeguard และความถูกต้องของการทดสอบ พร้อมกับเห็นว่าวงการเริ่มสร้าง benchmark ใหม่ เช่น ITBench-AA และ EVA-Bench ที่ทดสอบงาน agentic จริงๆ ไม่ใช่แค่ benchmark ทั่วไป ซึ่งแสดงว่า frontier model ยังมีช่องว่างใหญ่ในงาน enterprise IT ที่ซับซ้อน
arXiv — cs.AIOpenAI BlogHugging Face Blog