AI summary 1 แหล่ง
· 13 มิ.ย.
วิจัยเปิดกล่อง: เสียงและภาพไหลผ่าน Multimodal LLM อย่างไร
นักวิจัยจาก arXiv เพิ่งเผยวิธีที่เสียงและภาพเดินทางภายในโครงข่าย multimodal LLM จากการศึกษา 3 บทความ พบว่า: (1) audio-visual tokens ไหลผ่านเลเยอร์ต่างกัน ไม่ใช่ทั้งหมดไปยังคำตอบ (2) ต้องเลือกโมเดลที่เหมาะกับงาน OCR/chart/spatial reasoning ก่อนรัน (3) ปัญหา unlearning ข้อมูลเก่าเป็นความท้าทายใหญ่เมื่อต้องลบเนื้อหาตามคำขอ
01
แหล่งข่าว
03
ประเด็น
13 มิ.ย.
อัปเดต
- Audio-visual information routing ในโมเดล multimodal ไม่สม่ำเสมอ — บางสัญญาณไม่ถึงเลเยอร์สุดท้าย
- MLLM ต้องจับคู่ความสามารถ (OCR/chart/VQA) กับคำถาม ไม่ใช่แค่ประเมินความยาก
- Lifelong unlearning ต้องลบข้อมูลเก่าแบบต่อเนื่อง ไม่ใช่ครั้งเดียว — ต้องมี benchmark ใหญ่
แหล่งต้นทาง · 3
ลิงก์ต้นทางอยู่ครบ เพื่อให้เปิดอ่านเต็มและเทียบข้อมูลเองได้
EN EN EN
arXiv — cs.AI 12 มิ.ย.
MLUBench: A Benchmark for Lifelong Unlearning Evaluation in MLLMs
arXiv — cs.AI 10 มิ.ย.
From Senses to Decisions: The Information Flow of Auditory and Visual Perception in Multimodal LLMs
arXiv — cs.AI 13 พ.ค.
LatentRouter: Can We Choose the Right Multimodal Model Before Seeing Its Answer?
แชร์
ข่าวที่เกี่ยวข้อง
iOS 27 เตรียมอัปเกรด Siri ด้วย AI — chat interface และ Dynamic Island integration
1 แหล่ง · วันนี้ · 17:09
OpenAI แก้ปัญหาคณิตศาสตร์ 80 ปีด้วย AI reasoning model ต้นทุนต่ำกว่า $1000
3 แหล่ง · วันนี้ · 17:08
ทรัมป์บล็อก Anthropic ดึง Fable 5 และ Mythos 5 ออกจากต่างประเทศ
2 แหล่ง · วันนี้ · 17:08
OpenAI และ Adobe เพิ่มเครื่องมือตรวจจับ AI — ตั้งมาตรฐาน provenance เนื้อหา
4 แหล่ง · เมื่อวาน · 23:08
บอร์ดถามเรื่อง AI ROI และความเสี่ยง — IT leader ต้องเตรียมคำตอบเรื่องความรับผิดชอบและการควบคุม
2 แหล่ง · เมื่อวาน · 23:08