AI summary 1 แหล่ง · 13 มิ.ย.

วิจัยเปิดกล่อง: เสียงและภาพไหลผ่าน Multimodal LLM อย่างไร

นักวิจัยจาก arXiv เพิ่งเผยวิธีที่เสียงและภาพเดินทางภายในโครงข่าย multimodal LLM จากการศึกษา 3 บทความ พบว่า: (1) audio-visual tokens ไหลผ่านเลเยอร์ต่างกัน ไม่ใช่ทั้งหมดไปยังคำตอบ (2) ต้องเลือกโมเดลที่เหมาะกับงาน OCR/chart/spatial reasoning ก่อนรัน (3) ปัญหา unlearning ข้อมูลเก่าเป็นความท้าทายใหญ่เมื่อต้องลบเนื้อหาตามคำขอ

แหล่งข่าว

ประเด็น

13 มิ.ย.

อัปเดต

Audio-visual information routing ในโมเดล multimodal ไม่สม่ำเสมอ — บางสัญญาณไม่ถึงเลเยอร์สุดท้าย
MLLM ต้องจับคู่ความสามารถ (OCR/chart/VQA) กับคำถาม ไม่ใช่แค่ประเมินความยาก
Lifelong unlearning ต้องลบข้อมูลเก่าแบบต่อเนื่อง ไม่ใช่ครั้งเดียว — ต้องมี benchmark ใหญ่

แหล่งต้นทาง · 3

ลิงก์ต้นทางอยู่ครบ เพื่อให้เปิดอ่านเต็มและเทียบข้อมูลเองได้

arXiv — cs.AI 12 มิ.ย.

MLUBench: A Benchmark for Lifelong Unlearning Evaluation in MLLMs

arXiv — cs.AI 10 มิ.ย.

From Senses to Decisions: The Information Flow of Auditory and Visual Perception in Multimodal LLMs

arXiv — cs.AI 13 พ.ค.

LatentRouter: Can We Choose the Right Multimodal Model Before Seeing Its Answer?

แชร์