AI summary1 แหล่ง· 4 วันก่อน

นักวิจัยเปิด 5 งานใหม่เรื่อง activation steering ใน LLM/VLM — ควบคุมพฤติกรรมโมเดลแบบ real-time ไม่ต้อง retrain

arXiv ออกเปเปอร์ 5 ฉบับพร้อมกันเรื่องการ steer พฤติกรรม LLM/VLM ผ่าน activation แทนการ fine-tune งานแรกแก้ปัญหาคนใช้บอก prompt ไม่ชัดด้วยการเปลี่ยน interaction history เป็น instruction ที่ใช้งานได้ งานที่สองเปรียบเทียบ linear vs spherical steering พบว่าต่างกันที่วิธีจัดการ angle-norm ของ hidden state งานที่สามสร้าง framework วิเคราะห์ว่า prompt เปลี่ยน representation geometry ยังไง งานที่สี่ทำ CTRL-STEER สำหรับ VLA model ที่ปรับ steering strength แบบ closed-loop ตาม task state จริง งานสุดท้ายเสนอวิธีหา cascading linear features ที่ทำให้โมเดล sycophantic ด้วย contrastive data generation ทั้งหมดชี้ไปทิศเดียว — steering เป็นทางเลือกแทน retraining ที่ควบคุมได้แม่นกว่า

แหล่งข่าว

ประเด็น

4 วันก่อน

อัปเดต

แหล่งต้นทาง · 5

ลิงก์ต้นทางอยู่ครบ เพื่อให้เปิดอ่านเต็มและเทียบข้อมูลเองได้

arXiv — cs.AI5 วันก่อน

Detecting and Controlling Sycophancy with Cascading Linear Features

arXiv — cs.AI24 มิ.ย.

Navigating User Behavior toward Personalized Multimodal Generation

arXiv — cs.AI8 มิ.ย.

A Geometric Account of Activation Steering through Angle-Norm Decomposition