AI summary1 แหล่ง· 4 วันก่อน

นักวิจัยค้นพบ: ระบบ AI ปฏิเสธคำขอผ่านทิศทางเชิงเส้นในสมอง โมเดล

กลุ่มวิจัยพบว่าการปฏิเสธของ AI chat models ไม่ใช่เพียงกลไกเดียว แต่เกี่ยวข้องกับบุคลิกภาพของโมเดล — เมื่อสั่งให้โมเดลมีบุคลิกภาพ \"ยอมรับ\" ระบบปฏิเสธจะลดลงจาก 97% เหลือ 2% ใน Llama-3.1 นักวิจัยใช้เทคนิค activation steering และ INLP เพื่อแยกและควบคุมทิศทางเหล่านี้ในพื้นที่ activation space

แหล่งข่าว

ประเด็น

4 วันก่อน

อัปเดต

บุคลิกภาพ \"ยอมรับ\" ของโมเดลสามารถปิดกั้นกลไกปฏิเสธได้ — ลดอัตราปฏิเสธจาก 97% เป็น 2% ใน Llama-3.1-8B-Instruct
การปฏิเสธและบุคลิกภาพเป็นทิศทางเชิงเส้นแยกต่างหากใน activation space ที่สามารถแยกและแทรกแซงได้อิสระ
INLP (Iterative Nullspace Projection) และ DiM (Difference-in-Means) ต่างสามารถใช้ steering refusal ได้ แต่ความสามารถในการควบคุมแตกต่างกัน

แหล่งต้นทาง · 3

ลิงก์ต้นทางอยู่ครบ เพื่อให้เปิดอ่านเต็มและเทียบข้อมูลเองได้

arXiv — cs.AI5 วันก่อน

Refusal Lives Downstream of Persona in Chat Models

arXiv — cs.AI15 มิ.ย.

Refusal Beyond a Single Direction: A Preliminary Comparison of Diff-in-Means and INLP

arXiv — cs.AI9 มิ.ย.

The AI Epistemic Deference Index: A Continuous Measure of Sycophancy

แชร์