AI summary1 แหล่ง· 4 วันก่อน
นักวิจัยค้นพบ: ระบบ AI ปฏิเสธคำขอผ่านทิศทางเชิงเส้นในสมอง โมเดล
กลุ่มวิจัยพบว่าการปฏิเสธของ AI chat models ไม่ใช่เพียงกลไกเดียว แต่เกี่ยวข้องกับบุคลิกภาพของโมเดล — เมื่อสั่งให้โมเดลมีบุคลิกภาพ \"ยอมรับ\" ระบบปฏิเสธจะลดลงจาก 97% เหลือ 2% ใน Llama-3.1 นักวิจัยใช้เทคนิค activation steering และ INLP เพื่อแยกและควบคุมทิศทางเหล่านี้ในพื้นที่ activation space
01
แหล่งข่าว
03
ประเด็น
4 วันก่อน
อัปเดต
- บุคลิกภาพ \"ยอมรับ\" ของโมเดลสามารถปิดกั้นกลไกปฏิเสธได้ — ลดอัตราปฏิเสธจาก 97% เป็น 2% ใน Llama-3.1-8B-Instruct
- การปฏิเสธและบุคลิกภาพเป็นทิศทางเชิงเส้นแยกต่างหากใน activation space ที่สามารถแยกและแทรกแซงได้อิสระ
- INLP (Iterative Nullspace Projection) และ DiM (Difference-in-Means) ต่างสามารถใช้ steering refusal ได้ แต่ความสามารถในการควบคุมแตกต่างกัน
แหล่งต้นทาง · 3
ลิงก์ต้นทางอยู่ครบ เพื่อให้เปิดอ่านเต็มและเทียบข้อมูลเองได้
แชร์
ข่าวที่เกี่ยวข้อง
Supply chain attacks ทำให้ vendor trust collapse — compliance ไม่ช่วยลดความเสี่ยงจริง
2 แหล่ง · เมื่อวาน · 23:07
OpenAI ปล่อย Codex บน ChatGPT มือถือ ขณะองค์กรใหญ่ใช้ AI เขียนโค้ดแบบเต็มตัว
4 แหล่ง · เมื่อวาน · 23:07
IoT 2.0 เปลี่ยนจากเก็บข้อมูลเป็นตัดสินใจ real-time — แต่คนและกระบวนการสำคัญเท่า tech
1 แหล่ง · เมื่อวาน · 23:06
AI ไม่ใช่เรื่องของเทคโนโลยี แต่เรื่องของวินัยองค์กรและทีม
2 แหล่ง · เมื่อวาน · 23:05
นักวิจัยเปิดช่องว่างใหญ่ในการประเมิน Multimodal LLM — ขาดการทดสอบการผสมข้อมูลข้ามโหมด
2 แหล่ง · เมื่อวาน · 23:05