AI summary 1 แหล่ง · 2 วันก่อน

นักวิจัยค้นพบวิธีตรวจจับและป้องกันการโจมตี LLM ผ่านโครงสร้างแฝง

กลุ่มวิจัยเผยว่า LLM สามารถรู้ได้เมื่อ context ถูกแก้ไข และมีช่องโหว่ร่วมกันในการหลบเลี่ยงการปฏิเสธ ทีมค้นพบว่าการโจมตี jailbreak, refusal manipulation, และ bias induction ต่างใช้กลไกแฝงเดียวกัน ซึ่งสามารถตรวจจับและปิดกั้นได้ด้วย sparse autoencoders บนการเปิดใช้งาน residual stream นอกจากนี้ยังมีวิธี align ใหม่ที่ไม่ต้องเก็บข้อมูล harmful prompts หลายพันตัวอย่าง

01
แหล่งข่าว
03
ประเด็น
2 วันก่อน
อัปเดต
  • LLM สามารถตรวจจับ prefill tampering ได้ — ส่งผลต่อความถูกต้องของการทดสอบ safety
  • Backdoor attacks ต่างชนิดใช้ latent mechanism เดียวกัน — สามารถตรวจจับแบบรวมศูนย์ด้วย SAE
  • Latent Personality Alignment ทำให้ robust ด้วยข้อมูลน้อย — ต้องแค่ <100 trait statements แทน hundreds of thousands
แหล่งต้นทาง · 5

ลิงก์ต้นทางอยู่ครบ เพื่อให้เปิดอ่านเต็มและเทียบข้อมูลเองได้

แชร์
ข่าวที่เกี่ยวข้อง