AI summary 1 แหล่ง · 2 วันก่อน

นักวิจัยค้นพบวิธีตรวจจับและป้องกันการโจมตี LLM ผ่านโครงสร้างแฝง

กลุ่มวิจัยเผยว่า LLM สามารถรู้ได้เมื่อ context ถูกแก้ไข และมีช่องโหว่ร่วมกันในการหลบเลี่ยงการปฏิเสธ ทีมค้นพบว่าการโจมตี jailbreak, refusal manipulation, และ bias induction ต่างใช้กลไกแฝงเดียวกัน ซึ่งสามารถตรวจจับและปิดกั้นได้ด้วย sparse autoencoders บนการเปิดใช้งาน residual stream นอกจากนี้ยังมีวิธี align ใหม่ที่ไม่ต้องเก็บข้อมูล harmful prompts หลายพันตัวอย่าง

แหล่งข่าว

ประเด็น

2 วันก่อน

อัปเดต

LLM สามารถตรวจจับ prefill tampering ได้ — ส่งผลต่อความถูกต้องของการทดสอบ safety
Backdoor attacks ต่างชนิดใช้ latent mechanism เดียวกัน — สามารถตรวจจับแบบรวมศูนย์ด้วย SAE
Latent Personality Alignment ทำให้ robust ด้วยข้อมูลน้อย — ต้องแค่ <100 trait statements แทน hundreds of thousands

แหล่งต้นทาง · 5

ลิงก์ต้นทางอยู่ครบ เพื่อให้เปิดอ่านเต็มและเทียบข้อมูลเองได้

arXiv — cs.AI 3 วันก่อน

Emergent Alignment

arXiv — cs.AI 12 มิ.ย.

Prefill Awareness in Large Language Models

arXiv — cs.AI 9 มิ.ย.

Shared Latent Structures Enable Unified Backdoor Detection and Mitigation in LLMs

arXiv — cs.AI 23 พ.ค.

Latent-space Attacks for Refusal Evasion in Language Models

arXiv — cs.AI 12 พ.ค.

Latent Personality Alignment: Improving Harmlessness Without Mentioning Harms