AI summary 1 แหล่ง
· 2 วันก่อน
นักวิจัยค้นพบวิธีตรวจจับและป้องกันการโจมตี LLM ผ่านโครงสร้างแฝง
กลุ่มวิจัยเผยว่า LLM สามารถรู้ได้เมื่อ context ถูกแก้ไข และมีช่องโหว่ร่วมกันในการหลบเลี่ยงการปฏิเสธ ทีมค้นพบว่าการโจมตี jailbreak, refusal manipulation, และ bias induction ต่างใช้กลไกแฝงเดียวกัน ซึ่งสามารถตรวจจับและปิดกั้นได้ด้วย sparse autoencoders บนการเปิดใช้งาน residual stream นอกจากนี้ยังมีวิธี align ใหม่ที่ไม่ต้องเก็บข้อมูล harmful prompts หลายพันตัวอย่าง
01
แหล่งข่าว
03
ประเด็น
2 วันก่อน
อัปเดต
- LLM สามารถตรวจจับ prefill tampering ได้ — ส่งผลต่อความถูกต้องของการทดสอบ safety
- Backdoor attacks ต่างชนิดใช้ latent mechanism เดียวกัน — สามารถตรวจจับแบบรวมศูนย์ด้วย SAE
- Latent Personality Alignment ทำให้ robust ด้วยข้อมูลน้อย — ต้องแค่ <100 trait statements แทน hundreds of thousands
แหล่งต้นทาง · 5
ลิงก์ต้นทางอยู่ครบ เพื่อให้เปิดอ่านเต็มและเทียบข้อมูลเองได้
EN EN EN EN EN
arXiv — cs.AI 3 วันก่อน
Emergent Alignment
arXiv — cs.AI 12 มิ.ย.
Prefill Awareness in Large Language Models
arXiv — cs.AI 9 มิ.ย.
Shared Latent Structures Enable Unified Backdoor Detection and Mitigation in LLMs
arXiv — cs.AI 23 พ.ค.
Latent-space Attacks for Refusal Evasion in Language Models
arXiv — cs.AI 12 พ.ค.
Latent Personality Alignment: Improving Harmlessness Without Mentioning Harms
แชร์
ข่าวที่เกี่ยวข้อง
iOS 27 เตรียมอัปเกรด Siri ด้วย AI — chat interface และ Dynamic Island integration
1 แหล่ง · วันนี้ · 17:09
OpenAI แก้ปัญหาคณิตศาสตร์ 80 ปีด้วย AI reasoning model ต้นทุนต่ำกว่า $1000
3 แหล่ง · วันนี้ · 17:08
ทรัมป์บล็อก Anthropic ดึง Fable 5 และ Mythos 5 ออกจากต่างประเทศ
2 แหล่ง · วันนี้ · 17:08
OpenAI และ Adobe เพิ่มเครื่องมือตรวจจับ AI — ตั้งมาตรฐาน provenance เนื้อหา
4 แหล่ง · เมื่อวาน · 23:08
บอร์ดถามเรื่อง AI ROI และความเสี่ยง — IT leader ต้องเตรียมคำตอบเรื่องความรับผิดชอบและการควบคุม
2 แหล่ง · เมื่อวาน · 23:08