สรุปจากคลิป ดูคลิปต้นฉบับ
ความจริงเกี่ยวกับ Anthropic Mythos 5 และ Claude Fable 5

การเปิดตัวโมเดลใหม่ของ Anthropic ทำให้เกิดทั้งความตื่นเต้นและแรงต้านในเวลาเดียวกัน ฝั่งหนึ่งมองว่านี่คือเปลี่ยนเร็วครั้งใหญ่ของ AI โดยเฉพาะงานเขียนโค้ดและงานที่ซับซ้อนยาวนาน แต่อีกฝั่งมองว่านี่คือภาพสะท้อนของการควบคุมอำนาจ การปิดกั้นการเข้าถึง และการใส่ข้อจำกัดด้านความปลอดภัยที่มากเกินไป
ประเด็นสำคัญคือ หลายคนกำลังพูดถึง Mythos 5 ราวกับเป็นโมเดลเดียวกับที่ใช้งานได้ทั่วไป แต่สิ่งที่ผู้ใช้ส่วนใหญ่เข้าถึงจริงในตอนนี้คือ Claude Fable 5 ไม่ใช่ Mythos 5 แบบเต็มรูปแบบ แม้ทั้งสองจะมีรากฐานร่วมกัน แต่ระดับการเปิดใช้งานและข้อจำกัดต่างกันอย่างมีนัยสำคัญ
บทความนี้สรุปว่า Fable 5 คืออะไร เก่งแค่ไหน ทำไมถึงมีทั้งเสียงชมและเสียงวิจารณ์ พร้อมดูว่าข้อกล่าวอ้างเรื่องประสิทธิภาพ ความปลอดภัย ราคา และ benchmark ต่าง ๆ ควรถูกตีความอย่างไร
Fable 5 คืออะไร และต่างจาก Mythos 5 อย่างไร
Anthropic อธิบายว่ามีชั้นของโมเดลภายในที่เรียกว่า Mythos class ซึ่งอยู่เหนือระดับ Opus เดิม หมายความว่าในเชิงความสามารถ นี่คือกลุ่มโมเดลที่ถูกวางตำแหน่งให้เป็นรุ่นแนวหน้ากว่าเดิม และ Fable 5 คือโมเดลตัวแรกในชั้นนี้ที่ถูกปรับให้เหมาะกับการใช้งานทั่วไป
คำว่าเหมาะกับการใช้งานทั่วไปนี่เองที่กลายเป็นจุดถกเถียง เพราะไม่ได้หมายความว่าเปิดความสามารถทุกด้านให้ใช้เต็มที่ แต่หมายถึงผ่านการใส่มาตรการความปลอดภัยจำนวนมากจนพร้อมสำหรับผู้ใช้ในวงกว้าง
ดังนั้น หากสรุปแบบสั้นที่สุดคือ Fable 5 คือเวอร์ชันใช้งานสาธารณะของเทคโนโลยีระดับ Mythos ที่ถูกจำกัดบางส่วน ส่วน Mythos 5 เวอร์ชันที่ปลดข้อจำกัดบางด้านมากกว่า ยังถูกจำกัดสิทธิ์ไว้ให้กับกลุ่มพันธมิตรเฉพาะ เช่น ผู้เชี่ยวชาญด้านความมั่นคงไซเบอร์ หน่วยงานรัฐ และองค์กรที่ผ่านการคัดกรอง
นี่จึงเป็นจุดที่ทำให้หลายคนสับสน การประกาศครั้งนี้ไม่ได้แปลว่าโมเดล Mythos แบบเต็มถูกปล่อยสู่สาธารณะ สิ่งที่มาถึงมือผู้ใช้ทั่วไปคือโมเดลที่ใช้สมองชุดเดียวกันในระดับหนึ่ง แต่มีรั้วความปลอดภัยล้อมไว้มากกว่า
จุดเด่นที่ทำให้ Fable 5 ถูกพูดถึงมาก
สิ่งที่ทำให้ Fable 5 ได้รับความสนใจอย่างรวดเร็วคือความสามารถในการรับงานยาว งานใหญ่ และงานที่เดิมต้องใช้เวลาหลายสัปดาห์หรือหลายเดือน โดยเฉพาะงานพัฒนาโปรแกรมที่มีความซับซ้อนสูง
หนึ่งในตัวอย่างที่ถูกยกขึ้นมาคือการย้ายโค้ดทั้งฐานของระบบขนาดมหาศาลระดับหลายสิบล้านบรรทัดภายในเวลาประมาณหนึ่งวัน งานประเภทนี้ถ้าทำแบบเดิมอาจต้องใช้ทีมงานทำกันเป็นเดือน ตัวอย่างนี้สะท้อนแนวคิดหลักของ Fable 5 ได้ชัดเจนมากว่า มันไม่ได้ถูกออกแบบมาเพื่อถามตอบสั้น ๆ แต่ถูกออกแบบมาเพื่อรับงานหนักแล้วปล่อยให้ทำต่อเนื่องเป็นเวลานาน
ผู้ใช้งานกลุ่มที่ทดสอบจริงยังรายงานผลลัพธ์ที่น่าสนใจหลายแบบ เช่น
- แก้ปัญหา bug backlog ที่ค้างอยู่ในระบบ production ได้เป็นก้อนใหญ่
- สร้างเกม 3D ที่เล่นได้จากคำสั่งครั้งเดียว
- สร้างแอนิเมชันขนาดสั้นโดยไม่ต้องแบ่งงานเป็นหลายรอบ
- โคลนเกมหรือแอปต้นแบบในเวลาสั้นมาก
- พัฒนาฟีเจอร์ซอฟต์แวร์แบบใกล้เคียงเรียลไทม์จากข้อมูลที่ได้ระหว่างการประชุม
จุดแข็งของโมเดลนี้จึงไม่ใช่แค่ตอบเก่งขึ้น แต่เป็นเรื่อง ความต่อเนื่องของการลงมือทำ และ ความสามารถในการจัดการงานขนาดใหญ่ในรอบเดียว ซึ่งต่างจากโมเดลที่เก่งเฉพาะงานย่อยหรือโต้ตอบสั้น ๆ
งานแบบไหนที่ Fable 5 โดดเด่นที่สุด
ถ้ามองจากตัวอย่างการใช้งานจริง งานที่ Fable 5 ดูจะโดดเด่นเป็นพิเศษมีอยู่ 3 กลุ่ม
1. งานเขียนโค้ดหลายไฟล์และหลายระบบ
ไม่ใช่แค่เขียนฟังก์ชันเล็ก ๆ หรือแก้บั๊กจุดเดียว แต่เป็นงานประเภทออกแบบระบบ ปรับโครงสร้างทั้งโปรเจกต์ สร้างเกมหรือแอปที่ใช้งานได้จริง และเชื่อมหลายองค์ประกอบเข้าด้วยกัน
2. งานที่ต้องใช้เหตุผลต่อเนื่องนาน
โมเดลนี้ดูเหมาะกับงานที่ต้องค่อย ๆ แตกปัญหา วางแผน ลงมือทำ ตรวจสอบ และไปต่อ โดยไม่ต้องให้มนุษย์เข้ามาช่วยทุกขั้นตอน
3. งานแบบ agentic workflow
นั่นคือการใช้ AI ทำงานเป็นลำดับขั้นเหมือนผู้ช่วยอัตโนมัติ ไม่ว่าจะเป็นค้นข้อมูล แก้ไฟล์ สร้างผลลัพธ์ และวนทำซ้ำหลายรอบ จุดนี้เองที่ทำให้ชื่อของ Fable 5 ไปโผล่บนอันดับต้น ๆ ของกลุ่ม benchmark ด้าน agents
แต่ข้อจำกัดก็ชัดเจนมากเช่นกัน
แม้ความสามารถจะน่าประทับใจ แต่ Fable 5 ไม่ใช่โมเดลสารพัดประโยชน์สำหรับทุกคน และไม่ใช่ตัวเลือกที่เหมาะกับทุกงาน
ข้อจำกัดที่ถูกพูดถึงบ่อยมีดังนี้
- ช้า เมื่อเทียบกับโมเดลที่ตอบเร็วสำหรับงานประจำวัน
- กินโทเคนมาก บางงานใช้โทเคนหลักหลายแสนถึงหลักล้าน
- แพง ราคาอยู่ราว 10 ดอลลาร์ต่อหนึ่งล้าน input tokens และ 50 ดอลลาร์ต่อหนึ่งล้าน output tokens
- เข้าถึงได้ชั่วคราวบนแพ็กเกจ และหลังจากช่วงเวลาหนึ่งต้องใช้เครดิตการใช้งานแทน
- มีการกรองด้านความปลอดภัยเข้มมาก โดยเฉพาะหัวข้อชีววิทยา เคมี ความมั่นคงไซเบอร์ และเรื่องที่เกี่ยวกับการพัฒนาโมเดล AI
นั่นทำให้ Fable 5 ไม่เหมาะจะเป็นโมเดลหลักสำหรับงานทั่วไป เช่น ถามตอบข้อมูลประจำวัน เขียนข้อความสั้น หรือช่วยงานเบา ๆ เพราะจะเหมือนใช้เครื่องมือระดับหนักไปจัดการงานเล็กเกินความจำเป็น
ประเด็นร้อนที่สุดคือการสลับไปใช้โมเดลที่อ่อนกว่า
สิ่งที่ผู้ใช้หลายคนไม่พอใจไม่ใช่แค่การถูกปฏิเสธคำถาม แต่คือวิธีที่ระบบจัดการกับคำถามบางประเภท หากตัวตรวจจับภายในมองว่าคำถามไปแตะหัวข้อเสี่ยง เช่น ชีววิทยา ความปลอดภัยไซเบอร์ หรือเคมี ระบบอาจไม่ใช้ Fable 5 ตอบ แต่เปลี่ยนไปใช้โมเดลที่อ่อนกว่าคือ Opus แทน
Anthropic ระบุว่ากรณีแบบนี้เกิดขึ้นในสัดส่วนไม่สูงมาก และโดยทั่วไปจะมีการแจ้งเมื่อมีการสลับโมเดล แต่ปัญหาคือระบบกรองยังมีโอกาสสูงที่จะจับคำถามทั่วไปที่ไม่ได้อันตรายจริง
มีตัวอย่างที่ถูกหยิบยกขึ้นมาหลายแบบ เช่น คำถามด้านสุขภาพทั่วไป การอธิบายหน้าที่ของอวัยวะ หรือการวิเคราะห์ข้อมูลเลือด ซึ่งตามสามัญสำนึกแล้วไม่ควรถูกมองว่าเป็นภัย แต่ระบบก็ยังอาจมองว่าเกี่ยวข้องกับชีววิทยาและสลับไปใช้โมเดลอื่น
ด้านหนึ่ง บริษัทยอมรับเองว่าระบบป้องกันยังเข้มเกินไป และอาจเกิด false positive กับคำถามปกติได้ อีกด้านหนึ่ง สำหรับคนที่ทำงานสายสุขภาพ ชีววิทยา วิทยาศาสตร์ หรือการวิจัย AI เรื่องนี้ไม่ใช่ข้อเสียเล็กน้อย แต่เป็นอุปสรรคโดยตรง
ข้อจำกัดที่ซ่อนอยู่ในการพูดเรื่องการพัฒนาโมเดล AI
อีกประเด็นที่สำคัญมากคือ หากถามเรื่องการสร้างหรือเร่งการพัฒนา frontier LLM ระบบอาจไม่ได้ปฏิเสธอย่างเปิดเผยหรือแจ้งว่ากำลังใช้โมเดลอ่อนกว่า แต่จะลดประสิทธิภาพของคำตอบแบบเงียบ ๆ ผ่านกลไกภายใน เช่น การบังคับทิศทางหรือการปรับพฤติกรรมของโมเดล
ความต่างสำคัญคือ ผู้ใช้บางกรณีอาจไม่รู้เลยว่าคำตอบที่ได้ถูกทำให้อ่อนลงแล้ว เรื่องนี้ทำให้เกิดคำถามด้านความโปร่งใส เพราะผู้ใช้ไม่สามารถประเมินได้ตรง ๆ ว่ากำลังได้รับคำตอบจากความสามารถสูงสุดของโมเดลหรือไม่
นี่คือจุดที่การถกเถียงเปลี่ยนจากเรื่องผลิตภัณฑ์ไปสู่เรื่องโครงสร้างอำนาจในวงการ AI ทันที เพราะหากแล็บชั้นนำสามารถใช้โมเดลเต็มประสิทธิภาพกับงานวิจัยของตนเอง แต่ผู้เล่นรายอื่นถูกจำกัดความสามารถไม่ให้แข่งขันได้ ก็ย่อมเกิดคำถามเรื่องความเป็นธรรมและการกระจุกตัวของเทคโนโลยี
ทำไม benchmark ที่ดูดีมาก อาจไม่ได้บอกความจริงทั้งหมด
ในการเปิดตัวครั้งนี้ จุดขายด้าน coding ถูกเน้นอย่างหนัก และหนึ่งในตัวเลขที่โดดเด่นที่สุดคือคะแนนบน SWE-bench Pro ซึ่ง Fable 5 ทำได้สูงมาก
ปัญหาคือ benchmark นี้กำลังถูกตั้งคำถามมากขึ้นเรื่อย ๆ ทั้งเรื่องขนาดงานที่ไม่ใหญ่มากพอ และเรื่องการตรวจคำตอบที่อาจให้คะแนนพลาด นอกจากนี้ยังมีข้อกังวลเรื่อง benchmark contamination หรือการที่โมเดลเคยเห็นแนวทางคำตอบมาก่อนระหว่างการฝึกหรือสามารถไล่ดูประวัติใน repository จนเหมือนแอบเห็นเฉลย
มีรายงานว่าบางโมเดลสามารถค้นประวัติ git แล้วกู้แนวทางคำตอบจาก commit เก่าออกมาได้ แปลว่าคะแนนที่ดูสูงอาจไม่ได้เกิดจากการแก้ปัญหาอย่างแท้จริงทั้งหมด จึงควรติดดาวไว้ข้างตัวเลขเหล่านี้เสมอ
เพราะเหตุนี้ หลายคนจึงเริ่มหันไปดู benchmark ใหม่อย่าง DeepSWE มากขึ้น จุดเด่นของมันคือโจทย์ถูกเขียนขึ้นใหม่ ไม่ได้ดัดแปลงจากประวัติ commit เดิม ทำให้ลดความเสี่ยงเรื่องการปนเปื้อนจากข้อมูลฝึก
DeepSWE ยังออกแบบให้โจทย์ต้องใช้โค้ดจำนวนมากกว่า แม้ตัวคำสั่งโจทย์จะสั้นกว่า SWE-bench Pro ก็ตาม จึงนับว่าเป็นสนามทดสอบที่เข้มข้นและน่าเชื่อถือขึ้นสำหรับวัดความสามารถการเขียนโค้ดเชิง agent
อย่างไรก็ตาม ในช่วงเวลาที่กล่าวถึงนี้ ยังไม่มีตัวเลขเปรียบเทียบครบทุกโมเดล จึงยังเร็วเกินไปหากจะฟันธงว่า Fable 5 ทิ้งห่างทุกคู่แข่งแบบไร้ข้อกังขา
ถ้าดู leaderboard อื่น ๆ ภาพรวมเป็นอย่างไร
เมื่อขยับจาก benchmark เฉพาะทาง ไปดู scoreboard ที่รวมการประเมินหลายแบบ ภาพของ Fable 5 ยังค่อนข้างแข็งแรง โดยเฉพาะบนเว็บที่รวมผลหลาย benchmark เข้าด้วยกัน Fable 5 ขึ้นนำได้จริง แต่ต้องแลกกับต้นทุนที่สูงขึ้นอย่างชัดเจน
ขณะเดียวกัน บน arena leaderboard โมเดลนี้ทำผลงานดีมากในหมวด agent แต่ยังไม่ได้มีภาพชัดเท่ากันในหมวดข้อความทั่วไปหรือโค้ดแบบแยกเดี่ยว นี่สอดคล้องกับสิ่งที่หลายคนพบจากการใช้งานจริงว่า จุดเด่นแท้จริงของมันอยู่ในงานแบบหลายขั้นตอนและโปรเจกต์ใหญ่ มากกว่างานถามตอบทั่ว ๆ ไป
การทดสอบใช้งานจริงบอกอะไรบ้าง
เมื่อทดลองถามคำถามด้านชีววิทยาเกี่ยวกับการกลายพันธุ์ของยีน BRCA1 กับความเสี่ยงมะเร็งเต้านม ระบบให้คำตอบได้ แต่มีการสลับไปใช้ Opus แทน Fable 5 ซึ่งยืนยันว่ากลไก fallback สำหรับหัวข้ออ่อนไหวทำงานจริง
ในทางกลับกัน เมื่อลองสั่งให้สร้าง landing page รณรงค์เรื่องมะเร็งแบบง่าย ๆ ระบบกลับยังใช้ Fable 5 ได้ตามปกติ และสร้างหน้าเว็บที่ใช้งานได้จริง นั่นแปลว่าปัญหาไม่ได้อยู่ที่คำบางคำเพียงลำพัง แต่อยู่ที่วิธีที่ตัวจำแนกความเสี่ยงตีความทั้งคำสั่ง
ผลลัพธ์นี้สะท้อนสิ่งสำคัญมากข้อหนึ่ง คือระบบความปลอดภัยไม่ได้ตัดสินอย่างสม่ำเสมอเสมอไป ผู้ใช้จึงอาจเจอประสบการณ์ที่คาดเดายาก บางคำถามผ่าน บางคำถามถูกลดระดับ ทั้งที่อยู่ในหัวข้อใกล้เคียงกัน
ด้านการสร้างโค้ด Fable 5 น่าประทับใจจริงหรือไม่
ในการทดสอบอีกแบบ มีการสั่งให้สร้างเกมแนวเอาตัวรอดแบบ 3D ที่ได้รับแรงบันดาลใจจากเกมชื่อดัง โดยให้ระบบทำแบบรอบเดียว ผลที่ได้คือเกมต้นแบบที่เล่นได้จริง มีตัวละครเคลื่อนที่ ศัตรูไล่โจมตี ระบบเก็บค่าประสบการณ์ ระบบอัปเลเวล และความสามารถโจมตีอัตโนมัติ
งานนี้ใช้โทเคนมากกว่าหลักเก้าหมื่น และใช้เวลาประมวลผลราวหนึ่งชั่วโมง จึงตอกย้ำทั้งจุดแข็งและจุดอ่อนในเวลาเดียวกัน
- จุดแข็งคือ สามารถสร้างสิ่งที่เป็นรูปธรรมและเล่นได้จริงจากคำสั่งเดียว
- จุดอ่อนคือ ใช้เวลานานและต้นทุนสูงมาก
เมื่อดูจากผลลัพธ์ ตัวเกมไม่ได้สมบูรณ์ระดับเชิงพาณิชย์ แต่ก็เกินกว่าคำว่าเดโมพื้นฐานอย่างชัดเจน ความน่าสนใจไม่ได้อยู่แค่ภาพที่ออกมา แต่อยู่ที่การที่ระบบสามารถเชื่อมองค์ประกอบหลายอย่างเข้าด้วยกันจนเกิดวงจรการเล่นที่ใช้งานได้
แล้วควรมอง Fable 5 อย่างไรแบบไม่หลง hype
ถ้าตัดกระแสเกินจริงออกไป ภาพที่สมเหตุสมผลที่สุดคือ Fable 5 เป็น โมเดลสาธารณะที่ทรงพลังที่สุดของ Anthropic ในเวลานั้น โดยเฉพาะสำหรับงานโค้ด งาน agent และโปรเจกต์ใหญ่ที่ต้องปล่อยให้ AI ทำต่อเนื่องนาน ๆ
แต่ในขณะเดียวกัน มันก็เป็นโมเดลที่
- ราคาแพงกว่ารุ่นก่อนอย่างชัดเจน
- กินโทเคนมากจนไม่เหมาะกับงานประจำวัน
- ช้ากว่าโมเดลที่เน้นตอบไว
- มีระบบความปลอดภัยที่เข้มจนบางครั้งเกินพอดี
- ไม่ได้เปิดความสามารถเต็มแบบ Mythos ให้ผู้ใช้ทั่วไป
ดังนั้น การเรียกมันว่า AGI หรือมองว่าเป็นการเปิด frontier model แบบเต็มสู่สาธารณะ จึงเป็นการพูดเกินข้อเท็จจริง แต่การบอกว่าไม่มีอะไรน่าสนใจเลยก็ไม่ตรงเช่นกัน เพราะจากตัวอย่างใช้งานจริง มันแสดงให้เห็นชัดว่าโมเดลรุ่นนี้ขยับเส้นความเป็นไปได้ของงานอัตโนมัติด้านซอฟต์แวร์ไปอีกระดับ
บทสรุป
เรื่องของ Mythos 5 และ Fable 5 ไม่ได้มีคำตอบแบบขาวหรือดำ มันเป็นจริงพร้อมกันหลายด้าน
จริง ที่ Fable 5 น่าประทับใจมากในงานเขียนโค้ดและงาน agentic workflow
จริง ที่มันไม่ได้เปิดเต็มแบบ Mythos 5 ให้กับผู้ใช้ทั่วไป
จริง ที่ benchmark บางตัวอาจทำให้ภาพดูดีเกินจริง
จริง ที่มาตรการความปลอดภัยกำลังสร้างความหงุดหงิดให้ผู้ใช้จำนวนหนึ่ง
จริง ที่ประเด็นนี้โยงไปถึงคำถามใหญ่เรื่องการกระจุกตัวของอำนาจในวงการ AI
ถ้าจะประเมินโมเดลนี้อย่างยุติธรรมที่สุด ควรมองมันเป็นเครื่องมือเฉพาะทางระดับสูงสำหรับงานหนัก ไม่ใช่ตัวแทนของ AI ที่สมบูรณ์แบบในทุกมิติ และไม่ใช่ผลิตภัณฑ์ที่ปลอดจากข้อถกเถียง
ท้ายที่สุด สิ่งที่ Fable 5 ทำให้เห็นชัดคือ ระยะถัดไปของ AI จะไม่ได้แข่งขันกันแค่เรื่องว่าใครฉลาดกว่า แต่จะรวมถึงคำถามว่า ใครได้ใช้ความฉลาดระดับนั้น และ ภายใต้เงื่อนไขแบบไหน ด้วย
