เจาะ Mythos 5 vs Claude Fable 5: ทำไมคนสับสนและใช้งานจริงต่างกันอย่างไร
AI สรุป4 นาที
AI Recap

เจาะ Mythos 5 vs Claude Fable 5: ทำไมคนสับสนและใช้งานจริงต่างกันอย่างไร

ความจริงเกี่ยวกับ Anthropic Mythos 5 และ Claude Fable 5

Video RecapShip11 มิถุนายน 2569อัปเดตล่าสุด 30 มิถุนายน 2569อ่าน 4 นาที534 คำInsiderly AI
เหมาะกับคนที่
01

ต้องตามข่าว AI สำคัญแบบไม่เสียเวลาทั้งวัน

02

ต้องอธิบายประเด็นนี้ให้ทีมฟังแบบกระชับ

03

อยากแยกเรื่องที่ควรลงมือออกจากข่าวที่ผ่านไปเร็ว

สำหรับสมาชิก

สมาชิกได้อ่านต่อว่าเรื่องนี้ควรมองยังไง

เรื่องนี้สำคัญกับหมวด Ship แค่ไหน
ควรลองตอนนี้ หรือรอดูอีกสักพัก
เรื่องนี้อาจกระทบเครื่องมือและวิธีทำงานอย่างไร
ดูสิทธิ์สมาชิก
เจาะ Mythos 5 vs Claude Fable 5: ทำไมคนสับสนและใช้งานจริงต่างกันอย่างไร
ให้ AI ช่วยอ่านต่อ
แชร์

เปิดบทความนี้ต่อในเครื่องมือที่คุณใช้ แล้วให้ช่วยสรุปมุมที่ควรคุยกับทีม: ความจริงเกี่ยวกับ Anthropic Mythos 5 และ Claude Fable 5

สารบัญ
สรุปจากคลิป ดูคลิปต้นฉบับ

ความจริงเกี่ยวกับ Anthropic Mythos 5 และ Claude Fable 5

video thumbnail for
video thumbnail for

การเปิดตัวโมเดลใหม่ของ Anthropic ทำให้เกิดทั้งความตื่นเต้นและแรงต้านในเวลาเดียวกัน ฝั่งหนึ่งมองว่านี่คือเปลี่ยนเร็วครั้งใหญ่ของ AI โดยเฉพาะงานเขียนโค้ดและงานที่ซับซ้อนยาวนาน แต่อีกฝั่งมองว่านี่คือภาพสะท้อนของการควบคุมอำนาจ การปิดกั้นการเข้าถึง และการใส่ข้อจำกัดด้านความปลอดภัยที่มากเกินไป

ประเด็นสำคัญคือ หลายคนกำลังพูดถึง Mythos 5 ราวกับเป็นโมเดลเดียวกับที่ใช้งานได้ทั่วไป แต่สิ่งที่ผู้ใช้ส่วนใหญ่เข้าถึงจริงในตอนนี้คือ Claude Fable 5 ไม่ใช่ Mythos 5 แบบเต็มรูปแบบ แม้ทั้งสองจะมีรากฐานร่วมกัน แต่ระดับการเปิดใช้งานและข้อจำกัดต่างกันอย่างมีนัยสำคัญ

บทความนี้สรุปว่า Fable 5 คืออะไร เก่งแค่ไหน ทำไมถึงมีทั้งเสียงชมและเสียงวิจารณ์ พร้อมดูว่าข้อกล่าวอ้างเรื่องประสิทธิภาพ ความปลอดภัย ราคา และ benchmark ต่าง ๆ ควรถูกตีความอย่างไร

Fable 5 คืออะไร และต่างจาก Mythos 5 อย่างไร

Anthropic อธิบายว่ามีชั้นของโมเดลภายในที่เรียกว่า Mythos class ซึ่งอยู่เหนือระดับ Opus เดิม หมายความว่าในเชิงความสามารถ นี่คือกลุ่มโมเดลที่ถูกวางตำแหน่งให้เป็นรุ่นแนวหน้ากว่าเดิม และ Fable 5 คือโมเดลตัวแรกในชั้นนี้ที่ถูกปรับให้เหมาะกับการใช้งานทั่วไป

คำว่าเหมาะกับการใช้งานทั่วไปนี่เองที่กลายเป็นจุดถกเถียง เพราะไม่ได้หมายความว่าเปิดความสามารถทุกด้านให้ใช้เต็มที่ แต่หมายถึงผ่านการใส่มาตรการความปลอดภัยจำนวนมากจนพร้อมสำหรับผู้ใช้ในวงกว้าง

ดังนั้น หากสรุปแบบสั้นที่สุดคือ Fable 5 คือเวอร์ชันใช้งานสาธารณะของเทคโนโลยีระดับ Mythos ที่ถูกจำกัดบางส่วน ส่วน Mythos 5 เวอร์ชันที่ปลดข้อจำกัดบางด้านมากกว่า ยังถูกจำกัดสิทธิ์ไว้ให้กับกลุ่มพันธมิตรเฉพาะ เช่น ผู้เชี่ยวชาญด้านความมั่นคงไซเบอร์ หน่วยงานรัฐ และองค์กรที่ผ่านการคัดกรอง

นี่จึงเป็นจุดที่ทำให้หลายคนสับสน การประกาศครั้งนี้ไม่ได้แปลว่าโมเดล Mythos แบบเต็มถูกปล่อยสู่สาธารณะ สิ่งที่มาถึงมือผู้ใช้ทั่วไปคือโมเดลที่ใช้สมองชุดเดียวกันในระดับหนึ่ง แต่มีรั้วความปลอดภัยล้อมไว้มากกว่า

จุดเด่นที่ทำให้ Fable 5 ถูกพูดถึงมาก

สิ่งที่ทำให้ Fable 5 ได้รับความสนใจอย่างรวดเร็วคือความสามารถในการรับงานยาว งานใหญ่ และงานที่เดิมต้องใช้เวลาหลายสัปดาห์หรือหลายเดือน โดยเฉพาะงานพัฒนาโปรแกรมที่มีความซับซ้อนสูง

หนึ่งในตัวอย่างที่ถูกยกขึ้นมาคือการย้ายโค้ดทั้งฐานของระบบขนาดมหาศาลระดับหลายสิบล้านบรรทัดภายในเวลาประมาณหนึ่งวัน งานประเภทนี้ถ้าทำแบบเดิมอาจต้องใช้ทีมงานทำกันเป็นเดือน ตัวอย่างนี้สะท้อนแนวคิดหลักของ Fable 5 ได้ชัดเจนมากว่า มันไม่ได้ถูกออกแบบมาเพื่อถามตอบสั้น ๆ แต่ถูกออกแบบมาเพื่อรับงานหนักแล้วปล่อยให้ทำต่อเนื่องเป็นเวลานาน

ผู้ใช้งานกลุ่มที่ทดสอบจริงยังรายงานผลลัพธ์ที่น่าสนใจหลายแบบ เช่น

  • แก้ปัญหา bug backlog ที่ค้างอยู่ในระบบ production ได้เป็นก้อนใหญ่
  • สร้างเกม 3D ที่เล่นได้จากคำสั่งครั้งเดียว
  • สร้างแอนิเมชันขนาดสั้นโดยไม่ต้องแบ่งงานเป็นหลายรอบ
  • โคลนเกมหรือแอปต้นแบบในเวลาสั้นมาก
  • พัฒนาฟีเจอร์ซอฟต์แวร์แบบใกล้เคียงเรียลไทม์จากข้อมูลที่ได้ระหว่างการประชุม

จุดแข็งของโมเดลนี้จึงไม่ใช่แค่ตอบเก่งขึ้น แต่เป็นเรื่อง ความต่อเนื่องของการลงมือทำ และ ความสามารถในการจัดการงานขนาดใหญ่ในรอบเดียว ซึ่งต่างจากโมเดลที่เก่งเฉพาะงานย่อยหรือโต้ตอบสั้น ๆ

งานแบบไหนที่ Fable 5 โดดเด่นที่สุด

ถ้ามองจากตัวอย่างการใช้งานจริง งานที่ Fable 5 ดูจะโดดเด่นเป็นพิเศษมีอยู่ 3 กลุ่ม

1. งานเขียนโค้ดหลายไฟล์และหลายระบบ

ไม่ใช่แค่เขียนฟังก์ชันเล็ก ๆ หรือแก้บั๊กจุดเดียว แต่เป็นงานประเภทออกแบบระบบ ปรับโครงสร้างทั้งโปรเจกต์ สร้างเกมหรือแอปที่ใช้งานได้จริง และเชื่อมหลายองค์ประกอบเข้าด้วยกัน

2. งานที่ต้องใช้เหตุผลต่อเนื่องนาน

โมเดลนี้ดูเหมาะกับงานที่ต้องค่อย ๆ แตกปัญหา วางแผน ลงมือทำ ตรวจสอบ และไปต่อ โดยไม่ต้องให้มนุษย์เข้ามาช่วยทุกขั้นตอน

3. งานแบบ agentic workflow

นั่นคือการใช้ AI ทำงานเป็นลำดับขั้นเหมือนผู้ช่วยอัตโนมัติ ไม่ว่าจะเป็นค้นข้อมูล แก้ไฟล์ สร้างผลลัพธ์ และวนทำซ้ำหลายรอบ จุดนี้เองที่ทำให้ชื่อของ Fable 5 ไปโผล่บนอันดับต้น ๆ ของกลุ่ม benchmark ด้าน agents

แต่ข้อจำกัดก็ชัดเจนมากเช่นกัน

แม้ความสามารถจะน่าประทับใจ แต่ Fable 5 ไม่ใช่โมเดลสารพัดประโยชน์สำหรับทุกคน และไม่ใช่ตัวเลือกที่เหมาะกับทุกงาน

ข้อจำกัดที่ถูกพูดถึงบ่อยมีดังนี้

  • ช้า เมื่อเทียบกับโมเดลที่ตอบเร็วสำหรับงานประจำวัน
  • กินโทเคนมาก บางงานใช้โทเคนหลักหลายแสนถึงหลักล้าน
  • แพง ราคาอยู่ราว 10 ดอลลาร์ต่อหนึ่งล้าน input tokens และ 50 ดอลลาร์ต่อหนึ่งล้าน output tokens
  • เข้าถึงได้ชั่วคราวบนแพ็กเกจ และหลังจากช่วงเวลาหนึ่งต้องใช้เครดิตการใช้งานแทน
  • มีการกรองด้านความปลอดภัยเข้มมาก โดยเฉพาะหัวข้อชีววิทยา เคมี ความมั่นคงไซเบอร์ และเรื่องที่เกี่ยวกับการพัฒนาโมเดล AI

นั่นทำให้ Fable 5 ไม่เหมาะจะเป็นโมเดลหลักสำหรับงานทั่วไป เช่น ถามตอบข้อมูลประจำวัน เขียนข้อความสั้น หรือช่วยงานเบา ๆ เพราะจะเหมือนใช้เครื่องมือระดับหนักไปจัดการงานเล็กเกินความจำเป็น

ประเด็นร้อนที่สุดคือการสลับไปใช้โมเดลที่อ่อนกว่า

สิ่งที่ผู้ใช้หลายคนไม่พอใจไม่ใช่แค่การถูกปฏิเสธคำถาม แต่คือวิธีที่ระบบจัดการกับคำถามบางประเภท หากตัวตรวจจับภายในมองว่าคำถามไปแตะหัวข้อเสี่ยง เช่น ชีววิทยา ความปลอดภัยไซเบอร์ หรือเคมี ระบบอาจไม่ใช้ Fable 5 ตอบ แต่เปลี่ยนไปใช้โมเดลที่อ่อนกว่าคือ Opus แทน

Anthropic ระบุว่ากรณีแบบนี้เกิดขึ้นในสัดส่วนไม่สูงมาก และโดยทั่วไปจะมีการแจ้งเมื่อมีการสลับโมเดล แต่ปัญหาคือระบบกรองยังมีโอกาสสูงที่จะจับคำถามทั่วไปที่ไม่ได้อันตรายจริง

มีตัวอย่างที่ถูกหยิบยกขึ้นมาหลายแบบ เช่น คำถามด้านสุขภาพทั่วไป การอธิบายหน้าที่ของอวัยวะ หรือการวิเคราะห์ข้อมูลเลือด ซึ่งตามสามัญสำนึกแล้วไม่ควรถูกมองว่าเป็นภัย แต่ระบบก็ยังอาจมองว่าเกี่ยวข้องกับชีววิทยาและสลับไปใช้โมเดลอื่น

ด้านหนึ่ง บริษัทยอมรับเองว่าระบบป้องกันยังเข้มเกินไป และอาจเกิด false positive กับคำถามปกติได้ อีกด้านหนึ่ง สำหรับคนที่ทำงานสายสุขภาพ ชีววิทยา วิทยาศาสตร์ หรือการวิจัย AI เรื่องนี้ไม่ใช่ข้อเสียเล็กน้อย แต่เป็นอุปสรรคโดยตรง

ข้อจำกัดที่ซ่อนอยู่ในการพูดเรื่องการพัฒนาโมเดล AI

อีกประเด็นที่สำคัญมากคือ หากถามเรื่องการสร้างหรือเร่งการพัฒนา frontier LLM ระบบอาจไม่ได้ปฏิเสธอย่างเปิดเผยหรือแจ้งว่ากำลังใช้โมเดลอ่อนกว่า แต่จะลดประสิทธิภาพของคำตอบแบบเงียบ ๆ ผ่านกลไกภายใน เช่น การบังคับทิศทางหรือการปรับพฤติกรรมของโมเดล

ความต่างสำคัญคือ ผู้ใช้บางกรณีอาจไม่รู้เลยว่าคำตอบที่ได้ถูกทำให้อ่อนลงแล้ว เรื่องนี้ทำให้เกิดคำถามด้านความโปร่งใส เพราะผู้ใช้ไม่สามารถประเมินได้ตรง ๆ ว่ากำลังได้รับคำตอบจากความสามารถสูงสุดของโมเดลหรือไม่

นี่คือจุดที่การถกเถียงเปลี่ยนจากเรื่องผลิตภัณฑ์ไปสู่เรื่องโครงสร้างอำนาจในวงการ AI ทันที เพราะหากแล็บชั้นนำสามารถใช้โมเดลเต็มประสิทธิภาพกับงานวิจัยของตนเอง แต่ผู้เล่นรายอื่นถูกจำกัดความสามารถไม่ให้แข่งขันได้ ก็ย่อมเกิดคำถามเรื่องความเป็นธรรมและการกระจุกตัวของเทคโนโลยี

ทำไม benchmark ที่ดูดีมาก อาจไม่ได้บอกความจริงทั้งหมด

ในการเปิดตัวครั้งนี้ จุดขายด้าน coding ถูกเน้นอย่างหนัก และหนึ่งในตัวเลขที่โดดเด่นที่สุดคือคะแนนบน SWE-bench Pro ซึ่ง Fable 5 ทำได้สูงมาก

ปัญหาคือ benchmark นี้กำลังถูกตั้งคำถามมากขึ้นเรื่อย ๆ ทั้งเรื่องขนาดงานที่ไม่ใหญ่มากพอ และเรื่องการตรวจคำตอบที่อาจให้คะแนนพลาด นอกจากนี้ยังมีข้อกังวลเรื่อง benchmark contamination หรือการที่โมเดลเคยเห็นแนวทางคำตอบมาก่อนระหว่างการฝึกหรือสามารถไล่ดูประวัติใน repository จนเหมือนแอบเห็นเฉลย

มีรายงานว่าบางโมเดลสามารถค้นประวัติ git แล้วกู้แนวทางคำตอบจาก commit เก่าออกมาได้ แปลว่าคะแนนที่ดูสูงอาจไม่ได้เกิดจากการแก้ปัญหาอย่างแท้จริงทั้งหมด จึงควรติดดาวไว้ข้างตัวเลขเหล่านี้เสมอ

เพราะเหตุนี้ หลายคนจึงเริ่มหันไปดู benchmark ใหม่อย่าง DeepSWE มากขึ้น จุดเด่นของมันคือโจทย์ถูกเขียนขึ้นใหม่ ไม่ได้ดัดแปลงจากประวัติ commit เดิม ทำให้ลดความเสี่ยงเรื่องการปนเปื้อนจากข้อมูลฝึก

DeepSWE ยังออกแบบให้โจทย์ต้องใช้โค้ดจำนวนมากกว่า แม้ตัวคำสั่งโจทย์จะสั้นกว่า SWE-bench Pro ก็ตาม จึงนับว่าเป็นสนามทดสอบที่เข้มข้นและน่าเชื่อถือขึ้นสำหรับวัดความสามารถการเขียนโค้ดเชิง agent

อย่างไรก็ตาม ในช่วงเวลาที่กล่าวถึงนี้ ยังไม่มีตัวเลขเปรียบเทียบครบทุกโมเดล จึงยังเร็วเกินไปหากจะฟันธงว่า Fable 5 ทิ้งห่างทุกคู่แข่งแบบไร้ข้อกังขา

ถ้าดู leaderboard อื่น ๆ ภาพรวมเป็นอย่างไร

เมื่อขยับจาก benchmark เฉพาะทาง ไปดู scoreboard ที่รวมการประเมินหลายแบบ ภาพของ Fable 5 ยังค่อนข้างแข็งแรง โดยเฉพาะบนเว็บที่รวมผลหลาย benchmark เข้าด้วยกัน Fable 5 ขึ้นนำได้จริง แต่ต้องแลกกับต้นทุนที่สูงขึ้นอย่างชัดเจน

ขณะเดียวกัน บน arena leaderboard โมเดลนี้ทำผลงานดีมากในหมวด agent แต่ยังไม่ได้มีภาพชัดเท่ากันในหมวดข้อความทั่วไปหรือโค้ดแบบแยกเดี่ยว นี่สอดคล้องกับสิ่งที่หลายคนพบจากการใช้งานจริงว่า จุดเด่นแท้จริงของมันอยู่ในงานแบบหลายขั้นตอนและโปรเจกต์ใหญ่ มากกว่างานถามตอบทั่ว ๆ ไป

การทดสอบใช้งานจริงบอกอะไรบ้าง

เมื่อทดลองถามคำถามด้านชีววิทยาเกี่ยวกับการกลายพันธุ์ของยีน BRCA1 กับความเสี่ยงมะเร็งเต้านม ระบบให้คำตอบได้ แต่มีการสลับไปใช้ Opus แทน Fable 5 ซึ่งยืนยันว่ากลไก fallback สำหรับหัวข้ออ่อนไหวทำงานจริง

ในทางกลับกัน เมื่อลองสั่งให้สร้าง landing page รณรงค์เรื่องมะเร็งแบบง่าย ๆ ระบบกลับยังใช้ Fable 5 ได้ตามปกติ และสร้างหน้าเว็บที่ใช้งานได้จริง นั่นแปลว่าปัญหาไม่ได้อยู่ที่คำบางคำเพียงลำพัง แต่อยู่ที่วิธีที่ตัวจำแนกความเสี่ยงตีความทั้งคำสั่ง

ผลลัพธ์นี้สะท้อนสิ่งสำคัญมากข้อหนึ่ง คือระบบความปลอดภัยไม่ได้ตัดสินอย่างสม่ำเสมอเสมอไป ผู้ใช้จึงอาจเจอประสบการณ์ที่คาดเดายาก บางคำถามผ่าน บางคำถามถูกลดระดับ ทั้งที่อยู่ในหัวข้อใกล้เคียงกัน

ด้านการสร้างโค้ด Fable 5 น่าประทับใจจริงหรือไม่

ในการทดสอบอีกแบบ มีการสั่งให้สร้างเกมแนวเอาตัวรอดแบบ 3D ที่ได้รับแรงบันดาลใจจากเกมชื่อดัง โดยให้ระบบทำแบบรอบเดียว ผลที่ได้คือเกมต้นแบบที่เล่นได้จริง มีตัวละครเคลื่อนที่ ศัตรูไล่โจมตี ระบบเก็บค่าประสบการณ์ ระบบอัปเลเวล และความสามารถโจมตีอัตโนมัติ

งานนี้ใช้โทเคนมากกว่าหลักเก้าหมื่น และใช้เวลาประมวลผลราวหนึ่งชั่วโมง จึงตอกย้ำทั้งจุดแข็งและจุดอ่อนในเวลาเดียวกัน

  • จุดแข็งคือ สามารถสร้างสิ่งที่เป็นรูปธรรมและเล่นได้จริงจากคำสั่งเดียว
  • จุดอ่อนคือ ใช้เวลานานและต้นทุนสูงมาก

เมื่อดูจากผลลัพธ์ ตัวเกมไม่ได้สมบูรณ์ระดับเชิงพาณิชย์ แต่ก็เกินกว่าคำว่าเดโมพื้นฐานอย่างชัดเจน ความน่าสนใจไม่ได้อยู่แค่ภาพที่ออกมา แต่อยู่ที่การที่ระบบสามารถเชื่อมองค์ประกอบหลายอย่างเข้าด้วยกันจนเกิดวงจรการเล่นที่ใช้งานได้

แล้วควรมอง Fable 5 อย่างไรแบบไม่หลง hype

ถ้าตัดกระแสเกินจริงออกไป ภาพที่สมเหตุสมผลที่สุดคือ Fable 5 เป็น โมเดลสาธารณะที่ทรงพลังที่สุดของ Anthropic ในเวลานั้น โดยเฉพาะสำหรับงานโค้ด งาน agent และโปรเจกต์ใหญ่ที่ต้องปล่อยให้ AI ทำต่อเนื่องนาน ๆ

แต่ในขณะเดียวกัน มันก็เป็นโมเดลที่

  • ราคาแพงกว่ารุ่นก่อนอย่างชัดเจน
  • กินโทเคนมากจนไม่เหมาะกับงานประจำวัน
  • ช้ากว่าโมเดลที่เน้นตอบไว
  • มีระบบความปลอดภัยที่เข้มจนบางครั้งเกินพอดี
  • ไม่ได้เปิดความสามารถเต็มแบบ Mythos ให้ผู้ใช้ทั่วไป

ดังนั้น การเรียกมันว่า AGI หรือมองว่าเป็นการเปิด frontier model แบบเต็มสู่สาธารณะ จึงเป็นการพูดเกินข้อเท็จจริง แต่การบอกว่าไม่มีอะไรน่าสนใจเลยก็ไม่ตรงเช่นกัน เพราะจากตัวอย่างใช้งานจริง มันแสดงให้เห็นชัดว่าโมเดลรุ่นนี้ขยับเส้นความเป็นไปได้ของงานอัตโนมัติด้านซอฟต์แวร์ไปอีกระดับ

บทสรุป

เรื่องของ Mythos 5 และ Fable 5 ไม่ได้มีคำตอบแบบขาวหรือดำ มันเป็นจริงพร้อมกันหลายด้าน

จริง ที่ Fable 5 น่าประทับใจมากในงานเขียนโค้ดและงาน agentic workflow

จริง ที่มันไม่ได้เปิดเต็มแบบ Mythos 5 ให้กับผู้ใช้ทั่วไป

จริง ที่ benchmark บางตัวอาจทำให้ภาพดูดีเกินจริง

จริง ที่มาตรการความปลอดภัยกำลังสร้างความหงุดหงิดให้ผู้ใช้จำนวนหนึ่ง

จริง ที่ประเด็นนี้โยงไปถึงคำถามใหญ่เรื่องการกระจุกตัวของอำนาจในวงการ AI

ถ้าจะประเมินโมเดลนี้อย่างยุติธรรมที่สุด ควรมองมันเป็นเครื่องมือเฉพาะทางระดับสูงสำหรับงานหนัก ไม่ใช่ตัวแทนของ AI ที่สมบูรณ์แบบในทุกมิติ และไม่ใช่ผลิตภัณฑ์ที่ปลอดจากข้อถกเถียง

ท้ายที่สุด สิ่งที่ Fable 5 ทำให้เห็นชัดคือ ระยะถัดไปของ AI จะไม่ได้แข่งขันกันแค่เรื่องว่าใครฉลาดกว่า แต่จะรวมถึงคำถามว่า ใครได้ใช้ความฉลาดระดับนั้น และ ภายใต้เงื่อนไขแบบไหน ด้วย

อ่านต่อ

บทความที่ควรอ่านต่อ

อ่านหมวด Ship ต่อ →
หรือ
§ 05 · จดหมายข่าว

สรุป AI ส่งทางอีเมล

1,200+ builders อ่านทุกสัปดาห์ · ส่งทุกเช้า · ยกเลิกได้ทุกเมื่อ · ไม่ส่งถี่ให้รกกล่อง

สมัครรับฟรี

ข่าวสำคัญพร้อมคำอธิบายสั้น ๆ ว่าเรื่องนี้เกี่ยวกับเราอย่างไร ส่งให้อ่านต่อได้ทันที

อ่านฟรียกเลิกได้ทุกเมื่อ