Introducing GPT-5: ก้าวใหม่ของ AI ที่ฉลาดและเก่งกว่าเดิม
พบกับ GPT-5 รุ่นล่าสุดจาก OpenAI ที่พัฒนา AI ให้ฉลาดขึ้น รวดเร็วขึ้น และน่าเชื่อถือมากกว่าเดิม พร้อมความสามารถ reasoning, การสร้างซอฟต์แวร์ และใช้งานฟรีผ่าน ChatGPT
เจาะลึกแนวโน้มการประเมินผล AI ในปี 2025 ที่จะเปลี่ยนวิธีการบริหารและตัดสินใจในองค์กร ด้วยบทวิเคราะห์จาก John Dickerson ซีอีโอ Mozilla AI ถึงบทบาทสำคัญของ Agentic AI และความจำเป็นของการประเมินผล AI อย่างละเอียด
เพิ่งได้ชมคลิปวิดีโอจาก John Dickerson ซีอีโอของ Mozilla AI ที่พูดถึงภาพรวมของวงการ AI และเทคโนโลยีการประเมินผลหรือที่เรียกกันว่า “evals” ซึ่งเขามองว่า ปี 2025 จะเป็นปีที่การประเมินผล AI จะกลายเป็นเรื่องสำคัญและจำเป็นสำหรับทุกองค์กรอย่างแท้จริง ไม่ใช่แค่ในวงการเทคนิค แต่กระโดดเข้าสู่การตัดสินใจของผู้บริหารระดับสูงในองค์กรต่างๆ อย่าง CEO, CFO, CISO และอื่นๆ
ในบทความนี้ เราจะเจาะลึกถึงประเด็นหลักที่ John Dickerson ได้นำเสนอ วิเคราะห์ถึงความเปลี่ยนแปลงที่เกิดขึ้นในวงการ AI ตั้งแต่ยุคก่อน ChatGPT จนถึงยุคของระบบ Agentic AI ที่เริ่มมีบทบาทในองค์กร รวมถึงผลกระทบที่ทำให้การประเมินผล AI กลายเป็นหัวข้อที่ทุกฝ่ายในองค์กรต้องให้ความสนใจอย่างเร่งด่วน
John เริ่มต้นด้วยการเล่าว่าในช่วงหลายปีที่ผ่านมาที่เขาได้ทำงานในวงการนี้ ทั้งในบทบาทผู้ร่วมก่อตั้งและหัวหน้าฝ่ายวิทยาศาสตร์ของ Arthur AI และปัจจุบันในตำแหน่ง CEO ของ Mozilla AI เขาเห็นภาพรวมของ AI/ML Monitoring และ Evaluation ว่าเป็นสองด้านของเหรียญเดียวกัน เหมือนกับไม้บรรทัดที่ต้องมีการวัดเพื่อที่จะสังเกตการณ์และควบคุมคุณภาพของระบบ AI ให้ได้ผลลัพธ์ที่น่าเชื่อถือ
Monitoring หรือการสังเกตการณ์ระบบ AI คือการติดตามความผิดปกติหรือความเปลี่ยนแปลงในระบบ เช่น การตรวจจับการเบี่ยงเบนของข้อมูล (data drift) หรือผลลัพธ์ที่ผิดปกติ แต่ทั้งหมดนี้จะไม่เกิดประโยชน์หากไม่มีการวัดผล (Evaluation) ที่ชัดเจนและเที่ยงตรงเพื่อประเมินคุณภาพและประสิทธิภาพของโมเดล AI นั่นเอง
ที่ผ่านมา แม้หลายองค์กรจะมีระบบ Monitoring อยู่บ้าง แต่การเชื่อมโยงผลลัพธ์ของ AI กับตัวชี้วัดทางธุรกิจ (KPI) ยังไม่ชัดเจน และยังไม่เคยเป็นเรื่องที่ผู้บริหารระดับสูงอย่าง CEO หรือ CFO ให้ความสนใจอย่างจริงจัง จนกระทั่งเกิดเหตุการณ์สำคัญ 3 อย่างที่เปลี่ยนเกมนี้ไปอย่างสิ้นเชิง
John ชี้ให้เห็นว่า มีสามปัจจัยหลักที่ทำให้เรื่องการประเมินผล AI กลายเป็นประเด็นร้อนแรงในปี 2025 นี้
ทั้งสามเหตุการณ์นี้ทำให้การประเมินผล AI ไม่ใช่เรื่องของเฉพาะทีมเทคนิคอีกต่อไป แต่กลายเป็นประเด็นที่ทุกฝ่ายในองค์กรต้องจับตามองอย่างใกล้ชิด
คำว่า “Agent” ในบริบทของ AI หมายถึงระบบที่สามารถรับรู้สิ่งแวดล้อม เรียนรู้จากข้อมูลที่ได้รับ และสามารถวางแผน ตัดสินใจ รวมถึงลงมือทำในโลกเสมือนจริงหรือโลกกายภาพได้ แตกต่างจากโมเดล AI แบบเดิมที่เพียงแค่ประมวลผลข้อมูลและส่งผลลัพธ์กลับมา
John ย้ำว่า ปี 2025 นี้คือ “ปีแห่ง Agent” อย่างแท้จริง เพราะระบบ Agentic AI เริ่มถูกนำไปใช้งานในองค์กรธุรกิจทั้งขนาดใหญ่และขนาดกลาง รวมถึงโปรเจกต์ทดลองต่างๆ ที่แสดงให้เห็นศักยภาพในการทำงานแบบอัตโนมัติหรือกึ่งอัตโนมัติ
ระบบ Agentic AI ที่มีความซับซ้อนสูงนี้ นำมาซึ่งความเสี่ยงใหม่ๆ ที่จำเป็นต้องมีการประเมินผลอย่างละเอียด เพื่อป้องกันความเสียหายที่อาจเกิดขึ้นและเพิ่มความเชื่อมั่นให้กับผู้ใช้และผู้บริหารในองค์กร
ย้อนกลับไปก่อนเดือนพฤศจิกายน 2022 ก่อนที่ ChatGPT จะเปิดตัวอย่างเป็นทางการ ทีมวิทยาศาสตร์ข้อมูลและวิศวกรรม AI ในองค์กรส่วนใหญ่ยังใช้วิธีการทางสถิติเพื่อสังเกตการณ์และติดตามระบบ AI แต่การเชื่อมโยงข้อมูลเหล่านี้กับผลลัพธ์ทางธุรกิจนั้นยังไม่ชัดเจน
John ชี้ว่ามีการพูดถึงเรื่อง ROI ของ AI/ML ในระดับผู้บริหารบ้าง แต่ยังเป็นเพียงคำพูดเพื่อความสวยงามเท่านั้น การตัดสินใจลงทุนยังอยู่ในมือของ CIO และทีมเทคนิคเป็นหลัก ทำให้การประเมินผล AI ไม่เคยถูกหยิบยกขึ้นมาเป็นหัวข้อหลักในระดับ CEO หรือ CFO
ในช่วงปี 2012 เป็นต้นมา เริ่มมีบริษัทหลายแห่งในสาย AI Monitoring และ Evaluation เกิดขึ้น เช่น H2O.ai, Algorithmia, Celdon, Y Labs, Aporia, Arise, Arthur, Galileo, Fiddler และ Protect AI รวมถึงโซลูชันจากบริษัทใหญ่ๆ อย่าง Snowflake, Databricks, Datadog, SageMaker, Vertex และ Microsoft
แต่ถึงแม้ว่าจะมีเทคโนโลยีและบริษัทเหล่านี้ พวกเขายังไม่เคยกลายเป็นเรื่องที่ “ต้องซื้อ” จากผู้บริหารระดับสูงจริงๆ เพราะยังไม่ได้เชื่อมโยงกับความเสี่ยงหรือผลตอบแทนที่จับต้องได้อย่างชัดเจน
John เล่าถึงสถานการณ์เศรษฐกิจในช่วงปลายปี 2022 ที่มีความกังวลเรื่องภาวะถดถอยมากขึ้น ส่งผลให้องค์กรต่างๆ ต้องแช่แข็งหรือหดงบประมาณด้าน IT สำหรับปี 2023 อย่างไรก็ตาม การมาของ ChatGPT กลับเป็นจุดเปลี่ยนที่ทำให้เงินทุนถูกปล่อยออกมาในโครงการ Generative AI แม้จะเป็นจำนวนเงินที่จำกัด แต่ก็เป็น “โครงการโปรด” ของ CEO และ CFO
การเปิดตัวของ ChatGPT ทำให้ AI กลายเป็นเรื่องที่ “จับต้องได้” และเข้าใจง่ายสำหรับผู้บริหารระดับสูง แม้พวกเขาอาจไม่เข้าใจเทคนิคลึกซึ้ง แต่ก็สามารถทดลองและเห็นศักยภาพของ AI ผ่านการใช้งานจริงได้ทันที
ในปี 2023 องค์กรส่วนใหญ่ยังอยู่ในช่วงทดลองและวิจัย AI โดยเฉพาะ Generative AI ซึ่งได้รับงบประมาณสนับสนุนอย่างชัดเจน แต่ในปี 2024 เริ่มเห็นการนำระบบ AI เหล่านี้ไปใช้งานจริงในองค์กร เช่น การใช้แชทบอทภายในองค์กร หรือเครื่องมือช่วยสรรหาบุคลากร ความสนใจจากผู้บริหารระดับสูงเริ่มเพิ่มขึ้น โดยเฉพาะในเรื่องของการวัดผลตอบแทนจากการลงทุน (ROI) การควบคุมความเสี่ยง และการปฏิบัติตามกฎระเบียบต่างๆ
นี่คือช่วงเวลาที่การประเมินผล AI เริ่มกลายเป็นเรื่องที่ “ถูกถาม” จากฝ่ายธุรกิจและผู้บริหารมากขึ้น ไม่ใช่แค่ทีมเทคนิคที่เป็นผู้ดูแลเพียงอย่างเดียว
John เน้นว่าปี 2025 คือปีที่ AI และโมเดลระดับ Frontier กำลังเติบโตอย่างรวดเร็ว รายได้และการใช้งานพุ่งสูงขึ้นมาก และที่สำคัญคือการที่ผู้บริหารระดับสูงในองค์กรเริ่มเปิดใจและให้ความสำคัญกับการลงทุนใน AI อย่างจริงจัง
งบประมาณ IT ที่เคยถูกแช่แข็งในปี 2023 กลับมาเปิดกว้างและถูกจัดสรรให้กับโครงการ AI อย่างชัดเจนในปี 2024 และ 2025 ระบบ AI ที่เคยเป็นแค่โปรเจกต์ทดลองในปี 2023 กำลังถูกใช้งานจริงและขยายผลในปี 2024 และ 2025
นอกจากนี้ เทคโนโลยี AI เองก็พัฒนาขึ้นอย่างรวดเร็ว และได้รับการสนับสนุนจากชุมชนโอเพนซอร์ส นักลงทุน และบริษัทเทคโนโลยีรายใหญ่ ทำให้ทุกองค์ประกอบพร้อมสำหรับการเติบโตในปี 2025
John ให้คำจำกัดความของ Agent AI ว่าเป็นระบบที่ต้องทำได้มากกว่าการเรียนรู้ข้อมูล คือสามารถรับรู้สิ่งแวดล้อม เรียนรู้ สร้างนามธรรมและทั่วไป และที่สำคัญคือสามารถ reason และ act หรือคิดและลงมือทำได้ ต่างจากโมเดล AI แบบเดิมที่เน้นแค่การประมวลผลข้อมูล
Agentic AI สามารถทำงานในสภาพแวดล้อมเสมือนจริงหรือโลกกายภาพได้ ซึ่งความซับซ้อนและความเสี่ยงที่เพิ่มขึ้นเหล่านี้ ทำให้การประเมินผล AI ต้องละเอียดและเข้มงวดมากขึ้น เพื่อให้มั่นใจว่าระบบจะทำงานได้อย่างปลอดภัยและน่าเชื่อถือ
John เน้นย้ำว่าการขายผลิตภัณฑ์ AI ในองค์กร ไม่ว่าจะเป็นองค์กรขนาดใหญ่หรือ SMB ต้องสามารถเชื่อมโยงกับตัวชี้วัดทางธุรกิจ เช่น การลดความเสี่ยง การเพิ่มรายได้ หรือการลดต้นทุนได้อย่างชัดเจน
การประเมินผล AI จึงไม่ใช่แค่เรื่องเทคนิค แต่กลายเป็นหัวข้อแรกที่ถูกหยิบยกขึ้นมาพูดคุยในระดับผู้บริหาร เพราะต้องมีตัวเลขที่ชัดเจนในการวัดผลและจัดสรรงบประมาณ
John แบ่งบทบาทของผู้บริหารระดับสูงในองค์กรที่เกี่ยวข้องกับ AI ออกเป็นหลายฝ่าย ได้แก่
ความเปลี่ยนแปลงนี้ทำให้ทุกฝ่ายใน C-suite เห็นตรงกันว่าการประเมินผล AI เป็นสิ่งจำเป็นและต้องร่วมมือกันเพื่อให้เกิดความมั่นใจในระบบ AI ขององค์กร
หนึ่งในเทรนด์ใหญ่ที่ John เน้นคือการเปลี่ยนจากการประเมินโมเดล AI เดี่ยวๆ ไปสู่การประเมินระบบ Multi-Agent หรือระบบที่มี Agent หลายตัวทำงานร่วมกัน
การประเมินผลในยุคนี้ต้องครอบคลุมทั้งระบบ ไม่ใช่แค่โมเดลเดียว เพื่อให้เห็นภาพรวมของความเสี่ยงและประสิทธิภาพอย่างแท้จริง โดยเฉพาะในบริบทขององค์กรและรัฐบาลที่เริ่มให้ความสำคัญกับเรื่องนี้มากขึ้น
John กล่าวถึงข้อมูลที่หลุดออกมาในช่วงเดือนเมษายน 2025 จากสำนักข่าว The Information ที่เผยรายได้ของสตาร์ทอัพในสาย Evaluation เช่น Weights and Biases, Galileo, Braintrust ซึ่งรายได้เหล่านี้ล่าช้ากว่าความเป็นจริงประมาณ 6-8 เดือน
เขาคาดว่าในปี 2026 จะเห็นรายได้และการเติบโตของบริษัทในสายนี้เพิ่มขึ้นอย่างรวดเร็ว เพราะปี 2025 คือปีที่ตลาด AI Evaluation เริ่มถือเป็น “ของจริง” และกลายเป็นธุรกิจที่ต้องจับตามองอย่างมาก
หนึ่งในประเด็นที่น่าสนใจคือการประเมินระบบ Multi-Agent ในงานเฉพาะด้าน เช่น การวิเคราะห์การลงทุนทางการเงิน หรือการทำแบบจำลองกระแสเงินสด (Discounted Cash Flow) ซึ่งต้องการความเชี่ยวชาญเฉพาะทาง
John ยอมรับว่าแม้จะมีความท้าทายมาก แต่ในทางปฏิบัติ องค์กรใหญ่ๆ อย่าง Google, Meta หรือธนาคารชั้นนำ มักจ้างผู้เชี่ยวชาญมาช่วยตรวจสอบและประเมินระบบเหล่านี้ควบคู่กับ AI เพื่อให้มั่นใจว่าผลลัพธ์ถูกต้องและลดความเสี่ยง
แม้จะมีค่าใช้จ่ายสูง แต่ก็ถือว่าคุ้มค่าในบริบทที่ความผิดพลาดอาจทำให้องค์กรเสียหายหนักหรือเสียตำแหน่งงานได้ในอนาคต John ยังตั้งคำถามเปิดว่าในอีก 5 ปีข้างหน้า ข้อมูลและความรู้จากผู้เชี่ยวชาญเหล่านี้จะถูกรวมเข้าไปในระบบ AI เองมากขึ้นหรือไม่ ซึ่งจะช่วยลดค่าใช้จ่ายและเพิ่มความแม่นยำได้
อีกคำถามที่ได้รับคือความเป็นไปได้ของการใช้ Large Language Models (LLMs) เป็น “ผู้ตัดสิน” หรือผู้ประเมินผล AI เอง John ตอบว่าปัจจุบันมีการใช้งานแนวคิดนี้อยู่จริงในบางผลิตภัณฑ์ และช่วยแก้ปัญหาการสร้างชุดข้อมูลสำหรับการประเมินได้ในระดับหนึ่ง
แต่ยังมีข้อจำกัด เช่น อคติที่ LLMs มีเมื่อเทียบกับมนุษย์ และความแตกต่างในการประเมินเรื่องเช่น ความกระชับหรือความช่วยเหลือที่เหมาะสม จึงยังต้องมีการตรวจสอบและปรับปรุงอย่างต่อเนื่อง
เมื่อพิจารณาภาพรวมทั้งหมด เราจะเห็นว่า AI Evaluation ไม่ใช่แค่เรื่องของนักวิทยาศาสตร์ข้อมูลหรือวิศวกรเท่านั้น แต่กลายเป็นหัวใจสำคัญในการตัดสินใจลงทุนและบริหารจัดการความเสี่ยงขององค์กรในยุค AI ที่กำลังเติบโตอย่างรวดเร็วนี้
สำหรับผู้ที่สนใจทดลองเล่นระบบ Multi-Agent AI สามารถดูโครงการ open source จาก Mozilla AI ชื่อ AnyAgent ที่รวบรวม framework ต่างๆ มาไว้ในที่เดียวกัน เป็นโอกาสดีที่ได้ทดลองและเรียนรู้เทคโนโลยีนี้ในทางปฏิบัติ