ปี 2025 กับการพลิกโฉมการประเมินผล AI ที่องค์กรต้องจับตามอง

เพิ่งได้ชมคลิปวิดีโอจาก John Dickerson ซีอีโอของ Mozilla AI ที่พูดถึงภาพรวมของวงการ AI และเทคโนโลยีการประเมินผลหรือที่เรียกกันว่า “evals” ซึ่งเขามองว่า ปี 2025 จะเป็นปีที่การประเมินผล AI จะกลายเป็นเรื่องสำคัญและจำเป็นสำหรับทุกองค์กรอย่างแท้จริง ไม่ใช่แค่ในวงการเทคนิค แต่กระโดดเข้าสู่การตัดสินใจของผู้บริหารระดับสูงในองค์กรต่างๆ อย่าง CEO, CFO, CISO และอื่นๆ

ในบทความนี้ เราจะเจาะลึกถึงประเด็นหลักที่ John Dickerson ได้นำเสนอ วิเคราะห์ถึงความเปลี่ยนแปลงที่เกิดขึ้นในวงการ AI ตั้งแต่ยุคก่อน ChatGPT จนถึงยุคของระบบ Agentic AI ที่เริ่มมีบทบาทในองค์กร รวมถึงผลกระทบที่ทำให้การประเมินผล AI กลายเป็นหัวข้อที่ทุกฝ่ายในองค์กรต้องให้ความสนใจอย่างเร่งด่วน

AI/ML Monitoring และ Evaluation คือสองด้านของเหรียญเดียวกัน

John เริ่มต้นด้วยการเล่าว่าในช่วงหลายปีที่ผ่านมาที่เขาได้ทำงานในวงการนี้ ทั้งในบทบาทผู้ร่วมก่อตั้งและหัวหน้าฝ่ายวิทยาศาสตร์ของ Arthur AI และปัจจุบันในตำแหน่ง CEO ของ Mozilla AI เขาเห็นภาพรวมของ AI/ML Monitoring และ Evaluation ว่าเป็นสองด้านของเหรียญเดียวกัน เหมือนกับไม้บรรทัดที่ต้องมีการวัดเพื่อที่จะสังเกตการณ์และควบคุมคุณภาพของระบบ AI ให้ได้ผลลัพธ์ที่น่าเชื่อถือ

Monitoring หรือการสังเกตการณ์ระบบ AI คือการติดตามความผิดปกติหรือความเปลี่ยนแปลงในระบบ เช่น การตรวจจับการเบี่ยงเบนของข้อมูล (data drift) หรือผลลัพธ์ที่ผิดปกติ แต่ทั้งหมดนี้จะไม่เกิดประโยชน์หากไม่มีการวัดผล (Evaluation) ที่ชัดเจนและเที่ยงตรงเพื่อประเมินคุณภาพและประสิทธิภาพของโมเดล AI นั่นเอง

ที่ผ่านมา แม้หลายองค์กรจะมีระบบ Monitoring อยู่บ้าง แต่การเชื่อมโยงผลลัพธ์ของ AI กับตัวชี้วัดทางธุรกิจ (KPI) ยังไม่ชัดเจน และยังไม่เคยเป็นเรื่องที่ผู้บริหารระดับสูงอย่าง CEO หรือ CFO ให้ความสนใจอย่างจริงจัง จนกระทั่งเกิดเหตุการณ์สำคัญ 3 อย่างที่เปลี่ยนเกมนี้ไปอย่างสิ้นเชิง

สามเหตุการณ์เปลี่ยนโฉมหน้าการประเมินผล AI

John ชี้ให้เห็นว่า มีสามปัจจัยหลักที่ทำให้เรื่องการประเมินผล AI กลายเป็นประเด็นร้อนแรงในปี 2025 นี้

AI กลายเป็นเรื่องที่ผู้บริหารระดับสูงเข้าใจได้ – การมาของ ChatGPT ทำให้ CEO, CFO, CISO รวมถึงผู้ที่ไม่ใช่ผู้เชี่ยวชาญด้านเทคนิค สามารถทดลองและเห็นศักยภาพของ AI ด้วยตัวเองผ่านอินเตอร์เฟซที่ใช้งานง่าย
การแช่แข็งงบประมาณ IT ในองค์กร – ช่วงปลายปี 2022 ที่หลายองค์กรในสหรัฐอเมริกาประสบปัญหาความไม่แน่นอนทางเศรษฐกิจและความกลัวว่าจะเกิดภาวะถดถอย ส่งผลให้มีการแช่แข็งงบประมาณ แต่เงินที่ถูกปล่อยออกมาเป็นพิเศษจะต้องเป็นโครงการที่ได้รับความสนใจจาก CEO และ CFO ซึ่งในเวลานั้นคือโครงการที่เกี่ยวกับ Generative AI
ระบบ AI ที่ทำงานแทนมนุษย์ มีบทบาทมากขึ้น – AI ไม่ได้เป็นแค่ตัวช่วยในการคำนวณหรือวิเคราะห์ข้อมูลเท่านั้น แต่กำลังกลายเป็นระบบที่ตัดสินใจและลงมือทำงานแทนมนุษย์หรือทีมงานในองค์กร ส่งผลให้ความเสี่ยงและความซับซ้อนของระบบเพิ่มขึ้นอย่างมหาศาล

ทั้งสามเหตุการณ์นี้ทำให้การประเมินผล AI ไม่ใช่เรื่องของเฉพาะทีมเทคนิคอีกต่อไป แต่กลายเป็นประเด็นที่ทุกฝ่ายในองค์กรต้องจับตามองอย่างใกล้ชิด

ปีแห่ง Agent: AI ที่ตัดสินใจและลงมือทำได้เอง

คำว่า “Agent” ในบริบทของ AI หมายถึงระบบที่สามารถรับรู้สิ่งแวดล้อม เรียนรู้จากข้อมูลที่ได้รับ และสามารถวางแผน ตัดสินใจ รวมถึงลงมือทำในโลกเสมือนจริงหรือโลกกายภาพได้ แตกต่างจากโมเดล AI แบบเดิมที่เพียงแค่ประมวลผลข้อมูลและส่งผลลัพธ์กลับมา

John ย้ำว่า ปี 2025 นี้คือ “ปีแห่ง Agent” อย่างแท้จริง เพราะระบบ Agentic AI เริ่มถูกนำไปใช้งานในองค์กรธุรกิจทั้งขนาดใหญ่และขนาดกลาง รวมถึงโปรเจกต์ทดลองต่างๆ ที่แสดงให้เห็นศักยภาพในการทำงานแบบอัตโนมัติหรือกึ่งอัตโนมัติ

ระบบ Agentic AI ที่มีความซับซ้อนสูงนี้ นำมาซึ่งความเสี่ยงใหม่ๆ ที่จำเป็นต้องมีการประเมินผลอย่างละเอียด เพื่อป้องกันความเสียหายที่อาจเกิดขึ้นและเพิ่มความเชื่อมั่นให้กับผู้ใช้และผู้บริหารในองค์กร

ก่อน ChatGPT: AI Monitoring ยังไม่เข้าใจง่ายและไม่เชื่อมโยงกับธุรกิจ

ย้อนกลับไปก่อนเดือนพฤศจิกายน 2022 ก่อนที่ ChatGPT จะเปิดตัวอย่างเป็นทางการ ทีมวิทยาศาสตร์ข้อมูลและวิศวกรรม AI ในองค์กรส่วนใหญ่ยังใช้วิธีการทางสถิติเพื่อสังเกตการณ์และติดตามระบบ AI แต่การเชื่อมโยงข้อมูลเหล่านี้กับผลลัพธ์ทางธุรกิจนั้นยังไม่ชัดเจน

John ชี้ว่ามีการพูดถึงเรื่อง ROI ของ AI/ML ในระดับผู้บริหารบ้าง แต่ยังเป็นเพียงคำพูดเพื่อความสวยงามเท่านั้น การตัดสินใจลงทุนยังอยู่ในมือของ CIO และทีมเทคนิคเป็นหลัก ทำให้การประเมินผล AI ไม่เคยถูกหยิบยกขึ้นมาเป็นหัวข้อหลักในระดับ CEO หรือ CFO

ในช่วงปี 2012 เป็นต้นมา เริ่มมีบริษัทหลายแห่งในสาย AI Monitoring และ Evaluation เกิดขึ้น เช่น H2O.ai, Algorithmia, Celdon, Y Labs, Aporia, Arise, Arthur, Galileo, Fiddler และ Protect AI รวมถึงโซลูชันจากบริษัทใหญ่ๆ อย่าง Snowflake, Databricks, Datadog, SageMaker, Vertex และ Microsoft

แต่ถึงแม้ว่าจะมีเทคโนโลยีและบริษัทเหล่านี้ พวกเขายังไม่เคยกลายเป็นเรื่องที่ “ต้องซื้อ” จากผู้บริหารระดับสูงจริงๆ เพราะยังไม่ได้เชื่อมโยงกับความเสี่ยงหรือผลตอบแทนที่จับต้องได้อย่างชัดเจน

งบประมาณที่ยังคงจำกัดและผลกระทบทางเศรษฐกิจ

John เล่าถึงสถานการณ์เศรษฐกิจในช่วงปลายปี 2022 ที่มีความกังวลเรื่องภาวะถดถอยมากขึ้น ส่งผลให้องค์กรต่างๆ ต้องแช่แข็งหรือหดงบประมาณด้าน IT สำหรับปี 2023 อย่างไรก็ตาม การมาของ ChatGPT กลับเป็นจุดเปลี่ยนที่ทำให้เงินทุนถูกปล่อยออกมาในโครงการ Generative AI แม้จะเป็นจำนวนเงินที่จำกัด แต่ก็เป็น “โครงการโปรด” ของ CEO และ CFO

การเปิดตัวของ ChatGPT ทำให้ AI กลายเป็นเรื่องที่ “จับต้องได้” และเข้าใจง่ายสำหรับผู้บริหารระดับสูง แม้พวกเขาอาจไม่เข้าใจเทคนิคลึกซึ้ง แต่ก็สามารถทดลองและเห็นศักยภาพของ AI ผ่านการใช้งานจริงได้ทันที

ปี 2023 ถึง 2024: จากโปรเจกต์ทดลองสู่การใช้งานจริง

ในปี 2023 องค์กรส่วนใหญ่ยังอยู่ในช่วงทดลองและวิจัย AI โดยเฉพาะ Generative AI ซึ่งได้รับงบประมาณสนับสนุนอย่างชัดเจน แต่ในปี 2024 เริ่มเห็นการนำระบบ AI เหล่านี้ไปใช้งานจริงในองค์กร เช่น การใช้แชทบอทภายในองค์กร หรือเครื่องมือช่วยสรรหาบุคลากร ความสนใจจากผู้บริหารระดับสูงเริ่มเพิ่มขึ้น โดยเฉพาะในเรื่องของการวัดผลตอบแทนจากการลงทุน (ROI) การควบคุมความเสี่ยง และการปฏิบัติตามกฎระเบียบต่างๆ

นี่คือช่วงเวลาที่การประเมินผล AI เริ่มกลายเป็นเรื่องที่ “ถูกถาม” จากฝ่ายธุรกิจและผู้บริหารมากขึ้น ไม่ใช่แค่ทีมเทคนิคที่เป็นผู้ดูแลเพียงอย่างเดียว

ปี 2025: การเติบโตและการขยายตัวของ AI ในองค์กร

John เน้นว่าปี 2025 คือปีที่ AI และโมเดลระดับ Frontier กำลังเติบโตอย่างรวดเร็ว รายได้และการใช้งานพุ่งสูงขึ้นมาก และที่สำคัญคือการที่ผู้บริหารระดับสูงในองค์กรเริ่มเปิดใจและให้ความสำคัญกับการลงทุนใน AI อย่างจริงจัง

งบประมาณ IT ที่เคยถูกแช่แข็งในปี 2023 กลับมาเปิดกว้างและถูกจัดสรรให้กับโครงการ AI อย่างชัดเจนในปี 2024 และ 2025 ระบบ AI ที่เคยเป็นแค่โปรเจกต์ทดลองในปี 2023 กำลังถูกใช้งานจริงและขยายผลในปี 2024 และ 2025

นอกจากนี้ เทคโนโลยี AI เองก็พัฒนาขึ้นอย่างรวดเร็ว และได้รับการสนับสนุนจากชุมชนโอเพนซอร์ส นักลงทุน และบริษัทเทคโนโลยีรายใหญ่ ทำให้ทุกองค์ประกอบพร้อมสำหรับการเติบโตในปี 2025

Agentic AI: นิยามและความซับซ้อนที่เพิ่มขึ้น

John ให้คำจำกัดความของ Agent AI ว่าเป็นระบบที่ต้องทำได้มากกว่าการเรียนรู้ข้อมูล คือสามารถรับรู้สิ่งแวดล้อม เรียนรู้ สร้างนามธรรมและทั่วไป และที่สำคัญคือสามารถ reason และ act หรือคิดและลงมือทำได้ ต่างจากโมเดล AI แบบเดิมที่เน้นแค่การประมวลผลข้อมูล

Agentic AI สามารถทำงานในสภาพแวดล้อมเสมือนจริงหรือโลกกายภาพได้ ซึ่งความซับซ้อนและความเสี่ยงที่เพิ่มขึ้นเหล่านี้ ทำให้การประเมินผล AI ต้องละเอียดและเข้มงวดมากขึ้น เพื่อให้มั่นใจว่าระบบจะทำงานได้อย่างปลอดภัยและน่าเชื่อถือ

เชื่อมโยง AI กับตัวชี้วัดทางธุรกิจ: จุดเปลี่ยนของการประเมินผล

John เน้นย้ำว่าการขายผลิตภัณฑ์ AI ในองค์กร ไม่ว่าจะเป็นองค์กรขนาดใหญ่หรือ SMB ต้องสามารถเชื่อมโยงกับตัวชี้วัดทางธุรกิจ เช่น การลดความเสี่ยง การเพิ่มรายได้ หรือการลดต้นทุนได้อย่างชัดเจน

การประเมินผล AI จึงไม่ใช่แค่เรื่องเทคนิค แต่กลายเป็นหัวข้อแรกที่ถูกหยิบยกขึ้นมาพูดคุยในระดับผู้บริหาร เพราะต้องมีตัวเลขที่ชัดเจนในการวัดผลและจัดสรรงบประมาณ

บทบาทของฝ่ายบริหารระดับสูงและการเปลี่ยนแปลงทัศนคติ

John แบ่งบทบาทของผู้บริหารระดับสูงในองค์กรที่เกี่ยวข้องกับ AI ออกเป็นหลายฝ่าย ได้แก่

CEO – เริ่มเข้าใจและสนใจ AI อย่างจริงจังตั้งแต่ ChatGPT เปิดตัว และพร้อมสนับสนุนงบประมาณและพูดคุยกับคณะกรรมการ
CFO – เน้นที่เรื่องผลกระทบทางการเงิน และต้องการตัวเลขที่ชัดเจนเพื่อวางแผนงบประมาณ
CISO – เห็น AI เป็นความเสี่ยงด้านความปลอดภัยและโอกาสในการป้องกันภัย เช่น การตรวจจับ hallucination หรือ prompt injection
CIO – ยังคงเป็นผู้ดูแลระบบหลักและต้องการรักษาความเสถียรของระบบ
CTO – ต้องการมาตรฐานและข้อมูลเชิงตัวเลขเพื่อสนับสนุนการตัดสินใจ

ความเปลี่ยนแปลงนี้ทำให้ทุกฝ่ายใน C-suite เห็นตรงกันว่าการประเมินผล AI เป็นสิ่งจำเป็นและต้องร่วมมือกันเพื่อให้เกิดความมั่นใจในระบบ AI ขององค์กร

การประเมินผลในยุค Multi-Agent Systems

หนึ่งในเทรนด์ใหญ่ที่ John เน้นคือการเปลี่ยนจากการประเมินโมเดล AI เดี่ยวๆ ไปสู่การประเมินระบบ Multi-Agent หรือระบบที่มี Agent หลายตัวทำงานร่วมกัน

การประเมินผลในยุคนี้ต้องครอบคลุมทั้งระบบ ไม่ใช่แค่โมเดลเดียว เพื่อให้เห็นภาพรวมของความเสี่ยงและประสิทธิภาพอย่างแท้จริง โดยเฉพาะในบริบทขององค์กรและรัฐบาลที่เริ่มให้ความสำคัญกับเรื่องนี้มากขึ้น

ภาพรวมตลาดและรายได้ของบริษัทในสาย Evaluation

John กล่าวถึงข้อมูลที่หลุดออกมาในช่วงเดือนเมษายน 2025 จากสำนักข่าว The Information ที่เผยรายได้ของสตาร์ทอัพในสาย Evaluation เช่น Weights and Biases, Galileo, Braintrust ซึ่งรายได้เหล่านี้ล่าช้ากว่าความเป็นจริงประมาณ 6-8 เดือน

เขาคาดว่าในปี 2026 จะเห็นรายได้และการเติบโตของบริษัทในสายนี้เพิ่มขึ้นอย่างรวดเร็ว เพราะปี 2025 คือปีที่ตลาด AI Evaluation เริ่มถือเป็น “ของจริง” และกลายเป็นธุรกิจที่ต้องจับตามองอย่างมาก

คำถามจากผู้ฟัง: ความท้าทายของการประเมินในโดเมนเฉพาะ

หนึ่งในประเด็นที่น่าสนใจคือการประเมินระบบ Multi-Agent ในงานเฉพาะด้าน เช่น การวิเคราะห์การลงทุนทางการเงิน หรือการทำแบบจำลองกระแสเงินสด (Discounted Cash Flow) ซึ่งต้องการความเชี่ยวชาญเฉพาะทาง

John ยอมรับว่าแม้จะมีความท้าทายมาก แต่ในทางปฏิบัติ องค์กรใหญ่ๆ อย่าง Google, Meta หรือธนาคารชั้นนำ มักจ้างผู้เชี่ยวชาญมาช่วยตรวจสอบและประเมินระบบเหล่านี้ควบคู่กับ AI เพื่อให้มั่นใจว่าผลลัพธ์ถูกต้องและลดความเสี่ยง

แม้จะมีค่าใช้จ่ายสูง แต่ก็ถือว่าคุ้มค่าในบริบทที่ความผิดพลาดอาจทำให้องค์กรเสียหายหนักหรือเสียตำแหน่งงานได้ในอนาคต John ยังตั้งคำถามเปิดว่าในอีก 5 ปีข้างหน้า ข้อมูลและความรู้จากผู้เชี่ยวชาญเหล่านี้จะถูกรวมเข้าไปในระบบ AI เองมากขึ้นหรือไม่ ซึ่งจะช่วยลดค่าใช้จ่ายและเพิ่มความแม่นยำได้

คำถามจากผู้ฟัง: LLMs จะมาทำหน้าที่เป็นผู้ประเมินได้เมื่อไหร่?

อีกคำถามที่ได้รับคือความเป็นไปได้ของการใช้ Large Language Models (LLMs) เป็น “ผู้ตัดสิน” หรือผู้ประเมินผล AI เอง John ตอบว่าปัจจุบันมีการใช้งานแนวคิดนี้อยู่จริงในบางผลิตภัณฑ์ และช่วยแก้ปัญหาการสร้างชุดข้อมูลสำหรับการประเมินได้ในระดับหนึ่ง

แต่ยังมีข้อจำกัด เช่น อคติที่ LLMs มีเมื่อเทียบกับมนุษย์ และความแตกต่างในการประเมินเรื่องเช่น ความกระชับหรือความช่วยเหลือที่เหมาะสม จึงยังต้องมีการตรวจสอบและปรับปรุงอย่างต่อเนื่อง

บทสรุปส่งท้ายจากทีมงาน Insiderly

ปี 2025 คือจุดเปลี่ยนสำคัญที่การประเมินผล AI กลายเป็นเรื่องที่ผู้บริหารระดับสูงทุกฝ่ายในองค์กรให้ความสนใจอย่างจริงจัง
การมาของ Agentic AI ที่สามารถตัดสินใจและลงมือทำได้เอง เพิ่มความซับซ้อนและความเสี่ยงที่ต้องได้รับการประเมินอย่างละเอียด
การประเมินผล AI ต้องเชื่อมโยงกับตัวชี้วัดทางธุรกิจอย่างชัดเจน เพื่อสร้างความมั่นใจและผลตอบแทนที่จับต้องได้
ในองค์กรใหญ่ การประเมินระบบ AI ที่ทำงานในโดเมนเฉพาะยังต้องพึ่งพาผู้เชี่ยวชาญควบคู่กับ AI เพื่อให้ผลลัพธ์ถูกต้องและลดความเสี่ยง
เทคโนโลยี LLMs เริ่มถูกใช้เป็นเครื่องมือประเมินผล AI แต่ยังต้องมีการตรวจสอบอย่างต่อเนื่องเพื่อแก้ปัญหาอคติและความแม่นยำ
ชุมชนโอเพนซอร์สและบริษัทเทคโนโลยีรายใหญ่สนับสนุนการพัฒนา AI Evaluation อย่างเต็มที่ สะท้อนถึงความสำคัญของพื้นที่นี้ในอนาคต

เมื่อพิจารณาภาพรวมทั้งหมด เราจะเห็นว่า AI Evaluation ไม่ใช่แค่เรื่องของนักวิทยาศาสตร์ข้อมูลหรือวิศวกรเท่านั้น แต่กลายเป็นหัวใจสำคัญในการตัดสินใจลงทุนและบริหารจัดการความเสี่ยงขององค์กรในยุค AI ที่กำลังเติบโตอย่างรวดเร็วนี้

คำศัพท์เฉพาะทางเพิ่มเติม

Agentic AI: ระบบ AI ที่ไม่เพียงแค่ประมวลผลข้อมูล แต่สามารถรับรู้สิ่งแวดล้อม เรียนรู้ วางแผน ตัดสินใจ และลงมือทำงานได้
Evaluation (การประเมินผล): กระบวนการวัดและประเมินคุณภาพ ประสิทธิภาพ และความน่าเชื่อถือของระบบ AI
Monitoring (การสังเกตการณ์): การติดตามและตรวจสอบสถานะหรือพฤติกรรมของระบบ AI เพื่อหาความผิดปกติหรือการเปลี่ยนแปลง
KPI (Key Performance Indicator): ตัวชี้วัดสำคัญที่ใช้วัดผลสำเร็จขององค์กรหรือระบบในเชิงธุรกิจ
Hallucination (ใน AI): ผลลัพธ์ที่โมเดล AI สร้างขึ้นมาโดยไม่มีข้อมูลหรือข้อเท็จจริงรองรับ ซึ่งอาจก่อให้เกิดความเสี่ยง

สำหรับผู้ที่สนใจทดลองเล่นระบบ Multi-Agent AI สามารถดูโครงการ open source จาก Mozilla AI ชื่อ AnyAgent ที่รวบรวม framework ต่างๆ มาไว้ในที่เดียวกัน เป็นโอกาสดีที่ได้ทดลองและเรียนรู้เทคโนโลยีนี้ในทางปฏิบัติ

Introducing GPT-5: ก้าวใหม่ของ AI ที่ฉลาดและเก่งกว่าเดิม

มอบหมายงานให้ ChatGPT Agent เพื่อจัดการแผนธุรกิจอีคอมเมิร์ซอย่างมืออาชีพ

Vibe Coding with Confidence: ทำไม CLI ถึงเป็นอนาคตใหม่ของการพัฒนาโค้ดด้วย AI

2025 คือปีแห่งการประเมินผล AI ที่ทุกองค์กรต้องจับตามอง