สรุปจากคลิป ดูคลิปต้นฉบับ
เบื้องหลังการสร้าง Generative Image และ Video Models ที่ธุรกิจควรรู้

ถ้าเรามอง AI สร้างภาพและวิดีโอแค่ในมุม “พิมพ์ prompt แล้วได้งาน” เราจะพลาดประเด็นสำคัญไปมาก เพราะของจริงที่ทำให้ model เก่ง ไม่ได้อยู่แค่ที่ model ใหญ่ขึ้น แต่อยู่ที่การคัดข้อมูล การบีบอัด representation วิธี sampling และการควบคุมผลลัพธ์ให้ตรงใจคนใช้
คลิปจากช่อง AI Engineer ที่พูดโดย Sander Dieleman จาก Google DeepMind อธิบายเรื่องนี้ได้ชัดมาก โดยเฉพาะเบื้องหลังของงานสาย generative media อย่าง Veo และ Nano Banana สิ่งที่น่าสนใจคือ แม้หัวข้อจะดูเทคนิค แต่แก่นของมันมีผลตรงกับโลกธุรกิจไทยมาก เพราะมันตอบคำถามว่า ทำไมบางระบบสร้างภาพและวิดีโอได้ดี ทำไมบางระบบดู “รู้ใจ” กว่า และถ้าองค์กรอยากใช้ AI สายนี้จริง เราควรมองอะไรเป็นอันดับแรก
สารบัญ
- Step 1: เริ่มจากความจริงที่หลายคนมองข้าม คือข้อมูลสำคัญกว่า model
- Step 2: เข้าใจว่าทำไม model ไม่ได้ทำงานบนพิกเซลตรงๆ
- Step 3: มอง diffusion ให้เข้าใจแบบไม่ต้องเป็นนักวิจัย
- Step 4: เข้าใจว่าทำไม diffusion เหมาะกับภาพและวิดีโอมาก
- Step 5: ดูสถาปัตยกรรมให้เป็นภาพรวม ไม่ต้องจมกับศัพท์
- Step 6: รู้ว่าเรื่อง scale ไม่ได้มีแค่ model ใหญ่ แต่รวมถึงระบบหลังบ้าน
- Step 7: เข้าใจ sampling และ guidance ซึ่งเป็นเคล็ดลับที่ทำให้ภาพดีขึ้นมาก
- Step 8: มอง distillation ให้เป็นเรื่องของความเร็ว ไม่ใช่แค่ model เล็กลง
- Step 9: โฟกัสเรื่อง control signals เพราะนี่คือจุดที่ทำให้ AI ใช้งานจริงได้
- Step 10: แปลบทเรียนทั้งหมดกลับมาสู่โลกธุรกิจไทย
- Actionable Insights
- Troubleshooting
- การต่อยอด
- สรุป Checklist ทั้งหมด
Step 1: เริ่มจากความจริงที่หลายคนมองข้าม คือข้อมูลสำคัญกว่า model
หนึ่งในประเด็นที่หนักแน่นที่สุดคือ data curation สำคัญมาก มากจนบางครั้งเวลาที่ใช้ปรับปรุงข้อมูล คุ้มกว่าการเสียเวลาไป tweak model หรือ optimizer เสียอีก มุมนี้ฟังดูธรรมดา แต่จริงๆ ขัดกับวิธีคิดของหลายองค์กรที่ชอบเริ่มจากถามว่า “จะใช้ model ตัวไหนดี” ทั้งที่คำถามแรกควรเป็น “เรามีข้อมูลแบบไหน”
สำหรับธุรกิจ นี่คือบทเรียนตรงไปตรงมา ถ้าอยากได้ AI สร้างภาพสินค้า วิดีโอโฆษณา หรือคอนเทนต์ที่สอดคล้องกับแบรนด์ เราไม่ควรหวังพึ่งแค่ model กลางจากตลาด แต่ต้องใส่ใจกับชุดข้อมูลอ้างอิงของตัวเองด้วย เช่น
- ภาพสินค้าที่มุมกล้องสม่ำเสมอ
- คู่มือโทนภาพและสีของแบรนด์
- ตัวอย่างวิดีโอที่สะท้อน mood ที่ต้องการ
- ตัวอย่างคอนเทนต์ที่ “ใช้ได้” และ “ห้ามใช้”
มุมมองที่น่าสนใจคือ วงการวิจัยเดิมเคยชินกับการใช้ dataset มาตรฐานเพื่อเทียบ benchmark แต่โลกของ generative AI เชิงพาณิชย์บังคับให้เรา “กลับมาดูข้อมูลของตัวเอง” อีกครั้ง และสำหรับองค์กรไทย นี่อาจเป็นข้อได้เปรียบ เพราะหลายธุรกิจมีทรัพยากรภาพ เสียง และวิดีโอของตัวเองอยู่แล้ว เพียงแต่ยังไม่ได้จัดให้พร้อมสำหรับ AI

Step 2: เข้าใจว่าทำไม model ไม่ได้ทำงานบนพิกเซลตรงๆ
ภาพและวิดีโอมีขนาดใหญ่เกินไป ถ้าจะเอาเข้า model แบบตรงๆ โดยเฉพาะวิดีโอระดับ 1080p ยาว 30 วินาที ที่ 30 FPS ข้อมูลหนึ่งตัวอย่างกินหน่วยความจำมหาศาล จนแทบใช้งานจริงไม่ได้
ทางออกคือการใช้ latent representation หรือการแปลงข้อมูลให้เล็กลงก่อนผ่าน autoencoder ซึ่งมีสองส่วน:
- Encoder บีบภาพหรือวิดีโอให้เป็น representation ที่กระชับขึ้น
- Decoder แปลง representation นั้นกลับมาเป็นภาพหรือวิดีโอ
จุดสำคัญคือ การบีบอัดแบบนี้ไม่เหมือน codec ทั่วไปอย่าง JPEG หรือ H.265 ที่เน้น “เล็กที่สุด” แต่ latent สำหรับงาน generative ต้องเล็กลงโดยยังรักษาโครงสร้างที่ model เรียนรู้ได้อยู่
ตัวอย่างที่อธิบายชัดคือภาพ RGB 256x256 อาจถูกย่อเป็น latent grid 32x32 พร้อมเพิ่ม channel บางส่วนเพื่อเก็บรายละเอียดที่หายไป ถ้ามองเชิงธุรกิจ นี่มีผลมาก เพราะมันอธิบายว่าทำไม AI สร้างภาพสมัยใหม่ถึงทำงานได้เร็วขึ้น ถูกลง และ scale ได้จริง
ในทางปฏิบัติ ถ้าองค์กรกำลังคุยกับ vendor หรือทีม AI ภายใน การถามเรื่อง representation ถือว่าเป็นคำถามที่ฉลาด เพราะมันสะท้อนทั้งต้นทุน ประสิทธิภาพ และคุณภาพสุดท้ายของงาน

Step 3: มอง diffusion ให้เข้าใจแบบไม่ต้องเป็นนักวิจัย
หัวใจของ generative image และ video model รุ่นใหม่จำนวนมากคือ diffusion แนวคิดของมันไม่ใช่การสร้างภาพทีละ token แบบ language model แต่เป็นการเริ่มจาก noise แล้วค่อยๆ ลบ noise ออกทีละขั้นจนได้ผลลัพธ์ที่มีความหมาย
ภาพจำง่ายที่สุดคือ:
- เอาภาพจริงมาเติม noise เข้าไปเรื่อยๆ จนมองไม่ออกว่าเดิมคืออะไร
- ฝึก model ให้เดาว่า จากภาพที่มี noise แบบนี้ ภาพสะอาดน่าจะหน้าตาแบบไหน
- ตอนใช้งานจริง ก็เริ่มจาก noise แล้วให้ model ค่อยๆ denoise กลับมาเป็นภาพใหม่
สิ่งที่อธิบายได้น่าสนใจมากคือ ทำไม diffusion ถึงต้องทำหลาย step คำตอบคือถ้าให้ model เดาภาพสะอาดทีเดียว มันจะได้ภาพเบลอ เพราะข้อมูลบางส่วนหายไปแล้ว Model เลยทำได้แค่เดาค่าเฉลี่ยของคำตอบที่เป็นไปได้หลายแบบ
เพราะฉะนั้น diffusion จึงไม่กระโดดจาก noise ไปเป็นภาพสุดท้ายในครั้งเดียว แต่ค่อยๆ ขยับไปทีละนิด เหมือนเดินตามทิศทางที่ model แนะนำในแต่ละจุด
ถ้ามองในเชิงธุรกิจ นี่ช่วยให้เราเข้าใจว่าเหตุผลที่บาง model ใช้เวลาสร้างนาน ไม่ใช่เพราะมันช้าอย่างเดียว แต่เพราะกระบวนการสร้างคุณภาพต้องอาศัยการ refine ซ้ำหลายรอบ

Step 4: เข้าใจว่าทำไม diffusion เหมาะกับภาพและวิดีโอมาก
Sander อธิบายอีกชั้นผ่านมุมของ Fourier analysis หรือการมองภาพในมิติของความถี่ ซึ่งแม้จะเป็นหัวข้อเทคนิค แต่ไอเดียหลักเข้าใจได้ไม่ยาก
ภาพธรรมชาติมักมีพลังงานของความถี่ต่ำมากกว่าความถี่สูง หมายความว่า โครงสร้างใหญ่ๆ ของภาพ เช่น รูปร่าง ฉาก องค์ประกอบหลัก จะมาก่อน ส่วนรายละเอียดเล็กๆ เช่น texture เส้นขน หรือริ้วแสง จะอยู่ในความถี่สูง
พอเติม Gaussian noise เข้าไป Noise จะไปกลบความถี่สูงก่อน แล้วค่อยกลบความถี่ต่ำตามลำดับ นั่นทำให้ diffusion มีพฤติกรรมแบบ สร้างจากหยาบไปละเอียด หรือ coarse-to-fine โดยธรรมชาติ
นี่เป็นเหตุผลที่ diffusion เหมาะกับงานภาพและวิดีโอมาก เพราะมันสอดคล้องกับวิธีที่ภาพจริงมีโครงสร้างอยู่แล้ว ต่างจากภาษา ที่โครงสร้างแบบลำดับเวลาเหมาะกับ autoregression มากกว่า
สำหรับคนทำธุรกิจ ความเข้าใจนี้ช่วยแปลออกมาเป็นข้อสังเกตง่ายๆ คือ ถ้า AI สร้างภาพได้ดี มักเพราะมันจับ “โครงใหญ่” ถูกก่อน แล้วค่อยเติมรายละเอียดตามมา ไม่ใช่เพราะมันจำภาพได้ทั้งภาพในครั้งเดียว

Step 5: ดูสถาปัตยกรรมให้เป็นภาพรวม ไม่ต้องจมกับศัพท์
ในช่วงแรก diffusion model มักใช้ U-Net ซึ่งเก่งงานฟื้นฟูภาพ เพราะ input และ output มีมิติใกล้เคียงกัน แต่ต่อมาก็เริ่มขยับมาใช้ transformer มากขึ้น
เหตุผลไม่ได้มีแค่เรื่องคุณภาพ แต่รวมถึงเรื่องระบบนิเวศการพัฒนา เราเรียนรู้การ scale transformer มาเยอะจากฝั่ง LLM แล้ว จึงเอาความรู้ชุดนั้นมาใช้ต่อได้
สำหรับวิดีโอ มีอีกคำถามสำคัญคือ จะสร้างแบบไหน:
- สร้างทั้งวิดีโอเป็นก้อนเดียวด้วย diffusion
- สร้างแบบ autoregressive ตามเวลา
- หรือใช้แบบผสม คือ autoregression ในมิติของเวลา แต่ใช้ diffusion กับแต่ละเฟรม
มุมนี้มีผลกับ use case ชัดมาก ถ้าเราอยากได้วิดีโอแบบ real-time หรือระบบ interactive บางอย่าง วิธีผสมอาจตอบโจทย์กว่า เพราะมันไม่ต้องรอสร้างวิดีโอทั้งก้อนก่อนเสมอไป

Step 6: รู้ว่าเรื่อง scale ไม่ได้มีแค่ model ใหญ่ แต่รวมถึงระบบหลังบ้าน
เมื่อ model ใหญ่ขึ้น การเทรนก็ไม่ใช่แค่เรื่อง dataset กับ GPU อีกต่อไป แต่เป็นเรื่องของการกระจายงาน across หลายชิป การทำ data parallelism และ model parallelism เพื่อให้ระบบรับภาระได้
ในคลิปมีการพูดถึง JAX และการ shard model ข้ามชิป โดยเฉพาะในงานที่ต้อง scale สูงมาก ประเด็นนี้แม้จะดูไกลตัวสำหรับเจ้าของธุรกิจ แต่จริงๆ สำคัญในเชิงตัดสินใจ เพราะมันบอกว่า generative AI ระดับ production ไม่ใช่โปรเจกต์ที่วัดกันแค่ demo สวยๆ
องค์กรที่คิดจะ build เองต้องถามให้ชัดว่า
- ต้นทุนเทรนและรันจริงอยู่ตรงไหน
- ทีมมีความพร้อมเรื่อง infrastructure หรือไม่
- สิ่งที่ต้องการคือ model ของตัวเอง หรือ workflow ที่ใช้ model ภายนอกให้คุ้มที่สุด
มุมนี้ขอเห็นต่างเล็กน้อยกับกระแสที่ชอบพูดว่า “ทุกองค์กรควรมี model ของตัวเอง” เพราะจากสิ่งที่อธิบายทั้งหมด ชัดเจนว่าของจริงซับซ้อนมาก หลายธุรกิจไทยอาจได้ผลลัพธ์ดีกว่าถ้าเริ่มจากการออกแบบ workflow, control signal และ data layer ก่อน
Step 7: เข้าใจ sampling และ guidance ซึ่งเป็นเคล็ดลับที่ทำให้ภาพดีขึ้นมาก
ส่วนที่น่าทึ่งที่สุดส่วนหนึ่งคือ guidance หรือการชี้นำ model ระหว่าง sampling ให้ขยับไปในทิศที่สอดคล้องกับ prompt หรือเงื่อนไขมากขึ้น
หลักการคือ model จะทำนายสองแบบ:
- ทำนายแบบไม่มีเงื่อนไข
- ทำนายแบบมีเงื่อนไข เช่น มี text prompt
จากนั้นเอาความต่างระหว่างสองการทำนายนี้มาขยาย แล้วใช้เป็นแรงผลักให้ผลลัพธ์ “ตรงโจทย์” มากขึ้น ผลคือคุณภาพดีขึ้นอย่างชัดเจน แต่ความหลากหลายลดลง
นี่คือ trade-off ที่คนใช้งานจริงต้องรู้ ถ้าเราอยากได้ภาพเดียวที่สวยและตรง brief มากๆ guidance สูงอาจคุ้ม แต่ถ้าเรากำลังหาไอเดียหลายแบบ guidance สูงเกินไปอาจทำให้ทุกภาพคล้ายกันหมด
อีกประเด็นที่น่าสนใจคือ ถ้า guidance แรงเกินไป อาจเกิดอาการภาพอิ่มสีหรือดู “จัดเกินจริง” ได้ ซึ่งอธิบายได้ว่าทำไมภาพจาก AI บาง platform มีลายเซ็นบางอย่างคล้ายกัน
Step 8: มอง distillation ให้เป็นเรื่องของความเร็ว ไม่ใช่แค่ model เล็กลง
ในโลก diffusion คำว่า distillation ไม่ได้หมายถึงย่อ model เป็นหลัก แต่หมายถึง ลดจำนวน step ในการ generate เพื่อให้ได้ผลลัพธ์เร็วขึ้น
ถ้า diffusion ปกติค่อยๆ เดินตามเส้นทางจาก noise ไปสู่ภาพปลายทาง Distillation พยายามสอน model ให้เดาทางลัด เช่น จากจุดนี้ไปปลายทางควรจบที่ไหน แทนที่จะทำนายแค่ก้าวถัดไป
แนวคิดอย่าง consistency models จึงพยายามทำให้ sampling เหลือหนึ่ง step หรือไม่กี่ step แต่ข้อแลกเปลี่ยนคือ งานยากขึ้นมาก เพราะ model ต้องทำสิ่งที่เคยใช้ 50 รอบให้จบในรอบเดียว
มุมธุรกิจชัดเจนมาก: ความเร็วมีราคาเสมอ ถ้า use case คือโฆษณา ภาพ key visual หรือวิดีโอพรีเมียม เราอาจยอมรอได้เพื่อเอาคุณภาพ แต่ถ้า use case คือ real-time content, personalized creative หรือ AI assistant ที่ตอบสนองทันที เราจำเป็นต้องสนใจเรื่องนี้มาก
Step 9: โฟกัสเรื่อง control signals เพราะนี่คือจุดที่ทำให้ AI ใช้งานจริงได้
การพึ่ง text prompt อย่างเดียวเริ่มไม่พอแล้ว คนใช้ต้องการควบคุมมากกว่านั้น เช่น
- ใช้ภาพอ้างอิงของตัวเอง
- ใส่หน้าคนจริงลงไปในวิดีโอ
- กำหนดการเคลื่อนกล้อง
- กำหนดจังหวะเวลาและความเร็วของเหตุการณ์
นี่คือประเด็นใหญ่สำหรับธุรกิจไทย โดยเฉพาะสาย marketing, e-commerce และ media production เพราะโจทย์จริงไม่ได้จบที่ “สร้างภาพสวย” แต่คือ “สร้างภาพที่ใช้ได้” ซึ่งมักต้องอาศัย reference-based generation มากกว่าการบรรยายด้วยภาษาอย่างเดียว
ประเด็นที่ควรจำคือ control signal ที่ดีต้องอยู่ในระดับ abstraction ที่เหมาะสม ถ้าต่ำเกินไป มันควบคุมยาก ถ้าสูงเกินไป มันคลุมเครือเกินจะใช้งานจริง
อีกเรื่องที่ลึกและสำคัญคือ สัญญาณควบคุมจำนวนมากอาจไม่ได้มีอยู่ในข้อมูล pre-training ทั้งหมด จึงต้องเพิ่มเข้ามาในช่วง post-training ภายหลัง รวมถึงการปรับ model ตาม preference ของมนุษย์ด้วย
Step 10: แปลบทเรียนทั้งหมดกลับมาสู่โลกธุรกิจไทย
ถ้าสรุปแบบคนทำงานและเจ้าของธุรกิจ สิ่งที่คลิปนี้กำลังบอกเราคือ generative AI ไม่ใช่แค่เรื่อง “เลือก model ตัวไหน” แต่คือการออกแบบทั้งระบบ ตั้งแต่ข้อมูล representation วิธีสร้างผลลัพธ์ ไปจนถึงวิธีควบคุมให้ตรงงาน
สำหรับธุรกิจไทย ภาพที่ชัดที่สุดอาจเป็นแบบนี้:
- แบรนด์สินค้า ต้องมีคลังภาพและ guideline ที่พร้อมให้ AI เรียนรู้โทนงานของแบรนด์
- เอเจนซีและทีมครีเอทีฟ ต้องคิดเรื่อง guidance และ reference control เพื่อบาลานซ์ระหว่างความสดใหม่กับความตรง brief
- ทีมวิดีโอ ต้องสนใจ camera control และ timing control มากกว่าหวังพึ่ง prompt ยาวๆ
- องค์กรที่อยาก build เอง ต้องมอง infrastructure และ data operations เป็นหัวใจ ไม่ใช่ของแถม
มุมหนึ่งที่น่าคิดคือ AI สร้างภาพและวิดีโอกำลังขยับจาก “ของเล่นน่าตื่นเต้น” ไปสู่ “ระบบผลิตสื่อ” และเมื่อมันเข้าใกล้จุดนั้นมากขึ้น ปัจจัยที่ชนะจะไม่ใช่แค่ model เก่ง แต่เป็นคนที่ออกแบบการใช้งานได้รอบด้านกว่า
Actionable Insights
- เริ่มจาก data asset ขององค์กรก่อน รวบรวมภาพ วิดีโอ และตัวอย่างงานที่สะท้อนมาตรฐานแบรนด์ให้เป็นระบบ
- อย่าพึ่งฝากทุกอย่างไว้กับ prompt ถ้างานต้องแม่น ควรมีภาพอ้างอิง โครงสร้างงาน หรือเงื่อนไขการควบคุมเพิ่ม
- แยก use case ตามความเร็วกับคุณภาพ งานขาย งานโฆษณา งานพรีเมียม และงาน real-time ต้องใช้แนวทางต่างกัน
- ทดสอบ guidance แบบมีเป้าหมาย ถ้าผลงานเริ่มคล้ายกันเกินไปหรือสีจัดเกินจริง อาจเป็นสัญญาณว่าตั้ง guidance สูงไป
- ถ้ายังไม่พร้อม build model เอง ให้ build workflow ก่อน หลายองค์กรได้ผลเร็วกว่าเมื่อจัด process การใช้ AI ให้ชัด แทนการเริ่มจากการเทรน model
Troubleshooting
ปัญหา: ภาพหรือวิดีโอที่ได้สวย แต่ไม่ตรงแบรนด์
สาเหตุ: ข้อมูลอ้างอิงของแบรนด์น้อยเกินไป หรือพึ่ง text prompt มากเกินไป
วิธีแก้: รวบรวม reference ของแบรนด์, แยกตัวอย่างงานที่ต้องการและไม่ต้องการ, เพิ่ม control signal นอกเหนือจาก prompt
ปัญหา: ผลลัพธ์ทุกชิ้นเริ่มหน้าตาคล้ายกันหมด
สาเหตุ: guidance สูงเกินไป ทำให้ quality สูงขึ้นแต่ diversity ลดลง
วิธีแก้: ลด guidance scale, ทดลองหลายระดับ, แยกโหมด “หาไอเดีย” กับ “ผลิตงานจริง” ออกจากกัน
ปัญหา: ภาพดูจัด สีอิ่มเกิน หรือมีสไตล์ AI ชัดเกินไป
สาเหตุ: การชี้นำแรงเกินในบางช่วงของ sampling หรือ post-training มีความเอนเอียงสูง
วิธีแก้: ปรับ guidance ให้สมดุล, ทดลองใช้ guidance เฉพาะบางช่วง, เติม reference ที่เป็นงานจริงของแบรนด์
ปัญหา: ระบบสร้างวิดีโอช้าเกินไปสำหรับงานจริง
สาเหตุ: diffusion ต้องใช้หลาย step ในการ refine คุณภาพ
วิธีแก้: แยก use case ว่างานไหนต้องเร็ว, มองหา workflow ที่ใช้ distillation หรือ sampling น้อย step ลง, ลดขนาดงานที่ generate ต่อครั้ง
ปัญหา: ทีมอยาก build model เอง แต่ต้นทุนพุ่งเร็วมาก
สาเหตุ: ประเมินความยากของ data, infrastructure และการ scale ต่ำเกินไป
วิธีแก้: เริ่มจากการใช้ model ภายนอก, ลงทุนกับ data curation ก่อน, ตัดสินใจ build เฉพาะส่วนที่สร้างความต่างจริง
การต่อยอด
- สร้าง brand reference library สำหรับใช้กับ AI โดยเฉพาะ แยกตามสินค้า แคมเปญ และ mood ของแบรนด์
- ออกแบบ workflow สำหรับ reference-based generation แทนการใช้ prompt ล้วน โดยเฉพาะงาน e-commerce และ social content
- ทดลองวัดผล AI creative แบบธุรกิจจริง เช่น เทียบ conversion หรือ engagement ระหว่างงานที่ guidance สูงกับงานที่เปิด diversity มากกว่า
สรุป Checklist ทั้งหมด
- ☐ มอง generative image และ video model เป็น “ระบบ” ไม่ใช่แค่ model เดี่ยว
- ☐ ให้ความสำคัญกับ data curation ก่อนเรื่องอื่น
- ☐ เข้าใจว่า latent representation คือเหตุผลที่งานภาพและวิดีโอ scale ได้
- ☐ รู้หลักการของ diffusion ว่าเริ่มจาก noise แล้วค่อย denoise
- ☐ เข้าใจว่าการสร้างแบบหยาบไปละเอียดคือจุดแข็งของ diffusion
- ☐ รู้ว่าทั้ง U-Net และ transformer มีบทบาทในงานสายนี้
- ☐ แยก use case วิดีโอว่าควรใช้ diffusion, autoregression หรือแบบผสม
- ☐ ประเมินต้นทุน infrastructure และการ scale ให้ตรงความจริง
- ☐ ใช้ guidance อย่างมีสติ เพราะมันแลก diversity กับ quality
- ☐ มอง distillation เป็นเครื่องมือเรื่องความเร็ว
- ☐ ลงทุนกับ control signals เพราะมันทำให้ AI ใช้งานจริงได้
- ☐ ถ้ายังไม่พร้อม build model เอง ให้เริ่มจาก build workflow ที่ตอบโจทย์ธุรกิจก่อน
สรุปสุดท้าย บทเรียนจากการสร้าง Generative Image และ Video Models at Scale คือ ของที่ดูเหมือนเวทมนตร์จากหน้าบ้าน แท้จริงแล้วขับเคลื่อนด้วยการตัดสินใจที่ละเอียดมากในหลังบ้าน ตั้งแต่ข้อมูล การบีบอัด วิธี sampling ไปจนถึงการควบคุมผลลัพธ์ และสำหรับธุรกิจ สิ่งที่ควรเอากลับไปไม่ใช่แค่ความว้าว แต่คือคำถามใหม่ว่า เราจะออกแบบระบบ AI ของเราให้ “ใช้ได้จริง” ได้อย่างไร
