สรุปจากคลิป ดูคลิปต้นฉบับ
สรุปวิธีทำ Hermes AI Assistant ให้โทรสั่งงานคอมได้จริง

ถ้า AI ช่วยตอบแชตยังไม่พอ คลิปนี้ขยับไปอีกขั้น คือทำให้เรา “โทรหา” ผู้ช่วย AI ของตัวเองแล้วสั่งงานคอมจากระยะไกลได้เลย ทั้งเขียนไฟล์ จัดตารางงาน ดึงความจำจาก session เก่า ไปจนถึงสั่งงานเครื่องที่บ้านขณะเราอยู่นอกโต๊ะทำงาน
ในคลิปจากช่อง Julian Goldie SEO ประเด็นที่น่าสนใจไม่ใช่แค่เดโมว่า AI คุยตอบกลับได้เหมือนเลขา แต่คือแนวคิดเรื่อง Agent ที่เชื่อมกับ tools จริง และใช้งานได้ในชีวิตประจำวันของคนทำงาน ไม่ใช่ของเล่นโชว์เทคโนโลยีอย่างเดียว ถ้ามองจากมุมเจ้าของธุรกิจไทย นี่คือภาพของ workflow แบบใหม่ที่ช่วยเก็บไอเดีย สั่งงานเร็ว และลดงานจุกจิกได้มากกว่าที่หลายคนคิด
บทความนี้สรุปวิธีคิด วิธีตั้งค่าเบื้องต้น จุดที่ควรใช้จริง จุดที่ยังไม่ควรฝากความหวังเกินไป และแปลงทั้งหมดให้ออกมาเป็นขั้นตอนที่เอาไปใช้กับงานธุรกิจได้ทันที
สารบัญ
- Step 1: เข้าใจภาพใหญ่ก่อนว่า Hermes AI Assistant ทำอะไรได้บ้าง
- Step 2: ดูตัวอย่างงานที่ควรให้ AI ทำผ่านเสียงก่อน
- Step 3: ตั้งองค์ประกอบสำคัญ 2 อย่างให้ครบก่อนใช้งาน
- Step 4: ใช้ AI ช่วยตั้งค่า AI แทนการทำเองทีละจุด
- Step 5: เข้าใจกลไกเบื้องหลัง เพื่อเลือก use case ให้ถูก
- Step 6: เลือกโหมดใช้งานให้เหมาะ ระหว่างโทรศัพท์กับ Talk Mode
- Step 7: เลือก model และเสียงให้ตอบเร็วพอใช้งานจริง
- Step 8: เริ่มจากงานง่ายก่อน แล้วค่อยขยายสิทธิ์และ workflow
- Step 9: วิเคราะห์แบบตรงไปตรงมา ว่าใครควรใช้ และใครยังไม่จำเป็น
- Actionable Insights
- Troubleshooting
- การต่อยอด
- Step 10: สรุป Checklist ทั้งหมดก่อนเริ่มทำจริง
Step 1: เข้าใจภาพใหญ่ก่อนว่า Hermes AI Assistant ทำอะไรได้บ้าง
หัวใจของระบบนี้คือการเปลี่ยน AI assistant จากกล่องแชตธรรมดา ให้กลายเป็น Agent ที่รับคำสั่งเสียงและลงมือทำงานบนเครื่องจริง โดยในตัวอย่างจากคลิป Hermes ถูกทำให้รับสายโทรศัพท์ พูดตอบกลับด้วยเสียงธรรมชาติ และเชื่อมกับ memory, terminal, tools และ session เดิมทั้งหมด
ความหมายของเรื่องนี้สำหรับคนทำงานคือ เราไม่ได้แค่ “ถาม AI” แต่เรากำลัง “สั่ง AI ให้ทำงานแทน” ในระดับที่จับต้องได้ เช่น
- สร้างไฟล์ข้อความในเครื่อง
- แก้ไขไฟล์เดิมต่อจากงานก่อนหน้า
- ตั้งตารางหรือ schedule งานประจำ
- ค้นหาว่าเมื่อวานเราคุยหรือทำอะไรค้างไว้
- เรียกใช้ browser หรือเครื่องมืออื่นในระบบ
นี่ต่างจากการคุยกับ ChatGPT แบบทั่วไปตรงที่คำสั่งไม่ได้จบในหน้าจอแชต แต่ไปผูกกับการกระทำจริงในระบบปฏิบัติการ ถ้าเอามาใช้กับธุรกิจไทย ภาพที่เห็นชัดคือเจ้าของกิจการที่มีไอเดียระหว่างเดินทาง สามารถโทรสั่งให้ AI บันทึกแนวคิดลงโน้ต สรุปสิ่งที่คุยกับทีม หรือเตรียมโครงร่างงานไว้ก่อนถึงออฟฟิศได้เลย

Step 2: ดูตัวอย่างงานที่ควรให้ AI ทำผ่านเสียงก่อน
ในเดโมมีตัวอย่างที่สำคัญมาก เพราะมันบอกขอบเขตการใช้งานที่เหมาะสม ระบบถูกสั่งให้เขียนบทกวีเป็นไฟล์ข้อความลงในโฟลเดอร์ดาวน์โหลด จากนั้นอ่านไฟล์เดิมแล้วเติมย่อหน้าใหม่เข้าไป ต่อด้วยการตั้ง session เรียนภาษาญี่ปุ่นเวลา 15:00 และค้นหาว่างานเมื่อวานมีอะไรบ้าง
สิ่งที่ควรสังเกตคือ งานเหล่านี้ไม่ใช่งานซับซ้อนระดับสร้างระบบทั้งก้อน แต่มันคือ งานสั้น งานต่อเนื่อง และงานที่ได้ประโยชน์จากการสั่งด้วยเสียง ซึ่งเหมาะกับสถานการณ์ที่เราไม่สะดวกเปิดคอม
สำหรับธุรกิจไทย งานประเภทนี้มีเยอะมาก เช่น
- สั่งบันทึกไอเดียคอนเทนต์ลงไฟล์ทันทีตอนอยู่บนรถ
- ให้ตั้ง reminder ประจำวันสำหรับประชุมทีมขาย
- ให้ค้นงานค้างจากเมื่อวานแล้วสรุปสั้นๆ
- ให้สร้าง draft ข้อความส่งต่อให้แอดมินหรือทีมการตลาด
มุมมองที่น่าสนใจคือ หลายคนชอบเริ่มจาก use case ใหญ่เกินไป เช่น อยากให้ AI ปิดการขายแทนทั้งหมด หรือสร้างเว็บไซต์ทั้งเว็บผ่านโทรศัพท์ ซึ่งในคลิปเองก็ชี้ชัดว่า ถ้างานหนักขึ้น ความหน่วงก็เพิ่มขึ้น การใช้งานที่คุ้มสุดจึงอยู่ที่ “งานเล็กแต่บ่อย” มากกว่า “งานใหญ่แต่ไม่แน่นอน”

Step 3: ตั้งองค์ประกอบสำคัญ 2 อย่างให้ครบก่อนใช้งาน
จุดที่คลิปเน้นมากคือ ถ้าจะให้ Hermes คุยทางโทรศัพท์ได้จริง ต้องมี 2 อย่างนี้ก่อน
- ElevenLabs API key สำหรับเสียงพูดและการฟังเสียง
- Twilio สำหรับเบอร์โทรที่ใช้โทรเข้าไปหา agent
ElevenLabs ทำหน้าที่เป็นชั้นเสียง ทำให้เสียงตอบกลับฟังเป็นธรรมชาติและตอบได้เร็ว ส่วน Twilio คือประตูที่เชื่อมระบบกับโทรศัพท์จริง ถ้าขาดตัวใดตัวหนึ่ง ระบบแบบโทรเข้าออกจะไม่ครบ
แนวคิดนี้สำคัญกว่ารายละเอียดเชิงเทคนิค เพราะมันสอนเราว่า AI automation ที่ใช้งานจริงมักไม่ได้เกิดจาก tool ตัวเดียว แต่เกิดจาก การประกอบหลายบริการเข้าด้วยกัน เจ้าของธุรกิจที่อยากใช้ AI จึงควรเลิกถามว่า “ใช้ platform ไหนตัวเดียวจบ” แล้วหันมาคิดว่า “งานนี้ต้องประกอบเครื่องมืออะไรบ้าง”
ถ้าต้องการข้อมูลเพิ่มเกี่ยวกับบริการเหล่านี้ สามารถดูจากเว็บทางการได้ที่ ElevenLabs และ Twilio

Step 4: ใช้ AI ช่วยตั้งค่า AI แทนการทำเองทีละจุด
หนึ่งในไอเดียที่ฉลาดที่สุดในคลิปคือ แทนที่จะนั่งทำตามคู่มือทุกบรรทัด ผู้สร้างเอาคู่มือการติดตั้งจาก ElevenLabs ส่งให้ agent ช่วยอ่านและช่วยตั้งค่าต่อให้เลย แน่นอนว่าระหว่างทางยังต้องกดอนุญาตบางอย่างเอง แต่แกนหลักคือให้ AI ช่วยแปลงเอกสารยาวๆ เป็น action ที่ทำได้จริง
ตรงนี้เป็นบทเรียนที่เจ้าของธุรกิจเอาไปใช้ได้ทันที แม้จะไม่ได้สร้าง Hermes เองก็ตาม เพราะเวลาต้องตั้งค่าเครื่องมือใหม่ เรามักเสียเวลาตรง
- อ่านเอกสารไม่เข้าใจ
- ไม่รู้ว่าต้องเริ่มตรงไหนก่อน
- กลัวพลาดเวลาต้องตั้งค่า account หรือเชื่อมบริการ
วิธีคิดที่ควรยืมมาใช้คือ เอาคู่มือหรือ SOP ใส่ให้ AI แล้วสั่งให้มันสรุปเป็น checklist ทีละขั้น จากนั้นค่อยทำตามพร้อมตรวจเองอีกชั้น วิธีนี้เหมาะมากกับงานหลังบ้าน เช่น ตั้งค่า CRM, เชื่อม form กับอีเมล, เตรียม workflow รับ lead หรือจัดระเบียบ knowledge base
แต่ก็มีข้อจำกัดที่ต้องพูดตรงๆ คือ AI ช่วยตีความคู่มือได้ดี แต่ยังไม่ควรปล่อยให้มันเชื่อมทุกอย่างแบบไม่ตรวจ โดยเฉพาะงานที่แตะสิทธิ์การเข้าถึงไฟล์ ระบบปฏิบัติการ หรือบัญชีที่เกี่ยวกับลูกค้าและการเงิน
Step 5: เข้าใจกลไกเบื้องหลัง เพื่อเลือก use case ให้ถูก
โฟลว์การทำงานแบบย่อมีลำดับประมาณนี้
- เราโทรเข้าเบอร์ของ agent
- ElevenLabs รับเสียงและสร้างเสียงตอบกลับ
- เสียงนั้นเชื่อมกับ Hermes
- Hermes เชื่อมกับ memory, terminal, skills และ tools
- คำสั่งจึงถูกแปลงเป็นการทำงานจริงบนเครื่อง
ข้อที่น่าสนใจมากคือ ถึงเราจะอยู่นอกบ้าน แต่ agent ยังไปสั่งเครื่อง local ที่บ้านได้อยู่ นี่คือเสน่ห์ของระบบลักษณะนี้ เพราะมันเหมือนเราเอาคอมที่บ้านไปไว้ในกระเป๋าผ่านโทรศัพท์
ถ้าเอามาใช้กับธุรกิจไทย ตัวอย่างที่มีภาพชัดคือ
- เจ้าของบริษัทโทรสั่งให้ระบบเปิดเอกสารที่ค้างจากเมื่อวานแล้วสรุปสาระสำคัญ
- ทีมคอนเทนต์โทรสั่งเก็บไอเดีย headline ลงไฟล์รวมของแคมเปญ
- ผู้จัดการฝ่ายขายโทรเช็กว่า session ก่อนหน้าคุยเรื่องลูกค้าคนไหนค้างไว้
แต่สิ่งที่ไม่ควรสับสนคือ มันยังไม่ใช่ผู้ช่วยสารพัดนึกที่ทำได้ดีทุกอย่างผ่านเสียง การใช้งานที่คุ้มที่สุดยังคงเป็นงานสั้น ชัด และวัดผลได้
Step 6: เลือกโหมดใช้งานให้เหมาะ ระหว่างโทรศัพท์กับ Talk Mode
ในคลิปมีอีกทางหนึ่งที่น่าสนใจ คือไม่จำเป็นต้องโทรศัพท์เสมอไป เพราะมีโหมดพูดคุยในหน้าจอของระบบเอง หรือที่เรียกว่า Talk Mode วิธีนี้ทำให้เราคุยกับ Hermes ผ่านไมค์บนเครื่อง และได้บันทึกบทสนทนาไว้ครบ
ข้อดีของ Talk Mode คือ
- สะดวกเวลานั่งทำงานอยู่หน้าคอม
- มี record ของบทสนทนาให้อ้างอิง
- สั่งให้เปิด browser, ค้นข้อมูล, หรือควบคุมคอมต่อได้ง่าย
ส่วนโหมดโทรศัพท์เหมาะกับสถานการณ์ที่มือไม่ว่างหรืออยู่นอกสถานที่ เช่น เดินทาง ออกกำลังกาย หรือกำลังเปลี่ยนสถานที่ประชุม

ถ้าถามจากมุมใช้งานจริง เรามองว่า Talk Mode น่าจะกลายเป็นจุดเริ่มต้นที่ปลอดภัยกว่า เพราะเรายังเห็นหน้าจอ เห็นผลลัพธ์ และตรวจคำสั่งได้ง่ายกว่าโทรศัพท์ แต่ถ้า workflow ลงตัวเมื่อไร การย้ายไปใช้ผ่านเบอร์โทรจะเพิ่มความคล่องตัวมาก
Step 7: เลือก model และเสียงให้ตอบเร็วพอใช้งานจริง
คลิปให้คำแนะนำที่สำคัญมากเรื่องความเร็วตอบกลับ เพราะระบบ voice ถ้าช้าเกินไป ประสบการณ์ใช้งานจะพังทันที ผู้สร้างทดลองหลาย model แล้วพบว่า model ที่เบากว่าให้ความรู้สึกใช้งานได้จริงกว่า โดยยกตัวอย่าง Claude 3.5 Haiku ว่าเป็นหนึ่งในตัวเลือกที่ตอบเร็ว
กฎง่ายๆ คือ
- model ยิ่งเบา ยิ่งตอบเร็ว
- model ยิ่งหนัก ยิ่งหน่วง
- เสียงที่เลือกก็มีผลต่อความเร็ว
- งานที่สั่งยิ่งใหญ่ ยิ่งรอนาน
นี่เป็นจุดที่คนทำธุรกิจมักพลาด เพราะชอบเริ่มจาก model ที่ฉลาดที่สุดโดยไม่ดูว่าหน้างานต้องการอะไร ถ้า use case คือการตั้ง reminder ดึงข้อมูล session หรือบันทึกไอเดีย ความเร็วสำคัญกว่าความฉลาดระดับสูงสุด
หลักคิดที่เอาไปใช้ได้คือ
- เริ่มจาก model เบาก่อน
- ทดสอบกับงานจริง 3 ถึง 5 แบบ
- วัดว่ารอได้กี่วินาทีแล้วเริ่มรำคาญ
- ค่อยขยับไป model หนักขึ้นถ้าจำเป็น
การเลือก model ก็คล้ายการจ้างคน งานง่ายและต้องเร็ว ไม่จำเป็นต้องใช้คนที่เก่งที่สุดเสมอไป
Step 8: เริ่มจากงานง่ายก่อน แล้วค่อยขยายสิทธิ์และ workflow
ช่วงท้ายคลิปมีคำแนะนำที่ควรถือเป็นหลักปฏิบัติเลย คือให้เริ่มจากงานง่ายก่อน เช่น สร้างไฟล์ข้อความ ตั้งตาราง หรือค้นความจำเก่า พอเสถียรแล้วค่อยเพิ่มความซับซ้อน อย่าเพิ่งเปิดสิทธิ์ทุกอย่างให้ agent ตั้งแต่วันแรก
เหตุผลคือ agent แบบนี้แตะทั้งไฟล์ เครื่องมือ และระบบเครื่อง ถ้ารีบเกินไป เราอาจเจอปัญหาคำสั่งผิด สิทธิ์เกิน หรือ workflow พังแล้วหาสาเหตุยาก
ถ้าจะนำแนวคิดนี้ไปใช้กับธุรกิจไทย เราแนะนำลำดับแบบนี้
- เริ่มจากระบบจดโน้ตด้วยเสียง
- เพิ่มการค้น memory จากงานเก่า
- เพิ่มการตั้ง schedule และ reminder
- ค่อยเชื่อม browser หรือระบบงานอื่น
- กำหนดว่าเรื่องไหนยังต้องมีคนอนุมัติก่อนเสมอ
ถ้าทำตามลำดับนี้ เราจะได้ AI assistant ที่ “ช่วยงาน” ไม่ใช่ “เพิ่มงานให้ตามแก้”
Step 9: วิเคราะห์แบบตรงไปตรงมา ว่าใครควรใช้ และใครยังไม่จำเป็น
คลิปชูภาพของผู้ที่มีไอเดียระหว่างเดินทางและไม่อยากติดโต๊ะทำงาน ซึ่งเป็นกลุ่มที่เหมาะมาก เราเห็นด้วย แต่ขอเติมว่าระบบแบบนี้จะคุ้มที่สุดกับคน 3 กลุ่ม
- เจ้าของธุรกิจ ที่ต้องคิดและสั่งงานตลอดเวลา
- คนทำคอนเทนต์หรือการตลาด ที่มีไอเดียผุดตอนอยู่นอกโต๊ะ
- ผู้จัดการทีม ที่ต้องดึงความจำจากงานเดิมและจัดลำดับงานเร็วๆ
แต่ถ้าเป็นธุรกิจที่ยังไม่มีระบบจัดเก็บข้อมูล ไม่มี SOP และยังไม่รู้ด้วยซ้ำว่าอยากให้ AI ช่วยอะไร การเริ่มจากระบบโทรสั่งงานคอมอาจเร็วเกินไป ปัญหาไม่ได้อยู่ที่ AI ไม่เก่ง แต่เพราะหลังบ้านเรายังไม่พร้อมให้ agent ทำงานได้อย่างเป็นระเบียบ
พูดอีกแบบคือ อย่าเพิ่งทำ Jarvis ถ้างานในบริษัทเรายังไม่รู้เลยว่าอะไรควรถูก automate ก่อน
Actionable Insights
- เริ่มจาก 1 use case ที่ชัดที่สุด เช่น โทรสั่งบันทึกไอเดียลงไฟล์ แทนที่จะทำหลายอย่างพร้อมกัน
- เลือกงานที่ใช้เวลาไม่เกิน 1 ถึง 2 นาทีต่อคำสั่ง เพื่อให้ voice workflow รู้สึกคุ้ม
- ใช้ model เบาก่อนเสมอ แล้วค่อยอัปเกรดเมื่อเจองานที่ต้องใช้เหตุผลมากขึ้น
- แยกสิทธิ์การเข้าถึงไฟล์และเครื่องมือเป็นขั้น อย่าเปิดทุกอย่างให้ agent ตั้งแต่แรก
- เก็บ session และคำสั่งที่ใช้บ่อย มาทำเป็น SOP สำหรับทีมในภายหลัง
Troubleshooting
- ปัญหา: โทรเข้าไปแล้วเสียงตอบช้า หรือคุยไม่ลื่น
สาเหตุ: model หนักเกินไป หรือเสียงที่เลือกประมวลผลช้า
วิธีแก้: เปลี่ยนไปใช้ model ที่เบากว่า ทดสอบเสียงตัวอื่น และลดความยาวของคำสั่งให้สั้นลง
- ปัญหา: AI ฟังเข้าใจแต่ไม่ลงมือทำงานในเครื่อง
สาเหตุ: agent ยังไม่ได้เชื่อม tools หรือยังไม่ได้รับ permission ที่จำเป็น
วิธีแก้: ตรวจการเชื่อม ElevenLabs, Twilio และ tools ภายใน Hermes ทีละตัว จากนั้นทดสอบด้วยคำสั่งง่ายๆ ก่อน
- ปัญหา: งานถูกสร้างผิดที่ หรือหาไฟล์ไม่เจอ
สาเหตุ: path ของโฟลเดอร์ไม่ชัด หรือคำสั่งปลายทางกำกวม
วิธีแก้: ระบุชื่อโฟลเดอร์และชื่อไฟล์ให้ชัด ใช้รูปแบบคำสั่งเดิมซ้ำๆ และให้ agent ทวนปลายทางก่อนลงมือ
- ปัญหา: ดึง memory หรืองานเก่าออกมาไม่ตรงที่ต้องการ
สาเหตุ: session ก่อนหน้าไม่ได้จัดระเบียบ หรือ query กว้างเกินไป
วิธีแก้: ตั้งชื่อ session ให้สื่อความหมาย และเวลาค้นให้ระบุวัน งาน หรือหัวข้อให้แคบลง
- ปัญหา: รู้สึกว่าตั้งค่ายุ่งยากเกินคุ้ม
สาเหตุ: เริ่มจากระบบใหญ่เกินก่อนมี use case ชัดเจน
วิธีแก้: ถอยกลับมาเริ่มที่งานเดียว เช่น จดโน้ตด้วยเสียง หรือ schedule งาน แล้วค่อยขยาย
การต่อยอด
- ทำ voice inbox สำหรับเจ้าของธุรกิจ ให้ทุกไอเดียที่พูดถูกแปลงเป็น task, note หรือ draft อัตโนมัติ
- เชื่อมกับระบบขายหรือ CRM เพื่อให้ถามสถานะ lead ล่าสุดผ่านเสียงได้ระหว่างเดินทาง
- สร้าง workflow สรุปงานปลายวัน โดยให้ agent อ่านสิ่งที่ทำทั้งหมดแล้วเขียน daily summary ลงไฟล์หรือส่งเข้าช่องทีม
Step 10: สรุป Checklist ทั้งหมดก่อนเริ่มทำจริง
- ☐ กำหนด use case แรกให้ชัด เช่น บันทึกไอเดีย ตั้ง schedule หรือค้น memory
- ☐ เตรียม Hermes หรือ agent ที่เชื่อม tools และ memory เรียบร้อย
- ☐ สมัครและรับ ElevenLabs API key
- ☐ สมัคร Twilio และเตรียมเบอร์โทรสำหรับรับสายเข้า agent
- ☐ ใช้คู่มือจากผู้ให้บริการเป็น checklist ให้ AI ช่วยสรุปและตั้งค่าบางส่วน
- ☐ ทดสอบคำสั่งง่ายๆ เช่น สร้างไฟล์ข้อความในโฟลเดอร์ที่กำหนด
- ☐ ทดสอบการแก้ไขไฟล์เดิมและการค้น session ย้อนหลัง
- ☐ เลือก model ที่ตอบเร็วพอใช้งานจริง
- ☐ เลือกเสียงที่ฟังสบายและตอบกลับไว
- ☐ เปิด permission แบบค่อยเป็นค่อยไป
- ☐ แยกงานที่ AI ทำเองได้ กับงานที่ยังต้องมีคนตรวจ
- ☐ บันทึกคำสั่งที่ใช้บ่อยเป็น SOP เพื่อขยายผลให้ทีม
สรุปแล้ว Hermes AI Assistant ในคลิปนี้ไม่ใช่เวทมนตร์ แต่เป็นตัวอย่างที่ดีมากของการประกอบ AI, เสียง, เบอร์โทร และ tools ให้กลายเป็นระบบทำงานจริง จุดแข็งไม่ใช่ความหวือหวา แต่คือการทำให้งานเล็กๆ ที่เกิดขึ้นทุกวันหายจากมือเราไปได้
สำหรับเจ้าของธุรกิจและคนทำงาน บทเรียนสำคัญที่สุดอาจไม่ใช่วิธีสร้าง Jarvis แบบเป๊ะๆ แต่คือการเห็นภาพว่า AI ที่คุ้มจริงต้องเชื่อมกับงานจริง ถ้าเริ่มจากปัญหาที่ชัด เลือก use case ที่เล็กพอ และคุมสิทธิ์ให้ดี เราก็ไม่จำเป็นต้องรอระยะถัดไป เพราะ workflow แบบนี้เริ่มใช้ได้ตั้งแต่ตอนนี้แล้ว
