TL;DR (อ่าน 60 วินาที — คำตอบสั้น)
สำหรับ SME ไทยส่วนใหญ่ การเรียก API (Claude / GPT / Gemini) ยังคุ้มกว่าการ self-host LLM เองในปี 2026 — เพราะที่ปริมาณแชตระดับ SME ทั่วไป (หลักพันถึงหลักหมื่นบทสนทนา/เดือน) ค่า API อยู่แค่หลักร้อยถึงหลักพันบาท/เดือน ขณะที่การตั้งเซิร์ฟเวอร์ GPU เองมี ต้นทุนขั้นต่ำคงที่ ~2,000–5,000 บาท/เดือน ที่ต้องจ่ายแม้ไม่มีลูกค้าทักเลย บวกค่าดูแล 24 ชม. ที่มองไม่เห็น. Self-host จะเริ่มคุ้มก็ต่อเมื่อ (1) ปริมาณสูงมากและสม่ำเสมอ, (2) ข้อมูลอ่อนไหว/PDPA บังคับให้ห้ามส่งออกนอกองค์กร, หรือ (3) ต้องการโมเดลเฉพาะภาษาไทยอย่าง Typhoon บนเครื่องตัวเอง. ทางที่ปลอดภัยสุดสำหรับ SME คือ เริ่มจาก API ก่อน แล้วค่อย route เฉพาะงานปริมาณสูง/ข้อมูลอ่อนไหวไป self-host ทีหลังแบบ hybrid.
Self-host vs API — ภาพรวมเร็ว
| ปัจจัย | เรียก API (Claude/GPT/Gemini) | Self-host (Typhoon/Llama) |
|---|---|---|
| ต้นทุนเริ่มต้น | ~0 บาท จ่ายตามใช้ | ค่า GPU/เซิร์ฟเวอร์ + setup |
| ต้นทุนคงที่/เดือน | จ่ายเฉพาะที่ใช้ | ~2,000–5,000 บาท+ แม้ไม่มีทราฟฟิก |
| จุดคุ้มทุน | คุ้มที่ volume ต่ำ-กลาง | คุ้มที่ volume สูงมาก/สม่ำเสมอ |
| ข้อมูลออกนอกองค์กร | ส่งไป cloud ต่างประเทศ | อยู่ในเครื่องคุณ 100% |
| งานดูแล | ผู้ให้บริการดูแลให้ | คุณดูแลเอง 24 ชม. |
| คุณภาพภาษาไทย | สูง (รุ่น flagship) | ดี (Typhoon เก่งไทยโดยเฉพาะ) |
ตัวเลขเป็นค่าประมาณการเชิงสถาปัตยกรรม ไม่ใช่ใบเสนอราคา — ต้นทุนจริงขึ้นกับ spec, ปริมาณ และรุ่นโมเดล ตรวจสอบราคาทางการก่อนตัดสินใจเสมอ
”Self-host LLM” คืออะไร และต่างจากเรียก API ยังไง
เวลาทำ AI chatbot มีสองวิธีหลักในการ “เอาสมอง” (โมเดลภาษา) มาใช้:
1. เรียก API — คุณส่งข้อความไปที่เซิร์ฟเวอร์ของ Anthropic (Claude), OpenAI (GPT) หรือ Google (Gemini) แล้วรับคำตอบกลับมา จ่ายเงินตามจำนวน token ที่ใช้. คุณไม่ต้องมีเครื่องแรง ไม่ต้องดูแลอะไร — แต่ข้อมูลของลูกค้าต้องวิ่งออกไปประมวลผลที่ cloud ต่างประเทศ
2. Self-host (โฮสต์เอง) — คุณดาวน์โหลดโมเดล “โอเพนซอร์ส” (เช่น Typhoon ของ SCB 10X, Llama ของ Meta, Qwen, Gemma) มารันบนเครื่อง GPU ของคุณเอง ผ่านเครื่องมืออย่าง Ollama (ง่าย เหมาะเริ่มต้น) หรือ vLLM (เร็ว เหมาะ production). ข้อมูลไม่ออกนอกองค์กร แต่คุณต้องลงทุนฮาร์ดแวร์และดูแลเองทั้งหมด
หัวใจของบทความนี้ไม่ใช่ “อันไหนดีกว่า” แบบทื่อๆ — แต่คือ “ที่ปริมาณและเงื่อนไขของคุณ อันไหนคุ้มกว่า” ซึ่งคำตอบสำหรับ SME ไทยส่วนใหญ่ต่างจากบทความฝรั่งที่เขียนให้บริษัทใหญ่
ความจริงเรื่องต้นทุน: ทำไม API ถึงชนะที่ volume SME
ประเด็นที่คนพลาดบ่อยคือมองแค่ “ค่าต่อ token” แล้วเห็นว่าโมเดลโอเพนซอร์สรันเองแล้ว “ฟรี” — แต่ในความเป็นจริง self-host ไม่มีอะไรฟรี มันแค่ย้ายต้นทุนจาก ‘จ่ายตามใช้’ มาเป็น ‘จ่ายคงที่ทุกเดือนไม่ว่าจะใช้หรือไม่’
ลองดูโครงสร้างต้นทุนจริงสองฝั่ง:
ฝั่ง API — ที่ปริมาณ SME ทั่วไป (อ้างอิงจากบทความ ต้นทุน token ต่อข้อความ) ร้านที่มีลูกค้าทักราว 1,000 บทสนทนา/เดือน เสียค่า token เพียงราว 100–3,000 บาท/เดือน ขึ้นกับรุ่น. ไม่มีค่าเครื่อง ไม่มีค่าไฟ ไม่มีคนเฝ้า
ฝั่ง self-host — แค่จะ “เปิดเครื่องรอ” ก็มีต้นทุนแล้ว:
- ค่า GPU/เซิร์ฟเวอร์ — การ์ดที่รันโมเดล 7B–14B ได้ลื่น (เช่นระดับ RTX 4090 หรือ cloud GPU) เฉลี่ยแล้วตกราว 2,000–5,000 บาท/เดือนขึ้นไปเมื่อกระจายค่าเครื่อง/ค่าเช่า
- ค่าไฟ + cooling — GPU กินไฟต่อเนื่องถ้าเปิดทิ้งไว้รอ
- ค่าดูแล (ต้นทุนที่มองไม่เห็น) — ต้องมีคนอัปเดต, แพตช์, เฝ้า uptime, จัดการตอนโมเดลล่ม. นี่คือต้นทุนแฝงที่แพงที่สุดและคนชอบลืม (เหมือนกับที่เราเตือนไว้ในบทความ n8n self-host บน VPS)
- ต้นทุน idle — จุดเจ็บที่สุดของ SME: ลูกค้าทักเป็นช่วง (พีคตอนเย็น เงียบตอนกลางคืน) แต่เครื่อง GPU ต้องเปิดรอ 24 ชม. = คุณจ่ายค่า “ความพร้อม” แม้ตอนไม่มีใครทัก
บรรทัดสรุป: ถ้าค่า API ของคุณยังไม่แตะหลักหมื่นบาท/เดือน การ self-host มักทำให้ต้นทุน รวม (Total Cost of Ownership) แพงขึ้น ไม่ใช่ถูกลง เพราะคุณจ่ายค่าคงที่เกินกว่าที่ประหยัดค่า token ได้
แล้วจุดคุ้มทุนอยู่ตรงไหน? (Break-even)
หลักการง่ายๆ: self-host เริ่มคุ้มเมื่อค่า “จ่ายตามใช้” ของ API สูงกว่าค่า “คงที่” ของเครื่องเองอย่างชัดเจนและสม่ำเสมอ
| ระดับการใช้งาน | ปริมาณโดยประมาณ | คำแนะนำ |
|---|---|---|
| 🟢 SME เริ่มต้น | < 5,000 บทสนทนา/เดือน | API ชนะชัดเจน — อย่าเพิ่ง self-host |
| 🟡 SME โต | 5,000–30,000 บทสนทนา/เดือน | API ยังคุ้มกว่า เว้นมีเหตุผลเรื่องข้อมูล |
| 🟠 ปริมาณสูง | สูง + สม่ำเสมอทั้งเดือน | เริ่มพิจารณา hybrid / self-host บางงาน |
| 🔴 สเกลใหญ่/องค์กร | ทราฟฟิกหนาแน่นตลอด | self-host เริ่มคุ้ม ทางเศรษฐศาสตร์ |
ข้อมูลจากการวิเคราะห์ TCO ปี 2026 ชี้ว่า self-host (ด้วย vLLM) จะเริ่มได้เปรียบเมื่อใช้งานทะลุระดับ “หลายสิบล้าน token/เดือน” ขึ้นไปแบบ ใช้เครื่องเต็มประสิทธิภาพ — ซึ่งสำคัญมาก เพราะ break-even ตั้งอยู่บนสมมติฐานว่าเครื่องถูกใช้งานหนัก ไม่ใช่เปิดรอเฉยๆ. ที่สเกลอุตสาหกรรมจริง (หลักร้อยล้าน token/วัน) self-host ประหยัดได้ถึงหลายเท่า — แต่นั่นไม่ใช่โลกของ SME ทั่วไป
Information Gain สำคัญ: บทความฝรั่งมักบอกว่า “self-host ถูกกว่า 5 เท่า” — จริง แต่เฉพาะที่สเกลองค์กร. สำหรับร้าน SME ไทยที่มีลูกค้าหลักพัน/เดือน การยกตัวเลขนั้นมาใช้คือการตัดสินใจผิดที่จะทำให้ “จ่ายแพงขึ้นเพื่อความรู้สึกว่าเป็นเจ้าของ”
เมื่อ Self-Host คือคำตอบที่ถูกต้อง (แม้ค่าจะแพงกว่า)
มีกรณีที่ เรื่องเงินไม่ใช่ปัจจัยหลัก และ self-host คือทางที่ควรเลือก:
- PDPA / ข้อมูลอ่อนไหวห้ามออกนอกองค์กร — คลินิก, โรงพยาบาล, สำนักงานบัญชี, สำนักงานกฎหมาย, สถาบันการเงิน ที่จัดการข้อมูลสุขภาพ/การเงิน/เอกสารลับ. ถ้านโยบายหรือสัญญาลูกค้าระบุว่าข้อมูลห้ามส่งไป cloud ต่างประเทศ การ self-host / on-premise อาจ จำเป็นโดยไม่เกี่ยวกับราคา (อ่านเพิ่มที่ PDPA กับ AI Chatbot)
- ต้องการ data residency ในไทยแบบเข้มงวด — บางองค์กร/ภาครัฐต้องการให้ข้อมูลและการประมวลผลอยู่ในประเทศ
- ปริมาณสูงและคาดเดาได้ — ถ้าทราฟฟิกหนาแน่นสม่ำเสมอทั้งเดือน เครื่องถูกใช้เต็ม การ self-host จะคุ้มขึ้นจริง
- ต้องการคุมโมเดลเต็มที่ — fine-tune ด้วยข้อมูลของตัวเอง, ล็อกเวอร์ชันไม่ให้เปลี่ยนใต้เท้า, หรือทำงาน offline/air-gapped
- ต้องการโมเดลเฉพาะภาษาไทย — นี่คือจุดที่ Typhoon เข้ามามีบทบาท (อ่านหัวข้อถัดไป)
ถ้าธุรกิจคุณไม่เข้าข่ายข้อใดข้อหนึ่งข้างบนแบบชัดเจน — โอกาสสูงมากที่ API คือคำตอบที่ถูกต้องสำหรับตอนนี้
Typhoon, Llama และเพื่อน: เลือกโมเดลโอเพนซอร์สตัวไหน
ถ้าตัดสินใจจะ self-host จริง โมเดลโอเพนซอร์สที่เกี่ยวข้องกับงานภาษาไทยปี 2026 ได้แก่:
- Typhoon (SCB 10X) — โมเดลภาษาไทยโอเพนซอร์สที่ถูกดาวน์โหลด/ใช้งานมากที่สุดในไทย. รุ่น Typhoon 2 มีหลายขนาด (เล็กถึง 70B) และมีเวอร์ชัน multimodal (ภาพ/เสียง). จุดเด่นคือ เก่งภาษาไทยโดยเฉพาะ — ตัดคำ เข้าใจบริบทไทย และมักใช้ token ต่อเนื้อหาภาษาไทยได้คุ้มกว่าโมเดลตะวันตก. รุ่นพื้นฐานเปิดเป็นโอเพนซอร์ส (Apache 2.0) เอามารันเองได้
- Llama (Meta) — ตระกูลโมเดลโอเพนเวทยอดนิยมระดับโลก ชุมชนใหญ่ เครื่องมือรองรับเยอะ แต่ความเก่งภาษาไทยต้องดูรุ่นและการ fine-tune
- Qwen / Gemma — ทางเลือกโอเพนเวทอื่นที่หลายตัวรองรับหลายภาษารวมถึงไทยได้ดีขึ้นเรื่อยๆ
เครื่องมือรัน:
- Ollama — ติดตั้งง่ายสุด เหมาะทดลอง/dev และงานปริมาณไม่สูง. ข้อจำกัดคือไม่เหมาะ scale ระดับ production ที่มีคนทักพร้อมกันเยอะ
- vLLM — โอเพนซอร์ส throughput สูง เป็นตัวเลือกมาตรฐานสำหรับ production ที่ต้องรับคำขอจำนวนมากพร้อมกัน
ข้อควรระวัง: “รันได้บนโน้ตบุ๊ก” กับ “รับลูกค้าจริงพร้อมกัน 50 คนตอนโปรโมชัน” คนละเรื่องกัน. การ demo ด้วย Ollama บนเครื่องตัวเองนั้นง่าย แต่การทำให้บริการเสถียร 24 ชม. ภายใต้โหลดจริงคืองานวิศวกรรมที่ต้องลงแรงและงบจริง
ทางสายกลาง: Hybrid ที่ SME ไทยควรเริ่ม
คุณไม่จำเป็นต้องเลือกข้างเดียวตลอดไป. สถาปัตยกรรมที่เราแนะนำลูกค้า SME บ่อยที่สุดคือ เริ่มที่ API แล้วค่อยๆ ย้ายเฉพาะส่วนที่คุ้ม:
- เฟส 1 — เริ่มด้วย API ล้วน — deploy เร็ว ต้นทุนต่ำ พิสูจน์ว่า chatbot สร้างผลจริงก่อน (ใช้ model routing เลือกรุ่นตามงานเพื่อคุมค่า token — ดู Claude vs GPT vs Gemini)
- เฟส 2 — วัดจริง — เก็บ log ปริมาณแชตและค่าใช้จ่าย 1–3 เดือน ดูว่าค่า API โตถึงระดับที่ self-host จะคุ้มไหม และมีข้อมูลส่วนไหนที่อ่อนไหวจน “ไม่ควรส่งออก”
- เฟส 3 — hybrid แบบเลือกเฉพาะจุด — route เฉพาะ “งานปริมาณสูงที่ซ้ำๆ” หรือ “ข้อมูลอ่อนไหว PDPA” ไปยังโมเดล self-host (เช่น Typhoon บนเครื่องในองค์กร) ส่วนงานทั่วไป/งานยากยังใช้ API flagship
- ตลอดทาง — ใช้ RAG ที่ดีและ deterministic guardrail เพื่อลดทั้งค่า token และจำนวนครั้งที่ต้องเรียกโมเดลใหญ่ (ดู RAG คืออะไร)
แนวทาง hybrid นี้ให้คุณได้ทั้ง ความเร็วในการเริ่ม ของ API และ การควบคุมต้นทุน/ข้อมูล ของ self-host โดยไม่ต้องเดิมพันก้อนใหญ่ตั้งแต่วันแรก
Checklist ตัดสินใจใน 5 ข้อ
ตอบ 5 ข้อนี้ แล้วคำตอบจะชัดเอง:
- ปริมาณแชตต่อเดือนเท่าไหร่? — หลักพัน-หลักหมื่น → API. สูงมากและสม่ำเสมอ → พิจารณา self-host
- ข้อมูลอ่อนไหวแค่ไหน? — มีข้อมูลสุขภาพ/การเงิน/ความลับที่ห้ามออกนอกองค์กร → น้ำหนักไปทาง self-host/on-prem
- มีทีมดูแลเซิร์ฟเวอร์ 24 ชม. ไหม? — ไม่มี → API (อย่าซื้อภาระที่ดูแลไม่ไหว)
- ต้องการโมเดลเฉพาะภาษาไทย/fine-tune เองไหม? — ใช่ → Typhoon self-host น่าสนใจ
- งบลงทุนก้อนแรกพร้อมไหม และยอมรับ payback หลายเดือนได้ไหม? — ไม่พร้อม/อยากเริ่มเล็ก → API
ถ้าคำตอบส่วนใหญ่เอนไป “API” — นั่นคือทางที่ถูกต้อง และไม่ใช่เรื่องน่าอาย. การ self-host ไม่ได้แปลว่า “โปรกว่า” มันแค่เป็นเครื่องมือที่เหมาะกับเงื่อนไขเฉพาะ
คำถามที่พบบ่อย (FAQ)
Q1: Self-host LLM ถูกกว่าจริงไหมสำหรับ SME?
สำหรับ SME ปริมาณต่ำ-กลาง มักไม่ถูกกว่า — เพราะคุณต้องจ่ายค่าเครื่อง/ค่าไฟ/ค่าดูแลคงที่ทุกเดือนแม้ไม่มีลูกค้าทัก ขณะที่ API จ่ายเฉพาะที่ใช้. Self-host จะถูกกว่าก็ต่อเมื่อปริมาณสูงมากและใช้เครื่องเต็มประสิทธิภาพ
Q2: Typhoon คืออะไร ใช้แทน Claude/GPT ได้ไหม?
Typhoon คือ LLM ภาษาไทยโอเพนซอร์สของ SCB 10X (รุ่นล่าสุดคือ Typhoon 2 มีหลายขนาดและรองรับ multimodal) เก่งภาษาไทยและเอามารันเองได้. ใช้แทนได้ในหลายงาน โดยเฉพาะงานภาษาไทยและกรณีที่ข้อมูลห้ามออกนอกองค์กร แต่งานยาก/ซับซ้อนมากรุ่น flagship เชิงพาณิชย์อาจยังได้เปรียบ — ควรทดสอบกับงานจริงของคุณ
Q3: Ollama กับ vLLM ต่างกันยังไง?
Ollama ติดตั้งง่าย เหมาะทดลองและงานเบา. vLLM throughput สูงกว่ามาก เหมาะ production ที่มีผู้ใช้พร้อมกันเยอะ. เริ่มเรียนรู้ด้วย Ollama ได้ แต่ขึ้น production จริงที่โหลดสูงควรดู vLLM
Q4: ถ้าห่วงเรื่อง PDPA ต้อง self-host เสมอไหม?
ไม่เสมอไป — หลายกรณีใช้ API ได้ถ้ามีการจัดการความยินยอม, การ mask ข้อมูล, และข้อตกลงประมวลผลข้อมูลที่เหมาะสม. แต่ถ้าข้อมูลอ่อนไหวมากหรือสัญญาห้ามส่งออกนอกองค์กรชัดเจน การ self-host/on-prem จะตอบโจทย์ตรงกว่า ควรประเมินเป็นรายกรณี (ไม่ใช่คำแนะนำทางกฎหมาย)
Q5: รัน LLM เองต้องใช้เครื่องแรงแค่ไหน?
ขึ้นกับขนาดโมเดล — รุ่นเล็ก (7B–14B) รันได้บน GPU ระดับ consumer แรงๆ ส่วนรุ่นใหญ่ (70B) ต้องการ VRAM สูงหรือหลายการ์ด. แต่ “รันได้” กับ “รับโหลดจริงพร้อมกันได้อย่างเสถียร” คนละระดับ ต้องเผื่อ headroom สำหรับพีค
Q6: SME ควรเริ่มยังไงถ้ายังไม่แน่ใจ?
เริ่มด้วย API ก่อน เก็บ log ปริมาณและต้นทุนจริง 1–3 เดือน แล้วค่อยตัดสินใจด้วยข้อมูลว่าจะ self-host บางส่วนแบบ hybrid ไหม. อย่าลงทุน GPU ก้อนใหญ่ก่อนพิสูจน์ว่า chatbot สร้างผลจริง
เริ่มยังไงกับ KORP AI
- Discovery call ฟรี 45 นาที — เราช่วยประเมินว่าธุรกิจคุณควรใช้ API, self-host หรือ hybrid จากปริมาณและความอ่อนไหวของข้อมูลจริง
- TCO เทียบให้เห็นก่อนตัดสินใจ — ทำตารางต้นทุนรวม API vs self-host ตามปริมาณแชตของคุณ ไม่ใช่ตัวเลขจากบทความฝรั่ง
- วาง hybrid architecture — เริ่มที่ API, route งานอ่อนไหว/ปริมาณสูงไป Typhoon/Llama self-host เมื่อคุ้ม
- ดูแลต่อเนื่อง — อ่าน usage log จริงรายเดือน ปรับ routing/รุ่น/สถาปัตยกรรมให้ต้นทุนลงและข้อมูลปลอดภัย
📞 Line: @korpai 🌐 เว็บ: korpai.co/demo 📘 FB: KORP AI Automation
💻 โค้ดตัวอย่างใช้ได้จริงวันนี้: snippets/2026-06-06 — LLM TCO calculator (API vs self-host), Thai token efficiency estimator, Ollama health probe, hybrid router (API↔local fallback), PDPA data-residency policy gate, vLLM concurrency sizing
บทความที่เกี่ยวข้อง:
- AI Chatbot ต้นทุนต่อข้อความเท่าไหร่ (ค่า token จริง) — เข้าใจค่า token ฝั่ง API ก่อนเทียบกับ self-host
- Claude vs GPT-5 vs Gemini สำหรับธุรกิจไทย 2026 — เทียบรุ่น API flagship และ model routing
- n8n Self-Host บน VPS: ต้นทุน/spec/backup — ต้นทุนแฝงของการ self-host อะไรก็ตาม
- PDPA กับ AI Chatbot สำหรับ SME ไทย 2026 — เมื่อข้อมูลบังคับเรื่อง on-premise
- RAG คืออะไร และทำไม SME ไทยควรรู้จัก — ลดทั้งค่า token และจำนวนครั้งที่ต้องเรียกโมเดลใหญ่
- AI Chatbot ราคา 2026: คู่มือคำนวณงบ SME — โครงสร้างต้นทุน chatbot ครบทุก tier
เขียนโดยทีม KORP AI — Thai AI Agency ที่ออกแบบ deploy และดูแล AI chatbot ให้ SME ไทยตั้งแต่ Q1/2023 ทั้งสถาปัตยกรรมแบบ API, self-host และ hybrid. ตัวเลขในบทความเป็นค่าประมาณการเชิงสถาปัตยกรรมจากข้อมูลสาธารณะปี 2026 ราคา/ความสามารถของโมเดลเปลี่ยนได้ ควรทดสอบกับงานจริงและตรวจสอบแหล่งทางการก่อนตัดสินใจ. บทความนี้เป็นข้อมูลทั่วไป ไม่ใช่คำปรึกษาทางกฎหมายหรือการเงิน.