TL;DR (อ่าน 60 วินาที — คำตอบสั้น)
ต้นทุน “ค่า token” ของ AI chatbot ต่อข้อความ ถูกกว่าที่คนส่วนใหญ่คิดมาก — สำหรับ SME ไทยทั่วไป ค่าเรียก LLM ต่อ 1 บทสนทนา (ประมาณ 5–7 รอบโต้ตอบ) อยู่ที่ ราว 0.1–4 บาท ขึ้นกับรุ่นโมเดลที่เลือก. แปลว่าร้านที่มีลูกค้าทักราว 1,000 บทสนทนา/เดือน เสียค่า token เพียง ~100–3,000 บาท/เดือน. ตัวเลขนี้มัก ไม่ใช่ต้นทุนก้อนใหญ่ ของโปรเจกต์ — ต้นทุนจริงอยู่ที่ค่าออกแบบ/วางระบบ ค่าแพลตฟอร์ม และค่าดูแลรายเดือนต่างหาก. จุดที่ SME ไทยต้องรู้เพิ่มคือ ภาษาไทยกิน token มากกว่าอังกฤษ ~2–3 เท่า เพราะวิธีตัดคำของ tokenizer ทำให้ค่าใช้จ่ายต่อข้อความสูงกว่าตารางราคาที่เห็นในเว็บฝรั่ง. ทางลดต้นทุนที่ได้ผลจริง: เลือกรุ่นให้เหมาะกับงาน, เปิด prompt caching, ตัดประวัติแชตให้สั้น, และใช้ regex/deterministic จัดการคำถามซ้ำๆ โดยไม่เรียก LLM เลย.
ต้นทุน token ต่อบทสนทนา — ภาพรวมเร็ว (35 บาท/USD)
| Tier โมเดล | ตัวอย่างรุ่น (2026) | ต่อ 1 รอบโต้ตอบ | ต่อ 1 บทสนทนา (~6 รอบ) |
|---|---|---|---|
| 🟢 Budget | Gemini Flash-Lite, GPT-5 Nano | ~0.01–0.02 บาท | ~0.1 บาท |
| 🟡 Mid | GPT-5 Mini, Claude Haiku, Gemini Flash | ~0.10–0.15 บาท | ~1 บาท |
| 🔴 Premium | Claude Sonnet, GPT-5.4, Gemini Pro | ~0.35–0.45 บาท | ~3 บาท |
ตัวเลขเป็นค่าประมาณการจากสมมติฐานการใช้งานจริง (ดูวิธีคำนวณด้านล่าง) ราคา API เปลี่ยนได้ ตรวจสอบหน้าราคาทางการก่อนตัดสินใจเสมอ
ก่อนอื่น: “ค่า token” คืออะไร และคิดเงินยังไง
LLM (Large Language Model) ทุกตัว — Claude, GPT, Gemini — คิดเงินตามจำนวน token ไม่ใช่ตามจำนวน “ข้อความ” หรือ “ตัวอักษร”. token คือหน่วยย่อยของข้อความที่โมเดลใช้ประมวลผล โดยภาษาอังกฤษ 1 token ≈ 4 ตัวอักษร หรือราว ¾ ของ 1 คำ.
ผู้ให้บริการคิดเงินแยกเป็น 2 ฝั่ง:
- Input tokens (token ขาเข้า) — ทุกอย่างที่ “ป้อน” ให้โมเดล: คำถามลูกค้า + system prompt + ความรู้ที่ดึงมาจาก RAG + ประวัติการสนทนา
- Output tokens (token ขาออก) — คำตอบที่โมเดลสร้างกลับมา (มักแพงกว่า input 3–5 เท่า)
ราคาบอกเป็น “ดอลลาร์ต่อล้าน token” เช่น โมเดลกลางๆ ปี 2026 อยู่ที่ราว $0.25–$1 ต่อล้าน input และ $1.25–$5 ต่อล้าน output (อ้างอิงตารางราคา 2026). ฟังดูถูกมาก — และมันก็ถูกจริงต่อ 1 ข้อความ. ประเด็นคือ “ต่อเดือน” รวมกันเท่าไหร่ และอะไรกิน token เยอะที่สุด
ทำไมภาษาไทยกิน token แพงกว่าอังกฤษ 2–3 เท่า (จุดที่เว็บฝรั่งไม่บอก)
นี่คือข้อมูลสำคัญที่ SME ไทยมักมองข้าม. tokenizer ของ GPT/Claude/Gemini ถูกฝึกบนข้อมูลที่เอนไปทางภาษาอังกฤษอย่างมาก — มันจึงตัดคำอังกฤษเป็น subword ที่มีประสิทธิภาพ แต่ตัดภาษาที่ไม่มีการเว้นวรรคชัดเจนอย่าง ไทย/จีน/ญี่ปุ่น ออกเป็นตัวอักษรย่อยทีละตัว ทำให้ใช้ token มากกว่าหลายเท่าสำหรับเนื้อหาความยาวเท่ากัน (งานวิจัยเรื่องความไม่เท่าเทียมของ tokenizer ระหว่างภาษา).
ผลในทางปฏิบัติ: ข้อความไทยความยาวเท่ากับอังกฤษ อาจกิน token มากกว่า 2–3 เท่า. แปลว่าตารางราคา ”$ ต่อข้อความ” ที่เห็นในบล็อกต่างประเทศ ต้องคูณเผื่อสำหรับงานภาษาไทย. ข่าวดีคือมีโมเดลที่ออกแบบมาเพื่อภาษาไทยโดยเฉพาะ (เช่นตระกูล Typhoon) ที่ tokenize ภาษาไทยมีประสิทธิภาพกว่าโมเดลทั่วไปหลายเท่า (Typhoon: Thai LLM) — ถ้าปริมาณแชตสูงมาก การเลือก tokenizer ที่เก่งภาษาไทยช่วยลดต้นทุนได้จริง
อะไรกิน token เยอะที่สุดในบอต SME — เรียงจากมากไปน้อย
ความเข้าใจผิดที่พบบ่อย: “คำถามลูกค้าสั้นๆ ก็น่าจะถูก”. จริงๆ แล้ว คำถามลูกค้าคือส่วนที่เล็กที่สุด ของบิล. token ส่วนใหญ่มาจากสิ่งที่เรา “แนบ” ไปกับทุกการเรียก:
- RAG context (ความรู้ที่ดึงมา) — มักใหญ่สุด: 1,000–3,000 token/รอบ ถ้าดึงเอกสารมายัดเยอะเกิน
- System prompt (คำสั่งระบบ + persona + กฎ) — 300–1,500 token และถูกส่งซ้ำ “ทุกรอบ”
- ประวัติการสนทนา (history) — โตขึ้นเรื่อยๆ ทุกรอบ ยิ่งคุยยาวยิ่งแพง (รอบที่ 10 แพงกว่ารอบที่ 1 มาก)
- คำตอบของบอต (output) — แพงต่อ token แต่จำนวนไม่มาก ถ้าจำกัดความยาว
- คำถามลูกค้า — เล็กสุด มักแค่ 20–80 token
นี่คือเหตุผลว่าทำไมการ “ออกแบบ” บอตจึงมีผลต่อค่า token มากกว่าการ “เลือกรุ่นโมเดล” — บอตที่ยัด context 5,000 token ทุกรอบ แพงกว่าบอตที่ดึงเฉพาะ chunk ที่เกี่ยวข้อง 800 token แม้ใช้โมเดลเดียวกัน
คำนวณต้นทุนจริง: สมมติฐานและตัวเลขต่อเดือน
มาคำนวณแบบจับต้องได้. สมมติฐานบอต SME ที่วางระบบดี (RAG + history แบบ sliding window):
- Input ต่อรอบ: ~2,500 token (system prompt + RAG chunk ที่เกี่ยว + ประวัติสั้น — เผื่อค่า token ภาษาไทยแล้ว)
- Output ต่อรอบ: ~250 token
- 1 บทสนทนา: ~6 รอบโต้ตอบ (history โตขึ้นเรื่อยๆ จึงคูณจริงประมาณ 8 เท่าของ 1 รอบ)
- อัตราแลกเปลี่ยน: 35 บาท/USD
ต้นทุน token ต่อเดือน แยกตามปริมาณแชต
| บทสนทนา/เดือน | 🟢 Budget | 🟡 Mid | 🔴 Premium |
|---|---|---|---|
| 1,000 | ~100 บาท | ~1,000 บาท | ~3,000 บาท |
| 5,000 | ~500 บาท | ~5,000 บาท | ~15,000 บาท |
| 20,000 | ~2,000 บาท | ~20,000 บาท | ~60,000 บาท |
บทเรียนสำคัญจากตารางนี้: สำหรับ SME ส่วนใหญ่ที่มีลูกค้าทักหลักพันต่อเดือน ค่า token ของรุ่น budget/mid อยู่ที่หลักร้อยถึงต่ำๆ หลักพันบาท/เดือนเท่านั้น — ไม่ใช่ก้อนที่ต้องกังวลมากนัก. ค่าใช้จ่ายจะพุ่งก็ต่อเมื่อ (ก) ปริมาณแชตสูงมาก หรือ (ข) เลือกรุ่น premium ทำงานง่ายๆ ที่รุ่นถูกกว่าก็ทำได้ดี
ค่า token ≠ ค่า chatbot ทั้งหมด (สิ่งที่ต้องเข้าใจก่อนทำงบ)
นี่คือกับดักที่ทำให้หลายคนคิดงบผิด. ค่า token เป็นเพียง ส่วนเดียว ของต้นทุนรวม. สำหรับ SME ที่ปริมาณแชตยังไม่สูงมาก องค์ประกอบอื่นมักใหญ่กว่าค่า token หลายเท่า:
| องค์ประกอบต้นทุน | ลักษณะ | สัดส่วนสำหรับ SME ทั่วไป |
|---|---|---|
| ค่าออกแบบ + วางระบบ (ครั้งเดียว) | RAG, guardrail, เชื่อม Line OA | ก้อนใหญ่สุดตอนเริ่ม |
| ค่าแพลตฟอร์ม/โฮสต์รายเดือน | server, vector DB, เครื่องมือ | คงที่รายเดือน |
| ค่า token (API) | ผันตามปริมาณแชต | มักเล็กสำหรับ volume ต่ำ-กลาง |
| ค่าดูแล + เติมความรู้รายเดือน | อ่าน log, ปรับ prompt | คงที่รายเดือน |
อยากเห็นโครงสร้างต้นทุนเต็มทั้ง 5 tier? อ่านที่ AI Chatbot ราคา 2026: คู่มือคำนวณงบ SME. และถ้าจะเทียบว่ารุ่นไหนคุ้มสุดสำหรับงานภาษาไทย ดูที่ Claude vs GPT-5 vs Gemini สำหรับธุรกิจไทย 2026
7 วิธีลดค่า token จริง (ใช้ได้ทันที)
- Model routing — ใช้รุ่นให้เหมาะกับงาน ทักทาย/ถามทั่วไปใช้ budget, เฉพาะงานยากค่อยส่งให้ premium. ประหยัดได้ 50–80% โดยคุณภาพแทบไม่ต่าง
- เปิด prompt caching — system prompt + ความรู้ที่ส่งซ้ำทุกรอบ สามารถ cache ได้ ลดค่า input token ของส่วนที่ซ้ำลง 50–90% (รองรับทั้ง Claude/GPT/Gemini ในปี 2026)
- ตัดประวัติแชตให้สั้น (sliding window/summary) — เก็บแค่ N รอบล่าสุด หรือสรุปประวัติเก่าเป็นย่อหน้าสั้น แทนการแนบทั้งบทสนทนา
- RAG ดึงเฉพาะ chunk ที่เกี่ยว (top-k เล็ก) — ดึง 2–3 ย่อหน้าที่ตรงคำถาม แทนยัดทั้งเอกสาร อ่านเรื่องนี้ลึกที่ RAG คืออะไร
- Deterministic/regex จัดการคำถามซ้ำ — “เปิดกี่โมง” “ราคาเท่าไหร่” “ที่อยู่ร้าน” ตอบจากกฎ/ตารางได้เลย ไม่ต้องเรียก LLM = 0 token
- จำกัด max output tokens — ตั้งเพดานความยาวคำตอบ กันบอตร่ายยาวเกินจำเป็น (output แพงกว่า input หลายเท่า)
- เลือกโมเดลที่ tokenize ภาษาไทยเก่ง — ถ้า volume สูงมาก โมเดล Thai-centric ช่วยลด token ต่อข้อความได้จริง
ข้อ 5 คือของฟรีที่คนลืมบ่อยสุด — คำถามซ้ำๆ ที่ตอบด้วยกฎได้ ไม่ควรเปลือง token เรียก LLM เลย. แนวคิดนี้ต่อยอดได้กับงาน automation ลดต้นทุน
เทียบทางเลือก: จ่ายค่า token เอง vs ใช้แพลตฟอร์มเหมาจ่าย
SME มี 2 ทางหลักในการจ่ายค่าประมวลผล:
| รูปแบบ | ข้อดี | ข้อควรระวัง | เหมาะกับใคร |
|---|---|---|---|
| จ่ายค่า API ตามใช้จริง (pay-as-you-go) | จ่ายตามจริง ปรับรุ่นได้อิสระ | ต้องมีคนวางระบบ + คุมต้นทุน | คนที่อยากคุม cost ละเอียด/volume แปรปรวน |
| แพลตฟอร์มเหมาจ่าย/รายข้อความ | คาดเดางบง่าย ไม่ต้องดูแล backend | ราคาต่อข้อความมักแพงกว่า token ดิบ | คนที่อยากเริ่มเร็ว ไม่อยากดูแลเอง |
ความจริงที่ควรรู้: แพลตฟอร์มเหมาจ่ายรายข้อความสะดวกก็จริง แต่ “ส่วนต่าง” ที่บวกเพิ่มจากค่า token ดิบมักสูง. ถ้าปริมาณแชตเริ่มเยอะ การวางระบบ pay-as-you-go เองมักประหยัดกว่าในระยะยาว — แต่ต้องแลกกับงานดูแล. การตัดสินใจขึ้นกับ volume และทีมที่มี
คำถามที่พบบ่อย (FAQ)
Q1: ค่า token ต่อข้อความของบอตภาษาไทยประมาณเท่าไหร่?
สำหรับบอตที่วางระบบดี ใช้รุ่นกลาง (mid tier) ต้นทุนต่อ 1 รอบโต้ตอบอยู่ราว 0.10–0.15 บาท และต่อ 1 บทสนทนา (~6 รอบ) ราว 1 บาท. รุ่น budget ถูกกว่านี้ ~10 เท่า. ตัวเลขจริงขึ้นกับขนาด context และความยาวคำตอบ
Q2: ทำไมบิลจริงสูงกว่าที่คำนวณจากคำถามลูกค้า?
เพราะค่า token ส่วนใหญ่ไม่ได้มาจากคำถามลูกค้า แต่มาจาก system prompt + ความรู้ RAG + ประวัติการสนทนา ที่ถูกแนบไปทุกรอบ. คำถามลูกค้ามักเป็นส่วนที่เล็กที่สุดของบิล
Q3: ภาษาไทยทำให้ค่า token แพงขึ้นจริงไหม?
จริง — tokenizer ของโมเดลทั่วไปตัดคำไทยไม่มีประสิทธิภาพเท่าอังกฤษ ทำให้ใช้ token มากกว่า ~2–3 เท่าสำหรับเนื้อหายาวเท่ากัน. ควรเผื่องบส่วนนี้ และพิจารณาโมเดลที่เก่งภาษาไทยถ้า volume สูง
Q4: prompt caching ช่วยประหยัดได้จริงแค่ไหน?
ช่วยมากสำหรับบอตที่มี system prompt และความรู้คงที่ส่งซ้ำทุกรอบ — ลดค่า input token ของส่วนที่ซ้ำได้ราว 50–90% ขึ้นกับผู้ให้บริการ. คุ้มมากกับบอต SME ที่มี persona/กฎยาวคงที่
Q5: ควรเลือกรุ่น budget หรือ premium?
เริ่มจาก mid tier เป็นค่าเริ่มต้น แล้วใช้ model routing: งานทั่วไปลงไป budget, เฉพาะคำถามซับซ้อน/งานที่พลาดไม่ได้ค่อยขึ้น premium. การใช้ premium กับทุกคำถามมักจ่ายเกินจำเป็น
Q6: ค่า token เป็นต้นทุนหลักของโปรเจกต์ chatbot ไหม?
สำหรับ SME volume ต่ำ-กลาง มักไม่ใช่ — ต้นทุนหลักคือค่าออกแบบ/วางระบบครั้งแรก + ค่าดูแลรายเดือน. ค่า token จะกลายเป็นก้อนใหญ่ก็ต่อเมื่อปริมาณแชตสูงมากหรือเลือกรุ่นแพงเกินงาน
เริ่มยังไงกับ KORP AI
- Discovery call ฟรี 45 นาที — เราประเมินปริมาณแชตของคุณ แล้วทำตารางต้นทุน token จริงต่อเดือนให้เห็นก่อนเริ่ม
- Cost model ตามธุรกิจคุณ — คำนวณ 3 tier (budget/mid/premium) เทียบกับ ROI ที่คาดว่าจะได้
- วางระบบประหยัด token — RAG top-k, prompt caching, model routing, regex สำหรับคำถามซ้ำ
- รีวิวรายเดือน — อ่าน usage log จริง ปรับรุ่น/ปรับ context ให้ต้นทุนลงต่อเนื่อง
📞 Line: @korpai 🌐 เว็บ: korpai.co/demo 📘 FB: KORP AI Automation
💻 โค้ดตัวอย่างใช้ได้จริงวันนี้: snippets/2026-06-02 — token cost calculator, Thai token estimator, sliding-window history trimmer, RAG top-k limiter, prompt-cache key builder
บทความที่เกี่ยวข้อง:
- AI Chatbot ราคา 2026: คู่มือคำนวณงบ SME — โครงสร้างต้นทุน chatbot ครบ 5 tier (ค่า token เป็นส่วนหนึ่ง)
- Claude vs GPT-5 vs Gemini สำหรับธุรกิจไทย 2026 — เทียบราคา/คุณภาพรุ่นต่างๆ ในงานภาษาไทย
- RAG คืออะไร และทำไม SME ไทยควรรู้จัก — RAG ที่ดีช่วยลด token (ดึงเฉพาะที่เกี่ยว)
- Automation ราคาเท่าไหร่ SME 2026: คำนวณ ROI จริง — มอง token cost ในภาพ ROI รวม
- DIY Chatbot SME 2026: ทำเองไม่ต้องเขียนโค้ด — เครื่องมือที่คุม token/cost ได้
- AI Chatbot หลอน (Hallucination) ป้องกัน 7 ชั้น — guardrail ที่ใช้ deterministic ช่วยลด token ด้วย
เขียนโดยทีม KORP AI — Thai AI Agency ที่ออกแบบ deploy และดูแล AI chatbot ให้ SME ไทยตั้งแต่ Q1/2023 โดยเน้นสถาปัตยกรรมประหยัดต้นทุน (RAG top-k + prompt caching + model routing). ตัวเลขในบทความเป็นค่าประมาณการจากสมมติฐานการใช้งานจริงและตารางราคา API สาธารณะที่อ้างอิงในเนื้อหา ราคาจริงเปลี่ยนได้ ควรตรวจสอบหน้าราคาทางการก่อนตัดสินใจ. บทความนี้เป็นข้อมูลทั่วไป ไม่ใช่คำปรึกษาทางการเงิน.