สถานภาพและการพัฒนาปัญญาประดิษฐ์สัญชาติไทย: ความก้าวหน้าด้านการประมวลผลภาษาธรรมชาติ โมเดลภาษาขนาดใหญ่ และเทคโนโลยีเสียงพูด (พ.ศ. 2567–2569) - PanyaPradit

บทนำ: ความสำคัญเชิงกลยุทธ์และบริบททางภาษาศาสตร์ของปัญญาประดิษฐ์ภาษาไทย

การขยายตัวอย่างรวดเร็วของเทคโนโลยีปัญญาประดิษฐ์ (Artificial Intelligence: AI) ในระดับสากลได้สร้างความเปลี่ยนแปลงอย่างมีนัยสำคัญต่อภูมิทัศน์ของภาษาศาสตร์เชิงคำนวณ (Computational Linguistics) อย่างไรก็ตาม โครงสร้างพื้นฐานของโมเดลรากฐาน (Foundation Models) ชั้นนำระดับโลกยังคงถูกออกแบบและปรับแต่งมาเพื่อรองรับกลุ่มภาษาที่มีทรัพยากรสูง โดยเฉพาะภาษาที่ใช้อักษรละตินเป็นหลัก บริบทของภาษาไทยนั้นมีความท้าทายทางคอมพิวเตอร์ที่ซับซ้อนและมีเอกลักษณ์เฉพาะตัว ซึ่งทำให้โมเดลภาษาตะวันตกแบบสำเร็จรูปไม่สามารถทำงานได้อย่างเต็มประสิทธิภาพ ภาษาไทยเป็นภาษาที่ใช้อักษรแบบสระประกอบ (Abugida) ไม่มีเครื่องหมายวรรคตอนเพื่อแบ่งแยกคำอย่างชัดเจน มีความซับซ้อนของการใช้เสียงวรรณยุกต์ที่ส่งผลต่อความหมาย และมีกฎเกณฑ์ทางอักขรวิธีที่ยืดหยุ่นและซับซ้อน ซึ่งทั้งหมดนี้ล้วนต้องการวิธีการทางอัลกอริทึมที่ถูกออกแบบมาโดยเฉพาะ ¹ นอกจากนี้ ภูมิทัศน์ทางภาษาศาสตร์สังคมของประเทศไทยไม่ได้มีเพียงแค่ภาษาไทยมาตรฐาน (ภาษาไทยถิ่นกลาง) เท่านั้น แต่ยังประกอบไปด้วยความหลากหลายของภาษาถิ่น เช่น ภาษาอีสาน ภาษาล้านนา (เหนือ) และภาษาใต้ (ตามโบร) ซึ่งความหลากหลายนี้ได้เพิ่มความซับซ้อนในการพัฒนาระบบปัญญาประดิษฐ์ให้มีความครอบคลุมและแม่นยำ ⁴

ในช่วงระหว่างปี พ.ศ. 2567 ถึง 2569 ระบบนิเวศของปัญญาประดิษฐ์ในประเทศไทยได้พัฒนาอย่างก้าวกระโดด จากจุดเริ่มต้นที่เป็นเพียงการทดลองในกลุ่มย่อย สู่การสร้างโครงสร้างพื้นฐานระดับชาติที่มีขีดความสามารถในการพึ่งพาตนเองและมีอธิปไตยทางเทคโนโลยี ด้วยแรงขับเคลื่อนจากพลวัตทางภูมิรัฐศาสตร์ นโยบายการพึ่งพาตนเองทางดิจิทัล และนวัตกรรมแบบเปิด (Open-source) ที่เติบโตอย่างรวดเร็ว ประเทศไทยได้สถาปนาตนเองขึ้นเป็นศูนย์กลางสำคัญสำหรับการพัฒนา AI ในภูมิภาคเอเชียตะวันออกเฉียงใต้ ⁶ รายงานวิจัยฉบับนี้จัดทำขึ้นเพื่อนำเสนอการวิเคราะห์เชิงลึกที่ครอบคลุมภูมิทัศน์ของ AI ภาษาไทยในปัจจุบัน โดยประเมินตั้งแต่นโยบายระดับมหภาคที่กำกับดูแลการนำอัลกอริทึมไปใช้ โครงสร้างพื้นฐานทางเทคโนโลยีที่รองรับการเรียนรู้เชิงลึก (Deep Learning) นวัตกรรมเชิงสถาปัตยกรรมที่กำหนดทิศทางของโมเดลภาษาขนาดใหญ่ (Large Language Models: LLMs) ขีดความสามารถด้านวิทัศน์คอมพิวเตอร์แบบหลายรูปแบบ (Multimodal Vision) ไปจนถึงความก้าวหน้าล่าสุดในเทคโนโลยีการสังเคราะห์เสียง (Speech Synthesis) และระบบแปลงข้อความเป็นเสียงพูด (Text-to-Speech: TTS) นอกจากนี้ ยังทำการวิเคราะห์อย่างรัดกุมถึงระบบนิเวศของการประเมินผล (Benchmarking) ที่ถูกสร้างขึ้นมาเพื่อประเมินโมเดลเหล่านี้ในด้านความสอดคล้องทางวัฒนธรรม ความครอบคลุมของภาษาถิ่น และความปลอดภัย

กระบวนทัศน์อธิปไตยทางปัญญาประดิษฐ์และยุทธศาสตร์ระดับชาติ

แนวคิดเรื่อง “อธิปไตยทางปัญญาประดิษฐ์” (Sovereign AI) ได้กลายมาเป็นวาระแห่งชาติและเป้าหมายเชิงกลยุทธ์ระดับสูงสำหรับรัฐบาลทั่วโลกที่ต้องการรักษาสิทธิขาดในการควบคุมโครงสร้างพื้นฐานทางดิจิทัล ขีดความสามารถในการประมวลผลข้อมูล และทรัพย์สินทางปัญญาที่สำคัญ แทนที่จะแสวงหาการพึ่งพาตนเองอย่างสมบูรณ์แบบในทุกมิติ (Autarky) ประเทศไทยได้นำแนวทางปฏิบัติที่ยืดหยุ่นและเป็นรูปธรรมมาใช้ ซึ่งเรียกว่าแนวทาง “อธิปไตยที่เพียงพอขั้นต่ำ” (Minimum sufficient sovereignty) กรอบการทำงานนี้มุ่งเน้นไปที่การจัดเก็บและประมวลผลข้อมูลที่มีความอ่อนไหวสูง เช่น ข้อมูลภาครัฐ โครงสร้างพื้นฐานทางการเงิน และระบบความมั่นคงของชาติ ให้อยู่บนระบบคลาวด์ภายในประเทศหรือศูนย์ข้อมูลที่มีอธิปไตยอย่างเบ็ดเสร็จ ตัวอย่างที่ชัดเจนได้แก่ การเปิดให้บริการคลาวด์อธิปไตย (Sovereign Cloud) ระหว่าง Gulf Edge และ Google รวมถึงคลาวด์อธิปไตยระดับไฮเปอร์สเกลของ AIS ที่สร้างขึ้นบนสถาปัตยกรรมของ Oracle ในขณะเดียวกันก็ยังคงอนุญาตให้แอปพลิเคชันเชิงพาณิชย์ทั่วไปสามารถเชื่อมต่อและใช้ประโยชน์จากโครงสร้างพื้นฐานระดับโลกได้ ⁸

แผนปฏิบัติการด้านปัญญาประดิษฐ์แห่งชาติเพื่อการพัฒนาประเทศไทย (พ.ศ. 2565–2570)

กลไกสำคัญที่รองรับความก้าวหน้าทางเทคโนโลยีเหล่านี้คือ “แผนปฏิบัติการด้านปัญญาประดิษฐ์แห่งชาติเพื่อการพัฒนาประเทศไทย (พ.ศ. 2565–2570)” ซึ่งได้กำหนดแผนที่นำทางที่ครอบคลุมในการเปลี่ยนผ่านประเทศไปสู่ระบบเศรษฐกิจที่ขับเคลื่อนด้วยปัญญาประดิษฐ์ ⁶ ยุทธศาสตร์ดังกล่าวมุ่งเป้าไปที่การพัฒนานวัตกรรมต้นแบบที่เกี่ยวข้องกับ AI อย่างน้อย 100 โครงการ การผลักดันให้เกิดการนำเทคโนโลยี AI ไปใช้งานจริงในหน่วยงานภาครัฐและเอกชนกว่า 600 แห่ง และเป้าหมายที่ท้าทายในการยกระดับประเทศไทยให้ก้าวขึ้นสู่ 50 อันดับแรกของโลกในดัชนีความพร้อมด้าน AI ของรัฐบาล (Government AI Readiness Index) ¹² กรอบการทำงานนี้ยังได้กำหนดภาคส่วนเป้าหมายหลัก 10 ประการสำหรับการบูรณาการ AI ซึ่งรวมถึงภาคการแพทย์และสาธารณสุข ภาคการเงิน ภาคการเกษตร และภาคการผลิต ⁶

แม้รัฐบาลจะมีความมุ่งมั่นอย่างแรงกล้า ซึ่งรวมถึงการจัดสรรงบประมาณกว่า 1.29 พันล้านบาทโดยเฉพาะสำหรับการวิจัยและพัฒนาปัญญาประดิษฐ์ในช่วงปี พ.ศ. 2566 ถึงช่วงกลางปี 2567 แต่ปัญหาคอขวดเชิงโครงสร้างยังคงเป็นอุปสรรคสำคัญ การประเมินสถานภาพปัจจุบันชี้ให้เห็นถึงความเสี่ยงด้านบุคลากร โดยคาดการณ์ว่าประเทศยังคงขาดแคลนผู้เชี่ยวชาญด้าน AI กว่า 80,000 คน นอกจากนี้ แม้ว่าจะมีชุดข้อมูลของรัฐที่เปิดเผยต่อสาธารณะ (Open Data) มากกว่า 28,000 ชุดข้อมูล แต่ปัญหาด้านคุณภาพและการบูรณาการข้อมูลข้ามหน่วยงานยังคงจำกัดศักยภาพในการนำไปใช้งานจริง ¹⁴ ด้วยเหตุนี้ จึงได้มีการริเริ่มโครงการต่างๆ เช่น “โครงการ Super AI Engineer” และโปรแกรมการฝึกอบรมแรงงานทักษะสูงอย่างกว้างขวาง โดยในช่วงปลายปี 2568 มีนักศึกษาและนักวิจัยมากกว่า 700 คนเข้าร่วมในโปรแกรมการฝึกอบรมที่ครอบคลุมตั้งแต่ระดับพื้นฐานไปจนถึงการพัฒนาโมเดลภาษาขนาดใหญ่ (LLM) ขั้นสูง ซึ่งเป็นการเปลี่ยนบทบาทของประเทศจากผู้บริโภคเทคโนโลยีมาเป็นผู้สร้างสรรค์นวัตกรรม ⁹

วิวัฒนาการของกรอบการกำกับดูแลและพระราชบัญญัติปัญญาประดิษฐ์ พ.ศ. 2568

ในขณะที่ระบบ Generative AI กำลังถูกนำไปใช้งานในภาคส่วนสาธารณะที่สำคัญ สภาพแวดล้อมด้านกฎระเบียบของไทยได้วิวัฒนาการจากการเป็นเพียงแนวทางปฏิบัติกว้างๆ ไปสู่การกำกับดูแลที่บังคับใช้ด้วยกฎหมาย ในช่วงปลายปี 2567 กระทรวงดิจิทัลเพื่อเศรษฐกิจและสังคม (MDES) ร่วมกับสำนักงานพัฒนาธุรกรรมทางอิเล็กทรอนิกส์ (ETDA) ได้ออกแนวทางการประยุกต์ใช้ Generative AI อย่างมีธรรมาภิบาลสำหรับองค์กร ต่อมาในช่วงปลายปี 2568 สำนักงานคณะกรรมการการรักษาความมั่นคงปลอดภัยไซเบอร์แห่งชาติ (NCSA) ได้เผยแพร่แนวทางปฏิบัติด้านความปลอดภัยสำหรับ AI โดยปรับให้สอดคล้องกับมาตรฐานสากล ISO/IEC 42001:2023 และกรอบการบริหารความเสี่ยงด้าน AI ของ NIST ¹⁷

ในช่วงต้นปี 2568 ได้มีการเปิดรับฟังความคิดเห็นสาธารณะเกี่ยวกับร่างพระราชบัญญัติปัญญาประดิษฐ์ฉบับใหม่ ซึ่งเป็นกฎหมายที่ออกแบบมาเพื่อรวมแนวทาง “การส่งเสริม AI” และ “การกำกับดูแล AI” ที่เคยแยกส่วนกัน ให้เข้ามาอยู่ภายใต้กรอบกฎหมายเดียวกัน ¹⁷ แนวทางระดับภาคส่วนนี้จะกำหนดข้อกำหนดด้านการปฏิบัติตามกฎหมายตามระดับความเสี่ยงของเทคโนโลยี ตัวอย่างเช่น การแยกแยะความแตกต่างที่ชัดเจนระหว่างการใช้ AI เพื่อการวินิจฉัยทางการแพทย์ที่มีความเสี่ยงสูง กับการใช้แชทบอทเชิงพาณิชย์ทั่วไป พร้อมทั้งกำหนดให้ต้องมีการประเมินผลกระทบ (Impact Assessments) การรายงานเหตุการณ์ละเมิด และการควบคุมดูแลข้อมูลอย่างเข้มงวดตลอดวงจรชีวิตของระบบ AI ¹⁷

โครงสร้างพื้นฐานและเครื่องมือหลัก: สถาบันการวิจัยและไปป์ไลน์ NLP

การเร่งการพัฒนา AI ภาษาไทยต้องพึ่งพาเครือข่ายความร่วมมือที่แข็งแกร่งระหว่างสถาบันของรัฐ ศูนย์วิจัยทางวิชาการ และชุมชนนักพัฒนาโอเพนซอร์ส (Open-source) ผู้นำในด้านนี้คือศูนย์เทคโนโลยีอิเล็กทรอนิกส์และคอมพิวเตอร์แห่งชาติ (NECTEC) ซึ่งเป็นผู้ให้บริการโครงสร้างพื้นฐานทางทรัพยากรประมวลผลที่สำคัญ รวมถึงการเข้าถึงศูนย์ซูเปอร์คอมพิวเตอร์ NSTDA (ThaiSC) ¹² ในขณะเดียวกัน สถาบันวิจัยปัญญาประดิษฐ์ประเทศไทย (AIResearch.in.th) ซึ่งเป็นความร่วมมือระหว่างสถาบันวิทยสิริเมธี (VISTEC) และสำนักงานส่งเสริมเศรษฐกิจดิจิทัล (depa) ได้มีบทบาทสำคัญอย่างยิ่งในการเผยแพร่โมเดลรากฐานภาษาไทย เช่น WangchanBERTa และการจัดทำชุดข้อมูลการแปลภาษาด้วยเครื่อง (Machine Translation) คู่ภาษาอังกฤษ-ไทยขนาดมหาศาล ²¹

PyThaiNLP: แกนกลางของการประมวลผลข้อความภาษาไทย

เนื่องจากระบบอักขรวิธีของภาษาไทยไม่มีการเว้นวรรคระหว่างคำ ความแม่นยำในการตัดคำ (Word Tokenization) จึงเป็นเงื่อนไขเบื้องต้นที่สำคัญที่สุดสำหรับงานประมวลผลภาษาธรรมชาติ (NLP) ในขั้นตอนต่อไป ไลบรารี PyThaiNLP ได้ก้าวขึ้นมาเป็นชุดเครื่องมือโอเพนซอร์สระดับแนวหน้าที่เป็นมาตรฐานสำหรับการวิเคราะห์ภาษาศาสตร์ไทย โดยทำหน้าที่เชื่อมต่อช่องว่างระหว่างงานวิจัยทางวิชาการและการนำไปประยุกต์ใช้ในระดับองค์กรพาณิชย์อย่างต่อเนื่อง ²²

นับตั้งแต่การเปิดตัวเวอร์ชัน 5.3.4 (เผยแพร่เมื่อเดือนเมษายน 2569) PyThaiNLP ได้ปรับปรุงโครงสร้างทางสถาปัตยกรรมอย่างลึกซึ้งผ่านการนำ nlpo3 ซึ่งเป็นเอนจินการตัดคำประสิทธิภาพสูงที่เขียนขึ้นด้วยภาษา Rust เข้ามาเป็นแกนประมวลผลหลัก ²² การปรับเปลี่ยนสถาปัตยกรรมนี้ถือเป็นการแก้ปัญหาคอขวดเชิงประสิทธิภาพ (Bottlenecks) ที่เรื้อรังมานานซึ่งเกี่ยวข้องกับข้อจำกัด Global Interpreter Lock (GIL) ของภาษา Python การใช้งาน nlpo3 ช่วยให้การทำงานของระบบตัดคำมีความปลอดภัยในการทำงานแบบมัลติเธรด (Thread-safe) ทำให้นักพัฒนาสามารถประมวลผลคลังข้อมูลภาษาไทยขนาดมหาศาลแบบคู่ขนานได้พร้อมกัน ²²

ระบบนี้ได้มอบทางเลือกอัลกอริทึมการตัดคำอิงพจนานุกรมให้กับนักพัฒนาหลายรูปแบบ ได้แก่:

NewmmTokenizer: เป็นอัลกอริทึมที่อิงกับการจับคู่ที่ยาวที่สุด (Maximum Matching) โดยใช้หลักการจัดกลุ่มอักขระภาษาไทย (Thai Character Clusters) ซึ่งนับเป็นวิธีการตัดคำที่ทำความเร็วได้สูงสุด
NewmmFstTokenizer: ถูกปรับแต่งมาสำหรับสภาพแวดล้อมที่จำกัดด้านทรัพยากร โดยมุ่งเน้นที่การลดการใช้หน่วยความจำให้เหลือน้อยที่สุด
DeepcutTokenizer: ใช้แนวทางการเรียนรู้ผ่านโครงข่ายประสาทเทียม (Neural-network-based) ซึ่งเหมาะสมกับบริบทที่ต้องการความแม่นยำในการแก้ความกำกวมทางความหมายในระดับโครงสร้างประโยค มากกว่าความเร็วในการประมวลผล ²²

เพื่อป้องกันปัญหาระบบหยุดชะงัก (Stalls) หรือใช้ระยะเวลาประมวลผลนานผิดปกติเมื่อต้องรับมือกับข้อความที่มีความยาวและมีความกำกวมสูง ซึ่งอาจนำไปสู่การแตกแขนงของการตีความแบบทวีคูณ PyThaiNLP จึงได้เพิ่มพารามิเตอร์ด้านความปลอดภัยและขีดความสามารถในการประมวลผลข้อมูลก้อนใหญ่แบบคู่ขนาน (parallel_chunk_size) ²² ยิ่งไปกว่านั้น การอัปเดตเพื่อความเสถียรในระดับองค์กร (Enterprise-level stability) ได้นำเสนอการควบคุมตัวแปรสภาพแวดล้อมอย่างเข้มงวด เช่น PYTHAINLP_DATA และ PYTHAINLP_READ_ONLY เพื่อป้องกันระบบจากการดาวน์โหลดคลังข้อมูลโดยอัตโนมัติในเบื้องหลัง ซึ่งเคยสร้างปัญหาความไม่เสถียรในสภาพแวดล้อมการผลิตแบบคอนเทนเนอร์ (Containerized Production) มาก่อน ²² นอกจากเทคโนโลยีการตัดคำแล้ว PyThaiNLP ยังรองรับขั้นตอนการวิเคราะห์ทางภาษาศาสตร์ขั้นสูง เช่น การตัดประโยคด้วยโมเดล Conditional Random Field (CRF) การวิเคราะห์การอ้างอิงถึงสิ่งเดียวกัน (Coreference Resolution) ผ่านคลังข้อมูล Han-Coref และอัลกอริทึมเปรียบเทียบเสียง (Soundex) เช่น Lorchirachoonkul และ MetaSound ซึ่งมีความสำคัญอย่างยิ่งต่องานด้านสัทศาสตร์และการแปลงรูปเขียนเป็นเสียงอ่าน (Grapheme-to-Phoneme: G2P) ²²

สถาปัตยกรรมโมเดลภาษาขนาดใหญ่ของไทย (Thai LLMs)

ทิศทางการพัฒนาโมเดลภาษาขนาดใหญ่ (LLMs) ของไทยได้พัฒนาอย่างรวดเร็วจากการใช้วิธีนำโมเดลภาษาอังกฤษทั่วไปมาปรับจูน (Fine-tuning) ไปสู่การพัฒนาโมเดลที่ถูกฝึกสอนอย่างต่อเนื่อง (Continual Pre-training) และถูกปรับโครงสร้างสถาปัตยกรรมมาตั้งแต่ต้นเพื่อให้รองรับโครงสร้างทางวากยสัมพันธ์และบริบททางวัฒนธรรมของไทยโดยเฉพาะ

โครงการ OpenThaiGPT

โครงการ OpenThaiGPT ซึ่งริเริ่มโดยสมาคมผู้ประกอบการปัญญาประดิษฐ์ประเทศไทย (AIAT) และได้รับการสนับสนุนโครงสร้างพื้นฐานจาก NECTEC และ Siam AI Corporation ถือเป็นแรงผลักดันระดับชาติที่สำคัญในการสร้างโมเดลรากฐานแบบโอเพนซอร์ส ¹² สถาปัตยกรรมล่าสุดของโครงการนี้ประกอบไปด้วยโมเดลที่โดดเด่นสองรุ่น ได้แก่ OpenThaiGPT 1.6 72b และ OpenThaiGPT R1 32b ²³

OpenThaiGPT 1.6 72b เป็นโมเดลระดับใช้งานทั่วไป (General-purpose) ที่แสดงให้เห็นถึงความสามารถระดับล้ำหน้า (State-of-the-art) ทางด้านการเขียนโปรแกรมและตรรกะวิเคราะห์ โมเดลนี้แสดงให้เห็นถึงพัฒนาการอย่างก้าวกระโดดในการเขียนโค้ดเมื่อเทียบกับรุ่นก่อนหน้า (เวอร์ชัน 1.5) โดยในการประเมินบนชุดทดสอบ LiveCodeBench-TH สามารถทำคะแนนเพิ่มขึ้นจาก 12.61 เป็น 32.43 ²³ ยิ่งไปกว่านั้นยังสามารถรักษาความแม่นยำด้านภาษาไทยไว้ได้สูงถึง 98.2% และมีคะแนนเฉลี่ยรวมในทุกเกณฑ์การทดสอบอยู่ที่ 52.34 ซึ่งมีประสิทธิภาพเหนือกว่าโมเดลคู่แข่งในระดับเดียวกัน เช่น Typhoon2 Llama3.1 70b ²³

อย่างไรก็ตาม การเปลี่ยนกระบวนทัศน์ที่สำคัญที่สุดอยู่ที่การเปิดตัวโมเดล OpenThaiGPT R1 32b ซึ่งถูกวิศวกรรมมาโดยเฉพาะสำหรับงานที่ต้องใช้ตรรกะและการใช้เหตุผลเชิงซ้อน (Complex Reasoning) โมเดลขนาด 3.2 หมื่นล้านพารามิเตอร์นี้ทำงานโดยอาศัยระเบียบวิธีเชิงสืบเนื่อง (Chain-of-thought methodologies) เพื่อจำลองกระบวนการคิดทีละขั้นตอน แม้ว่าโมเดลจะมีขนาดเล็กกว่าครึ่งหนึ่งของโมเดลขนาด 70b ชั้นนำ แต่ R1 32b สามารถเอาชนะโมเดลขนาดใหญ่อย่าง DeepSeek R1 70b และ Typhoon R1 70b ได้ในชุดทดสอบทางคณิตศาสตร์และตรรกะที่ซับซ้อนอย่างมีนัยสำคัญ ²³

ชุดทดสอบ (Benchmark)	OpenThaiGPT R1 32b	DeepSeek R1 70b	Typhoon R1 70b
AIME24-TH (ข้อสอบคณิตศาสตร์ภาษาไทย)	56.67	33.33	53.33
AIME24 (ข้อสอบคณิตศาสตร์ภาษาอังกฤษ)	63.36	53.33	53.33
MATH500-TH (คณิตศาสตร์ภาษาไทย)	83.8	75.4	81.0
LiveCodeBench-TH (การเขียนโค้ด)	62.16	53.15	47.75
OpenThaiEval	76.05	74.17	77.59
คะแนนเฉลี่ย (AVERAGE)	71.58	63.31	65.42

ประสิทธิภาพเชิงสถาปัตยกรรมของโมเดลรุ่น 32b นี้ยังส่งผลดีอย่างมหาศาลต่อเศรษฐศาสตร์ในการนำไปปรับใช้จริง (Deployment Economics) การทำงานของโมเดลรุ่น 72b ที่ความละเอียด 16-bit (FP16) จำเป็นต้องใช้หน่วยความจำ VRAM สูงถึง 144 GB ในขณะที่โมเดล 32b ซึ่งผ่านกระบวนการทำ Quantization ระดับ 4-bit จะใช้พื้นที่หน่วยความจำเพียง 16 GB เท่านั้น ความกะทัดรัดนี้ช่วยเปิดโอกาสให้มีการใช้งานโมเดล AI ในรูปแบบที่ตั้งค่าใช้งานแบบออฟไลน์ (Local deployment) บนอุปกรณ์คอมพิวเตอร์ระดับผู้ใช้ทั่วไป ซึ่งเป็นการตอกย้ำแนวคิดอธิปไตยทางข้อมูลและความเป็นส่วนตัวที่จับต้องได้ ²³

ตระกูลโมเดล Typhoon โดย SCB 10X

ตระกูลโมเดล Typhoon ซึ่งพัฒนาโดยแผนกนวัตกรรมและเทคโนโลยีของ SCBX Group ถือเป็นโมเดลภาษาไทยแบบโอเพนซอร์สที่มีการประยุกต์ใช้งานในเชิงพาณิชย์อย่างกว้างขวางที่สุดในประเทศไทย ²⁴ การเปิดตัวชุดโมเดล Typhoon 2 ได้รวบรวมโมเดลที่รองรับการใช้งานทั้งในรูปแบบข้อความ (Text) วิทัศน์ (Vision) และเสียง (Audio) โดยมีสเกลพารามิเตอร์ครอบคลุมตั้งแต่ 1 พันล้าน ไปจนถึง 7 หมื่นล้านพารามิเตอร์ ²⁶

แนวคิดพื้นฐานของ Typhoon 2 คือการใช้เทคนิคการฝึกสอนต่อเนื่อง (Continual Pre-training) ต่อยอดจากโมเดลรากฐานระดับสากลที่มีประสิทธิภาพสูง (เช่น Llama 3 และ Qwen2) โดยป้อนชุดข้อมูลที่มีความหนาแน่นสูง ซึ่งประกอบด้วยข้อความภาษาอังกฤษและภาษาไทยผสมผสานกัน ²⁷ กระบวนการนี้ก่อให้เกิดการถ่ายทอดการเรียนรู้ทางภาษาศาสตร์อย่างลึกซึ้ง (Deep Linguistic Transfer Learning) ทำให้โมเดลสามารถรักษากลไกการใช้เหตุผลอันทรงพลังของสถาปัตยกรรมฐานเอาไว้ได้ ในขณะเดียวกันก็สามารถแสดงผลและเข้าใจภาษาไทยได้อย่างไร้ที่ติ ความก้าวหน้าที่สำคัญอีกประการของ Typhoon 2 คือการขยายขนาดของหน้าต่างบริบท (Context Window) จาก 8,192 โทเคน เพิ่มขึ้นเป็น 128,000 โทเคน ซึ่งเป็นคุณสมบัติที่ขาดไม่ได้สำหรับการประมวลผลเอกสารทางกฎหมายหรือรายงานทางการเงินของไทยที่มีความยาวมาก ²⁹ จากผลการทดสอบ โมเดล Typhoon 2.1 12B สามารถทำคะแนนการปฏิบัติตามคำสั่งภาษาไทย (Thai IFEval) ได้สูงที่สุดในอุตสาหกรรมที่ 83.0 คะแนน และสามารถแสดงความสามารถในการสลับภาษา (Code-Switching) ระหว่างภาษาไทยและภาษาอังกฤษได้อย่างสมบูรณ์แบบ ซึ่งพฤติกรรมการสลับภาษานี้เป็นรูปแบบที่พบได้ทั่วไปในการสื่อสารขององค์กรธุรกิจไทยสมัยใหม่ ³⁰

นอกจากนี้ งานวิจัยยังชี้ให้เห็นว่าระเบียบวิธีการปรับแต่งโมเดลด้วยคำสั่ง (Instruction Tuning) มีบทบาทที่สำคัญอย่างยิ่ง การใช้ชุดข้อมูล WangchanThaiInstruct ซึ่งเป็นชุดข้อมูลคำสั่งภาษาไทยที่ถูกสร้างและตรวจสอบโดยผู้เชี่ยวชาญชาวมนุษย์ ช่วยแยกผลกระทบของการดูแลข้อมูลที่สะท้อนความเป็นท้องถิ่นได้อย่างชัดเจน ²⁶ ผลการทดลองยืนยันว่า โมเดลที่ถูกปรับแต่งด้วยชุดข้อมูลที่สร้างขึ้นโดยเจ้าของภาษา มีประสิทธิภาพเหนือกว่าโมเดลที่ใช้ข้อมูลคำสั่งที่เกิดจากการแปลภาษาด้วยอัลกอริทึมอย่างต่อเนื่อง ข้อเท็จจริงนี้ตอกย้ำถึงความจำเป็นของการใช้ข้อมูลที่มีบริบททางวัฒนธรรมและวิชาชีพที่แม่นยำ เพื่อเสริมสร้างความสอดคล้อง (Alignment) ให้กับโมเดลในสภาพแวดล้อมที่มีทรัพยากรทางภาษาน้อย ²⁶

SeaLLMs-v3: กรอบการทำงานระดับภูมิภาคเอเชียตะวันออกเฉียงใต้

แม้ว่าโมเดลที่พัฒนาขึ้นเพื่อภาษาไทยโดยเฉพาะจะมีบทบาทครอบงำการใช้งานในระดับประเทศ แต่ความริเริ่มของ SeaLLMs-v3 ที่พัฒนาโดย DAMO Academy ได้นำเสนอแนวทางเชิงภูมิภาคที่มีประสิทธิภาพสูง โครงการ SeaLLMs-v3 สร้างขึ้นโดยมีรากฐานมาจากโมเดลอย่าง Llama-2 และ Gemma และได้รับการปรับแต่งให้เหมาะสมที่สุดสำหรับภาษาในกลุ่มเอเชียตะวันออกเฉียงใต้ ซึ่งรวมถึงภาษาไทย เวียดนาม อินโดนีเซีย และมาเลย์ ³¹ ผ่านกระบวนการหาค่าความพึงพอใจของมนุษย์ทางตรง (Direct Preference Optimization: DPO) โดยอาศัยคำถามที่เกิดขึ้นจริงจากผู้พูดภาษาพื้นเมือง SeaLLMs-v3 สามารถปรับตัวให้เข้ากับบรรทัดฐานทางวัฒนธรรมท้องถิ่น ความชอบด้านรูปแบบการสนทนา และกรอบทางกฎหมายได้อย่างลึกซึ้ง ³¹ ในชุดทดสอบความรู้ระดับพหุภาษา (Multilingual knowledge benchmarks) อย่าง M3Exam โมเดลตระกูล SeaLLM-v3 ได้แสดงให้เห็นถึงขีดความสามารถในระดับแนวหน้า โดยสามารถหลีกเลี่ยงปรากฏการณ์คิดไปเอง (Hallucination) และยังสามารถตอบสนองได้อย่างปลอดภัยและเหมาะสมกับบริบททางวัฒนธรรม ³²

การประเมินผลและการสร้างมาตรฐานการทดสอบโมเดล (Benchmarking)

เมื่อขีดความสามารถของ LLM เพิ่มสูงขึ้น ระเบียบวิธีและเครื่องมือที่ใช้ในการประเมินประสิทธิภาพก็จำเป็นต้องปรับขนาดและพัฒนาให้เหมาะสมตามไปด้วย มาตรฐานการทดสอบภาษาอังกฤษแบบดั้งเดิม (เช่น MMLU หรือ GSM8K) ที่ถูกนำมาแปลเป็นภาษาไทย มักจะล้มเหลวในการตรวจจับความละเอียดอ่อนทางภาษาและตรรกะเชิงโครงสร้างที่มีอยู่เฉพาะในภาษาไทย ³⁴ สิ่งนี้ส่งผลให้มีการพัฒนาระบบนิเวศการประเมินผลภาษาไทยที่ซับซ้อนและครอบคลุมขึ้นมา

ThaiExam และการประเมินผลเชิงวิชาการ

ชุดทดสอบ ThaiExam ทำหน้าที่เป็นมาตรวัดหลักในการประเมินความรู้และความสามารถในการใช้เหตุผลของโมเดลตามบริบทเฉพาะของไทย ชุดทดสอบนี้ได้ถูกผนวกรวมเข้ากับกรอบการประเมินความสามารถระดับโลกอย่าง HELM (Holistic Evaluation of Language Models) โดยรวบรวมข้อสอบปรนัยจากสนามสอบจริงในหลายระดับวิชาการ ³ ชุดข้อสอบย่อยประกอบไปด้วย:

ONET: การทดสอบทางการศึกษาระดับชาติ (ครอบคลุมวิทยาศาสตร์ คณิตศาสตร์ สังคมศึกษา)
IC: ข้อสอบใบอนุญาตผู้แนะนำการลงทุน สำหรับบุคลากรทางการเงิน
TGAT: การทดสอบความถนัดทั่วไป ซึ่งเน้นทักษะการคิดวิเคราะห์เชิงวิพากษ์และเหตุผลเชิงตรรกะ
TPAT-1: การทดสอบความถนัดทางวิชาชีพสำหรับนักศึกษาแพทย์ ซึ่งให้ความสำคัญอย่างยิ่งกับประเด็นจริยธรรมทางการแพทย์ ³

การประเมินผลโดยใช้ ThaiExam เผยให้เห็นถึงความท้าทายอย่างมากในด้านความสอดคล้องทางค่านิยมวัฒนธรรม (Cultural Value Alignment) โดยเฉพาะในส่วนย่อยของการใช้เหตุผลในข้อสอบ TGAT ที่มักจะแฝงบรรทัดฐานทางวัฒนธรรมและความคาดหวังเชิงจริยธรรมที่ผูกติดกับสังคมไทย ซึ่งเป็นสาเหตุทำให้โมเดลภาษาอังกฤษที่ถูกแปลมาโดยตรงประมวลผลผิดพลาด แม้ว่าเครื่องยนต์ตรรกะพื้นฐานของโมเดลเหล่านั้นจะทำงานได้อย่างถูกต้องก็ตาม ³⁵ โมเดลระดับพหุภาษาประสิทธิภาพสูง เช่น Claude 3.5 Sonnet, Gemini 1.5 Pro และ GPT-4o มักจะทำคะแนนได้ดีในชุดทดสอบ ThaiExam แต่ความแม่นยำโดยรวมยังคงติดอยู่ในช่วง 60% ถึง 70% ซึ่งบ่งชี้ให้เห็นถึงช่องว่างขนาดใหญ่เมื่อเทียบกับประสิทธิภาพที่เกินกว่า 80% ในชุดทดสอบ MMLU ภาษาอังกฤษ ³

OpenThaiEval (OTE) และ M3Exam

เพื่อก้าวข้ามข้อจำกัดของชุดทดสอบที่เกิดจากการแปลภาษา โครงการ OpenThaiEval (OTE) จึงถูกก่อตั้งขึ้นเพื่อเป็นกรอบการประเมินผลที่เป็นภาษาไทยโดยกำเนิด (Native Thai evaluation framework) โดยมุ่งเป้าไปที่การประเมินการอนุมานความหมายทางธรรมชาติ (Natural Language Inference) รูปแบบข้อสอบเฉพาะทาง และความรู้เกี่ยวกับภูมิภาค ³⁶ ในทำนองเดียวกัน ส่วนย่อยที่เป็นภาษาไทยของชุดทดสอบ M3Exam ก็ถูกนำมาใช้เพื่อประเมินความรู้รอบตัวระดับพหุภาษาและหลายระดับความยาก ³ ในการประเมินผลรวมหลายทักษะ (Multi-task evaluations) ตารางอันดับ ThaiLLM Leaderboard ได้รวบรวมชุดทดสอบเหล่านี้ผนวกเข้ากับการใช้โมเดลเป็นกรรมการประเมิน (LLM-as-a-judge tests อย่าง Thai MT-Bench) และชุดข้อมูลด้านการทำความเข้าใจภาษาธรรมชาติ (NLU) เช่น Belebele, XNLI และ XCOPA เพื่อป้องกันไม่ให้โมเดลมีพฤติกรรมจดจำข้อสอบเพียงเพื่อทำคะแนนเฉพาะในตารางผู้นำ (Leaderboard Overfitting) ³⁸

ความปลอดภัยและความสอดคล้องทางวัฒนธรรม: ชุดทดสอบ ThaiSafetyBench

การประเมินด้านความปลอดภัยในวงการ LLM มีแนวโน้มที่จะผูกติดกับภาษาอังกฤษเป็นศูนย์กลางมาโดยตลอด การแปลคำสั่งโจมตี (Malicious prompts) จากภาษาอังกฤษมาเป็นภาษาไทยเพื่อทดสอบโมเดลมักจะให้ผลลัพธ์ที่เป็นผลลบลวง (False Negatives) สูงมาก เนื่องจากคำสั่งที่ถูกแปลไม่สามารถจับใจความของข้อห้ามทางสังคมและการเมือง คำด่าทอเชิงภูมิภาค หรือวิธีการหลบเลี่ยงคำหยาบ (Obfuscation) ในบริบทท้องถิ่นได้ เพื่อแก้ไขปัญหานี้ ชุดทดสอบ ThaiSafetyBench จึงถูกเปิดตัวขึ้นในช่วงต้นปี 2569 โดยรวบรวมคำสั่งมุ่งร้ายทางวิศวกรรมกว่า 1,954 ชุดที่เขียนขึ้นด้วยภาษาไทยโดยกำเนิด ³⁹

ข้อมูลจากชุดทดสอบดังกล่าวตอกย้ำถึงจุดอ่อนที่ร้ายแรง: อัตราความสำเร็จของการโจมตี (Attack Success Rate: ASR) หรืออัตราที่โมเดลยอมปฏิบัติตามคำสั่งมุ่งร้ายนั้น มีตัวเลขที่สูงกว่าอย่างเห็นได้ชัดเมื่อโมเดลเผชิญกับคำสั่งโจมตีเฉพาะกลุ่มที่แฝงบริบทวัฒนธรรมไทย เมื่อเปรียบเทียบกับคำสั่งโจมตีแบบแปลภาษาทั่วไป ⁴⁰ โมเดลแบบโอเพนซอร์สแสดงให้เห็นถึงความเปราะบางอย่างมากเมื่อเทียบกับโมเดลระบบปิด (Proprietary models) เช่น GPT-4.1 หรือ Gemini-2.5-Pro ซึ่งตอกย้ำให้เห็นถึงช่องโหว่ในเทคนิคการตั้งศูนย์ความปลอดภัย (Safety alignment) ในปัจจุบัน ⁴⁰ ยิ่งไปกว่านั้น การนำเสนอโมเดลจำแนกข้อความ ThaiSafetyClassifier ซึ่งพัฒนามาจากสถาปัตยกรรม DeBERTa ได้ช่วยให้นักวิจัยสามารถจำลองการประเมินความปลอดภัยเทียบเท่ากับมาตรฐานระดับ GPT-4 ด้วยคะแนน F1 score สูงถึง 84.4% ซึ่งเป็นการช่วยลดต้นทุนและเพิ่มการเข้าถึงการตรวจสอบความปลอดภัยให้กับทีมนักพัฒนาขนาดเล็กได้อย่างมาก ³⁹

พรมแดนใหม่ด้านวิทัศน์คอมพิวเตอร์แบบหลายรูปแบบ (Multimodal Vision)

การขยายตัวของ AI ภาษาไทยเข้าสู่การประมวลผลแบบพหุรูปแบบ (Multimodal processing) ได้มุ่งเน้นไปที่การทำความเข้าใจเอกสารทางภาพ (Document Understanding) เป็นหลัก ซึ่งในอดีตมักจะประสบปัญหาเนื่องจากความซับซ้อนทางเรขาคณิตของอักษรไทย (ซึ่งมีสระและวรรณยุกต์วางซ้อนอยู่ด้านบนและด้านล่างบรรทัด) และรูปแบบเลย์เอาต์ของเอกสารราชการที่มีความซับซ้อนสูง

ข้อมูลเชิงลึกจาก ThaiOCRBench

การเปิดตัว ThaiOCRBench ในปี 2568 ได้มอบกรอบการทำงานมาตรฐานระดับสากลเป็นครั้งแรกสำหรับการประเมินความสามารถของโมเดลวิทัศน์และภาษา (Vision-Language Models: VLMs) บนภาพที่เต็มไปด้วยข้อความภาษาไทย ครอบคลุมงานประเมิน 13 หมวดหมู่ ⁴¹ ชุดทดสอบนี้เผยให้เห็นถึงความเหลื่อมล้ำทางประสิทธิภาพที่ชัดเจนระหว่างระบบนิเวศการค้าและสถาปัตยกรรมโอเพนซอร์ส โดยระบบเชิงพาณิชย์ (Proprietary systems) อย่าง Gemini 2.5 Pro ครองความเป็นผู้นำในอุตสาหกรรมด้วยคะแนนเฉลี่ย 0.777 และสามารถดึงข้อมูลคีย์หลักรวมถึงวิเคราะห์เอกสารเต็มหน้า (Full-page OCR) ได้ใกล้เคียงกับความสมบูรณ์แบบ ⁴³

ในทางกลับกัน โมเดลโอเพนซอร์สชั้นนำอย่าง Qwen2.5-VL 72B ทำคะแนนเฉลี่ยอยู่ในระดับที่น่าพอใจที่ 0.615 ⁴³ เมื่อวิเคราะห์เจาะลึกถึงสาเหตุความล้มเหลวของ VLM แบบโอเพนซอร์ส พบว่ามีข้อบกพร่องทางสถาปัตยกรรมที่ฝังรากลึก 3 ประการ ได้แก่:

ความไม่สอดคล้องทางโครงสร้าง (Structural Mismatch): โมเดลแบบเปิดประสบปัญหาอย่างรุนแรงในการจัดการกับงานที่ซับซ้อนด้านเลย์เอาต์ เช่น การรักษาความสมบูรณ์ของคอลัมน์ในเอกสารทางการเงินของไทยที่มีโครงสร้างคอลัมน์ซ้อนกัน
อคติทางภาษาและการสลับภาษา (Language Bias and Code-Switching): VLMs มักจะมีอาการคิดไปเอง (Hallucinate) โดยสร้างข้อความภาษาอังกฤษขึ้นมาแทนที่จะถอดรหัสจากข้อความภาษาไทยในต้นฉบับ ซึ่งเป็นผลสืบเนื่องมาจากการนำภาพที่มีแต่ข้อความภาษาอังกฤษมาใช้ฝึกสอนโมเดลในช่วงแรกเป็นจำนวนมหาศาล
การสร้างเนื้อหาผิดพลาด (Incorrect Content Generation): การรู้จำข้อความที่มีความละเอียดอ่อนสูงหรือการดึงข้อมูลจากลายมือเขียน มักทำให้เกิดอัตราความผิดพลาดระดับอักขระ (Character Error Rates: CER) ที่พุ่งสูงขึ้นอย่างรวดเร็ว ⁴¹

โมเดลที่ถูกปรับแต่งมาเพื่องานด้านวิทัศน์ในระบบนิเวศของไทยโดยเฉพาะ เช่น Typhoon2-Vision ได้นำแนวทางการจัดการข้อมูลแบบสองภาษา (Bilingual data handling) และการฝึกสอนการวิเคราะห์กราฟและแผนภูมิแบบเจาะจงมาใช้เพื่ออุดช่องโหว่ดังกล่าว ช่วยให้สามารถสกัดข้อมูลได้อย่างแม่นยำแม้จากแหล่งข้อมูลที่มีความหนาแน่นสูงและเต็มไปด้วยสัญญาณรบกวนทางสายตา (Visual noise) ⁴⁵

เทคโนโลยีเสียงพูด: ความก้าวหน้าของการสังเคราะห์เสียง (TTS) และการรู้จำเสียง (ASR)

เทคโนโลยีระบบแปลงข้อความเป็นเสียงพูด (Text-to-Speech: TTS) และการรู้จำเสียงพูดอัตโนมัติ (Automatic Speech Recognition: ASR) สำหรับภาษาไทยมักถูกมองว่าล้าหลัง เนื่องจากความท้าทายในด้านการสร้างโมเดลอะคูสติก ภาษาไทยเป็นภาษาที่มีวรรณยุกต์ถึง 5 ระดับเสียง (สามัญ เอก โท ตรี จัตวา) ซึ่งถูกกำหนดโดยกลไกการจับคู่ที่ซับซ้อนระหว่างคลาสของพยัญชนะ (ไตรยางศ์) ความสั้นยาวของสระ และเครื่องหมายวรรณยุกต์กำกับ ² นอกจากนี้ ปรากฏการณ์เสียงกลมกลืนหรือการเชื่อมเสียงวรรณยุกต์ (Tonal coarticulation และ Sandhi) ซึ่งเป็นปรากฏการณ์ที่ระดับเสียงวรรณยุกต์ของพยางค์หนึ่งจะถูกบิดเบือนหรือปรับเปลี่ยนโดยพยางค์ที่อยู่ติดกัน ทำให้การออกแบบโมเดลอะคูสติกจำเป็นต้องสามารถประมวลผลบริบทในหน้าต่างเวลาที่กว้างขวางขึ้น ²

วิวัฒนาการของโมเดลอะคูสติก: จาก Autoregressive สู่ Flow Matching

ระบบ TTS ภาษาไทยในอดีต ซึ่งรวมถึงโครงสร้างยุคแรกของระบบ Vaja จาก NECTEC และกรอบการทำงานที่ต่อยอดจาก Tacotron 2 ต่างพึ่งพาตัวถอดรหัสแบบเรียงลำดับ (Autoregressive decoders) แม้ว่าระบบเหล่านี้จะสามารถสร้างเสียงที่ผู้ฟังพอจะเข้าใจได้ แต่ก็ต้องเผชิญกับปัญหาด้านความหน่วง (Latency) สูง อคติจากการสัมผัสข้อมูล (Exposure bias) และการหยุดพักจังหวะการพูด (Prosodic pauses) ที่ไม่เป็นธรรมชาติ เนื่องจากข้อความภาษาไทยไม่มีการเว้นวรรคคำอย่างชัดเจน ¹

ภูมิทัศน์ทางเทคโนโลยีนี้เกิดการเปลี่ยนแปลงครั้งใหญ่ระหว่างปี 2567 ถึง 2568 ด้วยการเข้ามาของสถาปัตยกรรมแบบ Non-autoregressive อย่างสมบูรณ์และเทคนิค Flow-Matching

ThonburianTTS: สถาปัตยกรรมที่ต่อยอดมาจาก F5-TTS นี้ ได้นำเทคนิค Flow-Matching Diffusion มาประยุกต์ใช้ ⁴⁸ การให้โมเดลเรียนรู้การจำลองสภาวะการไหลต่อเนื่อง (Continuous flow) เพื่อให้เข้าคู่กับการกระจายตัวของเสียงเป้าหมาย ช่วยขจัดปัญหาคอขวดที่เกิดจากการประมวลผลสร้างเฟรมเสียงแบบเรียงลำดับ โมเดลนี้ผสานการทำงานของตัวเข้ารหัสผู้พูด (Speaker encoders) ที่ผ่านการฝึกสอนมาแล้ว เพื่อสร้างระบบเลียนเสียง (Zero-shot voice cloning) และยังใช้การป้อนข้อมูลทั้งในรูปแบบอักษรไทยและสัทอักษรสากล (IPA) เพื่อเพิ่มความแม่นยำในการออกเสียงและเพิ่มความทนทานต่อความผิดเพี้ยนของการจัดตำแหน่งการอ่าน (Alignment robustness) ⁴⁸
E2-TTS (Embarrassingly Easy TTS): กรอบการทำงานนี้ทำให้ไปป์ไลน์ของการสังเคราะห์เสียงเรียบง่ายขึ้นอย่างมาก โดยการตัดตัวทำนายเสียงอ่าน (Phoneme predictor) และตัวทำนายความยาวเสียง (Duration predictor) ออกไปทั้งหมด ระบบ E2-TTS หันมาใช้แนวทางการเติมเต็มเสียง (Audio infilling) โดยการปิดบัง (Masking) ส่วนของเสียงในระหว่างการฝึกสอน และสั่งให้ตัวสร้างภาพอัดเสียงแบบ Flow-matching (Mel-spectrogram generator) หัดทำนายส่วนเสียงที่หายไป โดยอาศัยเงื่อนไขที่ถูกผูกมัดกับข้อความและบริบทของเสียงแวดล้อมเท่านั้น ⁵¹

ผลกระทบของหน่วยทางภาษาศาสตร์ (Linguistic Units: TH-LUs)

ปัจจัยสำคัญที่จะชี้ชะตาความลื่นไหลเป็นธรรมชาติของระบบ TTS ภาษาไทย คือการเลือก “หน่วยทางภาษาศาสตร์” (Linguistic Unit: TH-LU) ที่เหมาะสมเป็นฐานรากของโมเดล ไม่ว่าจะเป็นการตัดคำที่ระดับอักขระ (Characters) ระดับหน่วยเสียง (Phonemes) ระดับพยางค์ (Syllables) หรือระดับคำ (Words) ⁵¹ งานวิจัยที่วิเคราะห์การทำงานของโมเดล End-to-End อย่าง VITS ยืนยันว่าการใช้ระดับหน่วยภาษาศาสตร์ที่แตกต่างกัน ส่งผลต่อความแม่นยำในการออกเสียงวรรณยุกต์และจังหวะของเสียงอย่างลึกซึ้ง ² การประเมินผลโดยใช้วิธี Speaker Encoder Cosine Similarity (SECS) เพื่อวัดความแม่นยำของวรรณยุกต์ และดัชนี Word/Syllable Error Rates (WER/SylER) เพื่อวัดความชัดเจนในการออกเสียง ได้ผลสรุปที่ชัดเจนว่า การกำหนดให้โมเดลใช้ “ระดับคำ” (Word-level) เป็นหน่วยพื้นฐานในการวิเคราะห์ จะให้ประสิทธิภาพโดยรวมสูงที่สุด ² การแบ่งส่วนข้อความในระดับคำช่วยให้โครงข่ายประสาทเทียมสามารถทำนายขอบเขตของจังหวะเสียงและการเว้นวรรคในการออกเสียงได้อย่างถูกต้อง ซึ่งเป็นข้อมูลที่ไม่อาจพบได้หากพิจารณาเพียงรูปอักขระดิบที่เรียงติดกัน ¹

การประมวลผลเสียงแบบเรียลไทม์และระบบสนทนา

โครงสร้าง S2S (Speech-to-Speech) แบบครบวงจร ได้เริ่มเข้ามาแทนที่ไปป์ไลน์แบบแยกส่วน (แบบ ASR LLM TTS) โครงการ Typhoon2-Audio ถือเป็นทัพหน้าในภาคส่วนนี้ โดยสร้างขึ้นบนสถาปัตยกรรม SALMONN และ Llama-Omni ระบบนี้สามารถสร้างข้อความและเสียงออกมาพร้อมกันในแบบคู่ขนาน (Parallel output generation) สามารถนำเข้าและประมวลผลเสียงที่มีความยาวได้ถึง 30 วินาที และสามารถทำความเข้าใจคำสั่งระดับระบบ (System prompts) เพื่อสนทนาตอบโต้แบบหลายรอบการสนทนา (Multi-turn conversational format) ⁴⁶

ในขณะเดียวกัน Partii 4.0 ของ NECTEC ยังคงเป็นเอนจินโอเพนซอร์สระดับฐานรากสำหรับงาน ASR ในไทย โดยให้ความแม่นยำระดับ 80% ในสภาพแวดล้อมที่เงียบสงบ และได้รวมการรับส่งข้อมูลผ่านโปรโตคอล gRPC เพื่อลดความหน่วงในระบบสตรีมมิง ⁵³ เพื่อเป็นการป้องกันระบบจากการถูกโจมตีด้วยเสียงสังเคราะห์ นักวิจัยได้ให้ความสำคัญกับการตรวจสอบการปลอมแปลงเสียง (Spoofing detection) อย่างจริงจัง ชุดข้อมูล Chula Spoofed Speech (CSS) ซึ่งถูกนำเสนอในงานประชุมวิชาการ Interspeech 2025 ประกอบไปด้วยเสียงจริงและเสียงสังเคราะห์ภาษาไทยจำนวนกว่า 1.3 ล้านประโยค ⁵⁴ การนำโมเดลพื้นฐานเพื่อการตรวจสอบการปลอมแปลง (Anti-spoofing baselines) เช่น AASIST และ RawNet2 มาประเมินกับเสียงสังเคราะห์จาก TTS คุณภาพสูง ได้ย้ำให้เห็นถึงความจำเป็นในการใช้ชุดข้อมูลเสียงฝึกสอนที่ครอบคลุมน้ำเสียงและลีลาการพูดแบบต่างๆ เพื่อลดความเสี่ยงด้านความปลอดภัยในเครือข่ายโทรคมนาคม ⁵⁴

การทลายกำแพงของภาษาถิ่น: ความครอบคลุมทางภาษาศาสตร์ระดับภูมิภาค

ความเป็นจริงด้านประชากรศาสตร์ของประเทศไทยที่ไม่อาจหลีกเลี่ยงได้คือ ความแตกต่างของการใช้ภาษาในชีวิตประจำวัน จากจำนวนประชากร 69 ล้านคน มีเพียงประมาณ 20 ล้านคนเท่านั้นที่ใช้ภาษาไทยมาตรฐานเป็นภาษาที่หนึ่ง ประชากรส่วนใหญ่เติบโตขึ้นมาพร้อมกับการใช้ภาษาถิ่นเป็นหลัก โดยเฉพาะอย่างยิ่ง ภาษาอีสาน (ผู้พูด 15.2 ล้านคน) ภาษาล้านนาหรือภาษาเหนือ (ผู้พูด 6 ล้านคน) และภาษาใต้หรือภาษาตามโบร (ผู้พูด 4.5 ล้านคน) ⁴ ภาษาถิ่นเหล่านี้มีคำศัพท์เฉพาะของตนเอง มีการใช้คำแสดงคำถาม (WH-question tokens) ที่แตกต่างกันอย่างสิ้นเชิง และมักพบพฤติกรรมการยืมคำหรือผสมผสานคำจากภาษาไทยมาตรฐานเข้าไปในบทสนทนา (Code-blending) ซึ่งลักษณะเฉพาะเหล่านี้ทำให้โมเดล NLP มาตรฐาน ไม่สามารถทำงานได้อย่างแม่นยำ ⁴

การประเมินและพัฒนา LLMs บนฐานข้อมูลภาษาถิ่นของไทย

ในอดีต การประเมินประสิทธิภาพของ LLM สำหรับการใช้งานในภาษาถิ่นมักจะถูกละเลย จนกระทั่งในปี 2568 ทีมนักวิจัยได้นำเสนอชุดทดสอบเกณฑ์มาตรฐานสำหรับภาษาถิ่นของไทย (Thai local dialect benchmarks) ที่ครอบคลุม เพื่อทดสอบขีดความสามารถของ LLMs ข้ามผ่านภาษาล้านนา ภาษาอีสาน และภาษาใต้ ในหมวดหมู่งาน 5 ประเภท ได้แก่ การสรุปความ การตอบคำถาม การแปล การสนทนา และบริบทเกี่ยวกับอาหาร ⁵ ข้อมูลจากการทดสอบยืนยันชัดเจนว่า ประสิทธิภาพของโมเดลจะลดลงอย่างรวดเร็ว (Degrades precipitously) เมื่อข้อความคำสั่ง (Input prompts) ถูกเขียนด้วยภาษาถิ่น เมื่อเทียบกับการป้อนคำสั่งด้วยภาษาไทยมาตรฐาน ⁴ ที่น่าสังเกตคือ มีเพียงโมเดลระบบปิดระดับแนวหน้า (เช่น GPT-4o และ Gemini 2) เท่านั้นที่แสดงให้เห็นถึงความลื่นไหลในการสร้างบทสนทนาภาษาถิ่นในระดับที่วัดผลได้ ในขณะที่ฝั่งของโมเดลโอเพนซอร์สชั้นนำยังคงมีช่องโหว่ด้านประสิทธิภาพที่กว้างมากในส่วนนี้ ⁴ เพื่อวัดผลสิ่งนี้อย่างเป็นรูปธรรม จึงได้มีการจัดทำตัวชี้วัดอัตโนมัติเฉพาะสำหรับภาษาถิ่น และมีการตั้งเกณฑ์การประเมินโดยมนุษย์เพื่อลงโทษหรือให้รางวัลโมเดลตามรูปแบบการออกเสียงและการสะกดคำที่ถูกต้องตามหลักวาทกรรมของภาษาถิ่นนั้นๆ อย่างแท้จริง ⁴

โมเดลอะคูสติกและโมเดลสังเคราะห์ข้อความเฉพาะภาษาถิ่น

เพื่อต่อต้านการรวมศูนย์ความสามารถทาง AI ไว้ที่ส่วนกลางเพียงอย่างเดียว โครงการริเริ่มที่มีความเฉพาะเจาะจงต่างๆ ได้มุ่งหน้าเข้าสู่การแปลงข้อมูลคำพูดของภูมิภาคให้เป็นระบบดิจิทัลอย่างประสบความสำเร็จ:

ระบบ ASR และหลักสัทศาสตร์สำหรับภาษาอีสาน: SCB 10X ได้ปล่อยตัว “Typhoon Isan ASR Whisper” ซึ่งเป็นโมเดลระบบรู้จำเสียงพูดแบบโอเพนซอร์สที่ถูกนำไปปรับแต่งอย่างละเอียด (Fine-tuned) บนสถาปัตยกรรมของ Whisper Medium โมเดลตัวนี้มีความเชี่ยวชาญเป็นพิเศษในการจัดการรูปแบบวรรณยุกต์เฉพาะของภาษาอีสาน ไปพร้อมๆ กับการวิเคราะห์การสลับภาษา (Code-switching) ไปมาระหว่างภาษาอีสาน ภาษาไทยมาตรฐาน และภาษาอังกฤษ ได้อย่างแม่นยำ ²⁵ นอกจากนี้ยังมีการเสริมทัพด้วยชุดข้อมูลคลังเสียงภาษาอีสาน (Typhoon Isan Speech Corpus) และพจนานุกรมสัทศาสตร์อีสาน (Isan Phonetic Dictionary) ที่วิศวกรรมมาเพื่อแก้ปัญหาความแตกต่างทางการออกเสียงและคำพ้องรูปในภาษาถิ่น ²⁵
การลดความกำกวมในภาษาล้านนา: งานวิจัยที่มุ่งเน้นไปที่ภาษาล้านนาหรือภาษาเหนือ ได้นำสถาปัตยกรรม Transformer (เช่น HuBERT และ Wav2Vec2 baseTH) มาผสานรวมกับตรรกศาสตร์ฟัซซี (Fuzzy Logic) เพื่อลดความกำกวมทางภาษาศาสตร์ กรอบการทำงานนี้ไม่เพียงแต่สามารถแปลงเสียงพูดภาษาล้านนาเป็นข้อความได้เท่านั้น แต่ยังรองรับการแปลภาษาแบบสองทิศทาง (Two-way translation) ได้อย่างทนทาน ซึ่งทำหน้าที่เป็นกลไกสำคัญในการอนุรักษ์มรดกทางวัฒนธรรมสำหรับเยาวชนรุ่นใหม่ ⁵⁸
การบันทึกภาษาที่ใกล้สูญพันธุ์: นอกเหนือจากภาษาถิ่นกระแสหลักของแต่ละภูมิภาคแล้ว LLMs ยังถูกนำไปใช้งานเพิ่มมากขึ้นในกระบวนการจัดทำเอกสารสำหรับกลุ่มภาษาที่มีความเสี่ยงต่อการสูญพันธุ์ระดับวิกฤต เช่น ภาษามอเกล็น (Moklen) ซึ่งเป็นกลุ่มภาษาออสโตรนีเซียนที่พูดกันในพื้นที่ภาคใต้ของไทย ผ่านการใช้กระบวนการเรียนรู้บริบทระดับสูง (In-context learning) ส่งผลให้ LLMs ประสบความสำเร็จในการสรุปกฎเกณฑ์ทางไวยากรณ์และวางโครงสร้างฐานข้อมูลคำศัพท์จากธรรมเนียมมุขปาฐะ (Oral traditions) ซึ่งมีทรัพยากรข้อมูลที่จำกัดอย่างขีดสุดได้สำเร็จ ⁶⁰

บทสรุปและทิศทางในอนาคต

ช่วงเวลาระหว่างปี พ.ศ. 2567 ถึง 2569 นับเป็นช่วงเวลาที่ระบบนิเวศปัญญาประดิษฐ์ของประเทศไทยก้าวเข้าสู่ความเติบโตอย่างก้าวกระโดดแบบถอนรากถอนโคน ด้วยการยกระดับความสำคัญของแนวคิดอธิปไตยทางปัญญาประดิษฐ์ (Sovereign AI) เป็นศูนย์กลาง ประเทศไทยได้ลดความจำเป็นในการพึ่งพาโมเดลระดับสากลที่มีภาษาอังกฤษเป็นแกนกลางอย่างเป็นระบบ พร้อมทั้งได้สถาปนาไปป์ไลน์ทางเทคโนโลยีระดับท้องถิ่นที่ทรงพลัง ซึ่งครอบคลุมตั้งแต่โครงสร้างพื้นฐานระดับซูเปอร์คอมพิวเตอร์ การกำกับดูแลทางกฎหมาย ไปจนถึงซอฟต์แวร์โอเพนซอร์สระดับแนวหน้า

การเปลี่ยนแปลงกระบวนทัศน์จากการนำโมเดลภาษาไปปรับแต่งแบบพหุภาษาทั่วไป ไปสู่การสอนแบบต่อเนื่องตั้งแต่ระดับรากฐานด้วยข้อมูลเชิงลึกของท้องถิ่น (Native continual pre-training)—ดังที่แสดงให้เห็นอย่างเด่นชัดผ่านโมเดล OpenThaiGPT R1 32b แบบโอเพนซอร์ส และตระกูลโมเดล Typhoon 2—ถือเป็นบทพิสูจน์แล้วว่า การปรับโครงสร้างสถาปัตยกรรมที่จำเพาะต่อท้องถิ่น สามารถเทียบเคียงหรือก้าวข้ามขีดความสามารถของโมเดลระบบปิดขนาดใหญ่จากบริษัทเทคโนโลยีข้ามชาติได้ในงานเฉพาะทางระดับภูมิภาค ในขณะเดียวกัน การพัฒนาแบบก้าวกระโดดจากระบบ TTS แบบ Autoregressive ไปสู่โมเดลอะคูสติกแบบ Flow-Matching ชนิดต่อเนื่อง ก็ได้พิชิตอุปสรรคทางด้านความซับซ้อนของโครงสร้างพยัญชนะและวรรณยุกต์ไทยอย่างเบ็ดเสร็จ ส่งผลให้สามารถสังเคราะห์เสียงพูดที่มีความเป็นธรรมชาติสูงได้อย่างราบรื่นในเวลาจริง (Real-time)

เมื่อมองไปข้างหน้า พรมแดนใหม่ของการวิจัย AI ในประเทศไทยจะพุ่งเป้าไปที่การอุดช่องโหว่ความเหลื่อมล้ำทางประสิทธิภาพ ที่ถูกเปิดเผยออกมาจากระบบการประเมินมาตรฐานขั้นสูง แม้ว่าความสามารถในการจัดการกับภาษาไทยมาตรฐานจะเข้าใกล้จุดเสมอภาค (Parity) กับมาตรฐานระดับโลกอย่างรวดเร็ว แต่ประสิทธิภาพที่ลดทอนลงอย่างชัดเจนในงานด้านวิทัศน์ที่เกี่ยวข้องกับเลย์เอาต์เอกสารที่ซับซ้อน การรับมือกับการโจมตีด้านความปลอดภัยที่แฝงมาในบริบทวัฒนธรรมลึกซึ้ง และความแม่นยำในการวิเคราะห์และสร้างสรรค์บริบทสำหรับภาษาถิ่นระดับภูมิภาค ยังคงสะท้อนให้เห็นถึงภารกิจอันท้าทายที่รออยู่เบื้องหน้า ในขณะที่ปัญญาประดิษฐ์กำลังแทรกซึมลึกลงไปในโครงสร้างทางสังคมและเศรษฐกิจของเอเชียตะวันออกเฉียงใต้ การขัดเกลาและปรับแต่งโมเดลให้มีความสอดคล้องทางวัฒนธรรม ครอบคลุมความหลากหลายของภาษาถิ่น และมีความปลอดภัยเชิงโครงสร้างอย่างต่อเนื่อง จะเป็นปัจจัยชี้ขาดที่จะกำหนดความสำเร็จอันยั่งยืน ในการเปลี่ยนผ่านของประเทศไทยไปสู่ระบบเศรษฐกิจที่ขับเคลื่อนด้วยปัญญาประดิษฐ์อย่างเต็มรูปแบบ

ผลงานที่อ้างอิง

Empowering Global Voices: A Data-Efficient, Phoneme-Tone Adaptive Approach to High-Fidelity Speech Synthesis – arXiv, เข้าถึงเมื่อ เมษายน 13, 2026 https://arxiv.org/html/2504.07858v1
(PDF) End-to-End Thai Text-to-Speech with Linguistic Unit – ResearchGate, เข้าถึงเมื่อ เมษายน 13, 2026 https://www.researchgate.net/publication/381267356_End-to-End_Thai_Text-to-Speech_with_Linguistic_Unit?_share=1
ThaiExam Leaderboard in HELM – Stanford CRFM, เข้าถึงเมื่อ เมษายน 13, 2026 https://crfm.stanford.edu/2024/09/04/thaiexam.html
Assessing Thai Dialect Performance in LLMs with Automatic Benchmarks and Human Evaluation – ResearchGate, เข้าถึงเมื่อ เมษายน 13, 2026 https://www.researchgate.net/publication/390601269_Assessing_Thai_Dialect_Performance_in_LLMs_with_Automatic_Benchmarks_and_Human_Evaluation
arXiv:2504.05898v1 [cs.CL] 8 Apr 2025, เข้าถึงเมื่อ เมษายน 13, 2026 https://arxiv.org/pdf/2504.05898?
Thailand’s National AI Strategy and Action Plan (2022-2027) | Digital Watch Observatory, เข้าถึงเมื่อ เมษายน 13, 2026 https://dig.watch/resource/thailands-national-ai-strategy-and-action-plan-2022-2027
How middle powers can weather US and Chinese AI dominance | 02 Why build sovereign AI? – Chatham House, เข้าถึงเมื่อ เมษายน 13, 2026 https://www.chathamhouse.org/2026/02/how-middle-powers-can-weather-us-and-chinese-ai-dominance/02-why-build-sovereign-ai
AI race spurs digital self-reliance push – Bangkok Post, เข้าถึงเมื่อ เมษายน 13, 2026 https://www.bangkokpost.com/business/general/3222314/ai-race-spurs-digital-selfreliance-push
India and Thailand: The Compelling Case for a Deeper Compact, เข้าถึงเมื่อ เมษายน 13, 2026 https://www.orfonline.org/research/india-and-thailand-the-compelling-case-for-a-deeper-compact
IS AI SOVEREIGNTY POSSIBLE? – Brookings Institution, เข้าถึงเมื่อ เมษายน 13, 2026 https://www.brookings.edu/wp-content/uploads/2026/02/20260217_AI_sovereignty_final.pdf
Thailand National AI Strategy and Action Plan (2022 – 2027) – Buddyweb, เข้าถึงเมื่อ เมษายน 13, 2026 https://oecd-ai.case-api.buddyweb.fr/storage//policy-initiatives/Jul2025/fu_wtw4h5f5zfv7hqk.pdf
Nectec Seeks to Encourage AI Innovation | US ABC, เข้าถึงเมื่อ เมษายน 13, 2026 https://www.usasean.org/article/nectec-seeks-encourage-ai-innovation
Thailand national AI strategy and action plan (2022 – 2027) – AI Thailand, เข้าถึงเมื่อ เมษายน 13, 2026 https://www.ai.in.th/en/about-ai-thailand/
Thailand AI Readiness Assessment Report 2025 – TDRI, เข้าถึงเมื่อ เมษายน 13, 2026 https://tdri.or.th/en/2025/06/thailand-ai-readiness-assessment-report-2025/
Thailand | Global AI Ethics and Governance Observatory – UNESCO, เข้าถึงเมื่อ เมษายน 13, 2026 https://www.unesco.org/ethics-ai/en/thailand
Thailand Launches “ThaiLLM”: A Sovereign AI Foundation for the Nation – NSTDA Eng, เข้าถึงเมื่อ เมษายน 13, 2026 https://www.nstda.or.th/en/news/news-years-2026/thaillm.html
Thailand AI Regulation 2025: Ethics & Compliance Guide – Nemko Digital, เข้าถึงเมื่อ เมษายน 13, 2026 https://digital.nemko.com/regulations/thailand-ai-ethics-and-regulation
Comprehensive Policy: Thailand’s AI Governance Framework – Tilleke & Gibbins, เข้าถึงเมื่อ เมษายน 13, 2026 https://www.tilleke.com/insights/comprehensive-policy-thailands-ai-governance-framework/
Thailand’s New AI Guideline – Inside Tech Law, เข้าถึงเมื่อ เมษายน 13, 2026 https://www.insidetechlaw.com/blog/2025/10/thailands-new-ai-guideline
Annual Report – AI Thailand, เข้าถึงเมื่อ เมษายน 13, 2026 https://www.ai.in.th/wp-content/uploads/2025/06/NAIS-Annual_2024_ENG_Web.pdf
หน้าแรก | airesearch.in.th, เข้าถึงเมื่อ เมษายน 13, 2026 https://airesearch.in.th/
PyThaiNLP: Thai Natural Language Processing in … – ACL Anthology, เข้าถึงเมื่อ เมษายน 13, 2026 https://aclanthology.org/2023.nlposs-1.4.pdf
ยินดีต้อนรับสู่ OpenThaiGPT 1.6 และ OpenThaiGPT R1 | OpenThaiGPT, เข้าถึงเมื่อ เมษายน 13, 2026 https://openthaigpt.aieat.or.th/
Typhoon – SCBX, เข้าถึงเมื่อ เมษายน 13, 2026 https://www.scbx.com/en/tag/typhoon-en/
SCB 10X Unveils “Typhoon Isan” The First Systematic Isan ASR Model – SCBX, เข้าถึงเมื่อ เมษายน 13, 2026 https://www.scbx.com/en/news/scb-10x-unveils-typhoon-isan/
Publications – Typhoon, เข้าถึงเมื่อ เมษายน 13, 2026 https://opentyphoon.ai/publications
Typhoon 2: A Family of Open Text and Multimodal Thai Large Language Models, เข้าถึงเมื่อ เมษายน 13, 2026 https://www.researchgate.net/publication/387183873_Typhoon_2_A_Family_of_Open_Text_and_Multimodal_Thai_Large_Language_Models
\emojilogoTyphoon 2: A Family of Open Text and Multimodal ABE.Thai Large Language Models – arXiv, เข้าถึงเมื่อ เมษายน 13, 2026 https://arxiv.org/html/2412.13702v2
Introducing ‘Typhoon 2’: Advancing Thai LLMs, Driving the Future of AI for Thai – SCB 10X, เข้าถึงเมื่อ เมษายน 13, 2026 https://www.scb10x.com/en/blog/introducing-typhoon-2-thai-llm
Building World-Class Thai Language Models with Purpose-Built AI Infrastructure – Together AI, เข้าถึงเมื่อ เมษายน 13, 2026 https://www.together.ai/customers/scb10x
DAMO-NLP-SG/DAMO-SeaLLMs: [ACL 2024 Demo] SeaLLMs – Large Language Models for Southeast Asia · GitHub, เข้าถึงเมื่อ เมษายน 13, 2026 https://github.com/DAMO-NLP-SG/DAMO-SeaLLMs
SeaLLMs – Large Language Models for Southeast Asia, เข้าถึงเมื่อ เมษายน 13, 2026 https://seallms.github.io/
SeaLLMs/SeaLLMs-v3-7B – Hugging Face, เข้าถึงเมื่อ เมษายน 13, 2026 https://huggingface.co/SeaLLMs/SeaLLMs-v3-7B
Fantastic Bugs and Where to Find Them in AI Benchmarks – arXiv, เข้าถึงเมื่อ เมษายน 13, 2026 https://arxiv.org/html/2511.16842v1
NeurIPS Poster Fantastic Bugs and Where to Find Them in AI Benchmarks, เข้าถึงเมื่อ เมษายน 13, 2026 https://neurips.cc/virtual/2025/poster/121639
Typhoon-S: Minimal Open Post-Training for Sovereign Large Language Models – arXiv, เข้าถึงเมื่อ เมษายน 13, 2026 https://arxiv.org/pdf/2601.18129
(PDF) Typhoon-S: Minimal Open Post-Training for Sovereign Large Language Models, เข้าถึงเมื่อ เมษายน 13, 2026 https://www.researchgate.net/publication/400084505_Typhoon-S_Minimal_Open_Post-Training_for_Sovereign_Large_Language_Models
Introducing the ThaiLLM Leaderboard: ThaiLLM Evaluation Ecosystem – Typhoon, เข้าถึงเมื่อ เมษายน 13, 2026 https://opentyphoon.ai/blog/en/introducing-the-thaillm-leaderboard-thaillm-evaluation-ecosystem-508e789d06bf
ThaiSafetyBench: Assessing Language Model Safety in Thai Cultural Contexts – arXiv, เข้าถึงเมื่อ เมษายน 13, 2026 https://arxiv.org/pdf/2603.04992
ThaiSafetyBench: Assessing Language Model Safety in Thai Cultural Contexts – arXiv, เข้าถึงเมื่อ เมษายน 13, 2026 https://arxiv.org/html/2603.04992v1
ThaiOCRBench: A Task-Diverse Benchmark for Vision-Language Understanding in Thai – ACL Anthology, เข้าถึงเมื่อ เมษายน 13, 2026 https://aclanthology.org/2025.ijcnlp-long.89.pdf
ThaiOCRBench: A Task-Diverse Benchmark for Vision-Language Understanding in Thai, เข้าถึงเมื่อ เมษายน 13, 2026 https://www.researchgate.net/publication/402601492_ThaiOCRBench_A_Task-Diverse_Benchmark_for_Vision-Language_Understanding_in_Thai
ThaiOCRBench | alphaXiv, เข้าถึงเมื่อ เมษายน 13, 2026 https://www.alphaxiv.org/benchmarks/scb-10x/thaiocrbench
ThaiOCRBench: A Task-Diverse Benchmark for Vision-Language Understanding in Thai, เข้าถึงเมื่อ เมษายน 13, 2026 https://arxiv.org/html/2511.04479v3
Typhoon 2: A Family of Open Text and Multimodal Thai Large Language Models – arXiv, เข้าถึงเมื่อ เมษายน 13, 2026 https://arxiv.org/abs/2412.13702
Typhoon 2 Multimodal Release (Research Preview), เข้าถึงเมื่อ เมษายน 13, 2026 https://opentyphoon.ai/blog/en/typhoon-2-multimodal-release-research-preview-200fe9015ad9
(PDF) ThonburianTTS: Enhancing Neural Flow Matching Models for …, เข้าถึงเมื่อ เมษายน 13, 2026 https://www.researchgate.net/publication/399699435_ThonburianTTS_Enhancing_Neural_Flow_Matching_Models_for_Authentic_Thai_Text-to-Speech
biodatlab/ThonburianTTS – Hugging Face, เข้าถึงเมื่อ เมษายน 13, 2026 https://huggingface.co/biodatlab/ThonburianTTS
5.85 kB – Hugging Face, เข้าถึงเมื่อ เมษายน 13, 2026 https://huggingface.co/biodatlab/ThonburianTTS/resolve/main/README.md?download=true
Scopus 2025 – Mahidol IR, เข้าถึงเมื่อ เมษายน 13, 2026 https://repository.li.mahidol.ac.th/collections/5201244c-ac19-4c4a-bd22-c1799aba186e
E2 TTS: Embarrassingly Easy Fully Non-Autoregressive Zero-Shot TTS – ResearchGate, เข้าถึงเมื่อ เมษายน 13, 2026 https://www.researchgate.net/publication/388091235_E2_TTS_Embarrassingly_Easy_Fully_Non-Autoregressive_Zero-Shot_TTS
E3 TTS: Easy End-to-End Diffusion-Based Text To Speech | Request PDF – ResearchGate, เข้าถึงเมื่อ เมษายน 13, 2026 https://www.researchgate.net/publication/377545280_E3_TTS_Easy_End-to-End_Diffusion-Based_Text_To_Speech
Speech and Text Understanding Research Team (STU) – NECTEC : National Electronics and Computer Technology Center, เข้าถึงเมื่อ เมษายน 13, 2026 https://www.nectec.or.th/en/research/ainrg/stu.html
Thai Speech Spoofing Detection Dataset with Variations in Speaking Styles – ISCA Archive, เข้าถึงเมื่อ เมษายน 13, 2026 https://www.isca-archive.org/interspeech_2025/urai25_interspeech.html
Assessing Thai Dialect Performance in LLMs with Automatic Benchmarks and Human Evaluation – arXiv, เข้าถึงเมื่อ เมษายน 13, 2026 https://arxiv.org/html/2504.05898v1
Typhoon Isan: Open-Source ASR and a Language Technology Suite for Thailand’s Largest Dialect, เข้าถึงเมื่อ เมษายน 13, 2026 https://opentyphoon.ai/blog/en/typhoon-isan-release
Datasets & Evaluation – Typhoon, เข้าถึงเมื่อ เมษายน 13, 2026 https://opentyphoon.ai/datasets
Ubiquitous Computing Framework for Reducing Ambiguity in the Lanna Thai Dialect Using Transformer Models and Fuzzy Logic | Request PDF – ResearchGate, เข้าถึงเมื่อ เมษายน 13, 2026 https://www.researchgate.net/publication/399361339_Ubiquitous_Computing_Framework_for_Reducing_Ambiguity_in_the_Lanna_Thai_Dialect_Using_Transformer_Models_and_Fuzzy_Logic
Ubiquitous Computing Framework for Reducing Ambiguity in the, เข้าถึงเมื่อ เมษายน 13, 2026 https://thesai.org/Downloads/Volume16No12/Paper_25-Ubiquitous_Computing_Framework_for_Reducing_Ambiguity.pdf
Can LLMs Help Create Grammar?: Automating Grammar Creation for Endangered Languages with In-Context Learning – ACL Anthology, เข้าถึงเมื่อ เมษายน 13, 2026 https://aclanthology.org/2025.coling-main.681.pdf

NLP #LLM #TTS #ประมวลผลภาษาธรรมชาติ #โมเดลภาษาขนาดใหญ่ #แปลงข้อความเป็นเสียง #MachineLearning #DeepLearning #GenerativeAI