รายงานนี้เป็นการวิเคราะห์เชิงลึกเกี่ยวกับความแตกต่างและความคล้ายคลึงทางสถาปัตยกรรมและหลักการทำงานของระบบปัญญาประดิษฐ์ (AI) ที่ใช้ในการสร้างภาพ (AI Image Generation) และการสร้างวิดีโอ (AI Video Generation) โดยเน้นที่การปรับตัวของสถาปัตยกรรมพื้นฐานเพื่อจัดการกับความท้าทายของมิติเวลาและความคงที่เชิงมิติ (Temporal Consistency)
Part I: The Shared Foundation of Generative AI
การสร้างสรรค์สื่อใหม่ๆ ไม่ว่าจะเป็นภาพนิ่งหรือภาพเคลื่อนไหว อาศัยรากฐานทางคณิตศาสตร์และโครงสร้างเครือข่ายประสาทเทียมที่คล้ายคลึงกัน โดยเฉพาะอย่างยิ่งในการใช้โมเดลสร้างสรรค์เชิงลึก (Deep Generative Models) ที่ก้าวข้ามขีดจำกัดของการจำแนกประเภทไปสู่การสังเคราะห์ข้อมูลใหม่ 1

1.1. โมเดลการสร้างสรรค์เชิงลึก: หลักการร่วมและพาราดาม (Deep Generative Models: Shared Principles and Paradigms)
พาราดามหลักสามประการที่ครองตำแหน่งในการสร้างสื่อสังเคราะห์ในปัจจุบัน ได้แก่ Diffusion Models (DMs), Generative Adversarial Networks (GANs), และ Variational Autoencoders (VAEs) 2
Diffusion Models (DMs) และความสำคัญต่อ State-of-the-Art (SOTA)
Diffusion Models เป็นพื้นฐานหลักของระบบ AI สร้างภาพและวิดีโอชั้นนำในปัจจุบัน (เช่น Stable Diffusion และ Sora) หลักการทำงานของ DM ประกอบด้วยกระบวนการหลักสองส่วน:
- กระบวนการส่งต่อ (Forward Process/Data Destruction): เป็นการทำลายข้อมูลอย่างเป็นระบบโดยการเติมสัญญาณรบกวน (Noise) เข้าไปทีละขั้นตอนจนกระทั่งข้อมูลต้นฉบับไม่สามารถแยกแยะได้จากสัญญาณรบกวน 2
- กระบวนการย้อนกลับ (Reverse Process/Denoising): โมเดลจะเริ่มต้นจากการเป็นสัญญาณรบกวนแบบสุ่ม จากนั้นทำการลดสัญญาณรบกวน (Denoising) กลับไปทีละขั้นตอนอย่างค่อยเป็นค่อยไป จนกระทั่งได้ผลลัพธ์ที่เป็นข้อมูลใหม่ที่มีคุณภาพสูง 2
ความโดดเด่นของ Diffusion Models คือความสามารถในการสร้างผลลัพธ์ที่มีความเที่ยงตรงสูง (High-fidelity) และมีความหลากหลายของผลลัพธ์สูง (Diversity) ซึ่งทำให้โมเดลประเภทนี้เป็นทางเลือกที่สมดุลเมื่อทั้งความสมจริงและความหลากหลายเป็นสิ่งจำเป็น 2 อย่างไรก็ตาม กลไกการทำงานแบบวนซ้ำ (Iterative) เพื่อลดสัญญาณรบกวนทีละขั้น ทำให้โมเดล Diffusion มีความช้ากว่าเมื่อเทียบกับ GANs หรือ VAEs ในขั้นตอนการอนุมาน (Inference) 2 การที่อุตสาหกรรมยอมรับความช้าในการอนุมานนี้ สะท้อนให้เห็นถึงการจัดลำดับความสำคัญของผลลัพธ์ที่มีคุณภาพและความเสถียรที่เหนือกว่า เพื่อให้พร้อมสำหรับการใช้งานเชิงพาณิชย์ขนาดใหญ่
บทบาทของ VAEs ใน Latent Diffusion Models (LDM)
แม้ว่า DM จะเป็นหัวใจหลัก แต่เพื่อจัดการกับความท้าทายด้านทรัพยากรในการประมวลผลข้อมูลความละเอียดสูง VAEs จึงมีบทบาทสำคัญในฐานะ Latent Diffusion Models (LDM) 6 VAEs ทำหน้าที่เข้ารหัส (Encode) ภาพความละเอียดสูงให้เป็นพื้นที่แฝง (Latent Space) ที่มีมิติข้อมูลต่ำลงมาก (เช่น การบีบอัดข้อมูล 8 เท่า, 16 เท่า หรือแม้กระทั่ง 128 เท่าในโมเดลวิดีโอขั้นสูง 7) ก่อนที่กระบวนการ Diffusion จะเริ่มต้นขึ้น 7 การทำงานของกระบวนการ Diffusion ในพื้นที่แฝงที่ถูกบีบอัดนี้ช่วยลดภาระการคำนวณลงอย่างมาก ทำให้สามารถสร้างภาพและวิดีโอความละเอียดสูงได้โดยมีต้นทุนด้าน VRAM ที่จัดการได้ 6
Table 1: Comparison of Core Generative Model Paradigms
คุณสมบัติ | Diffusion Models (DM) | Generative Adversarial Networks (GANs) | Variational Autoencoders (VAEs) |
หลักการทำงาน | Incremental Denoising (ลดสัญญาณรบกวนทีละขั้น) | การแข่งขันระหว่าง Generator (G) และ Discriminator (D) 9 | การเข้ารหัสและถอดรหัส (Encode/Decode) โดยมีข้อจำกัดทางสถิติ 9 |
คุณภาพผลลัพธ์ (Fidelity) | สูงมาก (State-of-the-Art) 2 | สูง (แต่มีปัญหา Mode Collapse) 2 | ต่ำกว่า DM/GANs เล็กน้อย |
ความหลากหลาย (Diversity) | สูง (ครอบคลุม Latent Space ได้ดี) 2 | ต่ำ (อาจเกิด Mode Collapse) 2 | สูงและควบคุมได้ง่าย 2 |
ความเร็วในการสร้าง (Inference Speed) | ช้า (ต้องทำหลาย Iteration) 2 | เร็ว (One-shot generation) 5 | เร็ว |
1.2. โครงสร้างสถาปัตยกรรมหลัก: จาก U-Net สู่ Transformer (Core Architecture: From U-Net to Transformer)
สถาปัตยกรรมหลักที่ใช้ในการทำหน้าที่ Denoising (ลดสัญญาณรบกวน) ให้กับโมเดล Diffusion คือเครือข่ายประสาทเทียมแบบแบ็คโบน ในอดีต สถาปัตยกรรมที่ได้รับความนิยมคือ CNN-based U-Net 10 อย่างไรก็ตาม การเปลี่ยนแปลงครั้งสำคัญได้เกิดขึ้นด้วยการนำ Diffusion Transformers (DiT) มาใช้แทนที่ U-Net แบบดั้งเดิม 6
DiT ซึ่งใช้สถาปัตยกรรมแบบ Transformer (เช่น Vision Transformer) ได้แสดงให้เห็นถึงความสามารถในการปรับขนาดที่เหนือกว่า (Superior Scalability) และประสิทธิภาพที่สม่ำเสมอ ซึ่งเป็นปัจจัยสำคัญที่ผลักดันให้โมเดลสร้างภาพและวิดีโอชั้นนำหลายตัว (เช่น Stable Diffusion v3 และ PixArt) หันมาใช้โครงสร้าง Transformer 10 เนื่องจากกลไก Self-Attention ของ Transformer สามารถจำลองความสัมพันธ์ระยะยาว (Long-range dependencies) ภายในข้อมูลได้อย่างมีประสิทธิภาพสูงกว่า U-Net ทำให้มันเป็นพื้นฐานทางเทคนิคที่เหมาะสมอย่างยิ่งสำหรับการจัดการกับข้อมูลภาพที่มีความซับซ้อนขนาดใหญ่ และจะยิ่งทวีความสำคัญมากขึ้นเมื่อมีการเพิ่มมิติเวลาเข้ามา 6

Part II: The Critical Divergence: Introducing the Temporal Dimension
ความแตกต่างหลักและเป็นความท้าทายที่สำคัญที่สุดของ AI สร้างวิดีโอเมื่อเทียบกับ AI สร้างภาพ คือการเพิ่มมิติเวลาเข้ามาในการประมวลผล ซึ่งเปลี่ยนจากปัญหา 2 มิติ (มิติเชิงพื้นที่) ไปสู่ปัญหา 4 มิติ (มิติเชิงพื้นที่และเวลา)
2.1. ความท้าทายหลัก: มิติเวลาและความคงที่ (The Core Challenge: Time Dimension and Consistency)
ในขณะที่ AI สร้างภาพประมวลผลข้อมูลในลักษณะ 2 มิติ (ความสูง x ความกว้าง) 8 ระบบ AI สร้างวิดีโอต้องจัดการกับข้อมูลที่เป็น 4 มิติ ได้แก่ เวลา (T) x ความสูง (H) x ความกว้าง (W) x ช่องสี (C) 11
เงื่อนไขที่เพิ่มเข้ามานี้สร้างข้อจำกัดที่จำเป็นสำหรับวิดีโอซึ่งไม่มีในภาพนิ่ง:
- ความสอดคล้องเชิงเวลา (Temporal Coherence): การเคลื่อนไหวในแต่ละเฟรมต้องราบรื่น ต่อเนื่อง และสอดคล้องกับหลักฟิสิกส์ (เช่น แรงโน้มถ่วง, โมเมนตัม) 7
- ความคงที่ของวัตถุ/ตัวละคร (Object/Character Persistence): ตัวละครหลัก วัตถุ เสื้อผ้า แสง และการจัดวางฉาก จะต้องคงที่และไม่เปลี่ยนแปลงอย่างไม่สมเหตุสมผลตลอดทั้งลำดับของวิดีโอ 7
- ความเข้าใจเชิงบรรยาย (Narrative Understanding): โมเดลขั้นสูง เช่น Sora ต้องพยายามรวมตรรกะเชิงบรรยายและเหตุและผลเข้าด้วยกัน เพื่อให้สามารถสร้างคลิปที่มีความยาวและมีเรื่องราวที่สอดคล้อง 7
การเพิ่มมิติเวลา ($T$) ทำให้ความซับซ้อนในการคำนวณเพิ่มขึ้นอย่างทวีคูณ (Exponentially Higher) เมื่อเทียบกับการสร้างภาพ 14 เนื่องจากโมเดลต้องจัดเก็บและประมวลผลความสัมพันธ์ระหว่างเฟรมทั้งหมดพร้อมกัน ซึ่งเกินกว่าการเติบโตแบบกำลังสอง (Quadratic Growth) ที่เกิดจากการเพิ่มความละเอียดเชิงพื้นที่เท่านั้น 15 การจำลองโลกทางฟิสิกส์และการรักษาความทรงจำของฉากให้คงที่ตลอดเวลาจึงเป็นความท้าทายเชิงเทคนิคที่ซับซ้อนอย่างยิ่ง
2.2. ข้อแตกต่างในหลักการทำงาน (Operational Differences in Working Principles)
ในทางปฏิบัติ การลดสัญญาณรบกวน (Denoising) สำหรับวิดีโอแตกต่างจากการลดสัญญาณรบกวนสำหรับภาพอย่างสิ้นเชิง:
- การลดสัญญาณรบกวนภาพ (2D): โมเดลจะประเมินสัญญาณรบกวนในแพทช์ภาพ 2 มิติเดียว โดยเน้นที่ความสมจริงเชิงพื้นที่และการจัดแนวข้อความต่อภาพ
- การลดสัญญาณรบกวนวิดีโอ (Spatiotemporal): โมเดลจะต้องประเมินสัญญาณรบกวนทั้งในเชิงพื้นที่และ เชิงเวลา 8 เครือข่าย Denoising ต้องพิจารณาเฟรมข้างเคียงเพื่อทำนายว่าการเคลื่อนไหว แสง และวัตถุควรเปลี่ยนแปลงอย่างไร เพื่อให้เกิดความต่อเนื่องเชิงเวลา การทำงานนี้บังคับให้โมเดลต้องประมวลผลข้อมูลวิดีโอในฐานะลำดับของเฟรมพร้อมกัน เพื่อบังคับใช้ความสัมพันธ์เชิงเวลาตลอดกระบวนการ Diffusion 8
เนื่องจากกระบวนการ Diffusion โดยธรรมชาติอาจประสบปัญหาในการรักษาอัตลักษณ์ของวัตถุ (Temporal Drift) การพัฒนาฟีเจอร์ใหม่ๆ เช่น Multi-image fusion จึงมีความสำคัญอย่างยิ่ง 13 เทคนิคนี้ช่วยให้ผู้ใช้สามารถกำหนดอัตลักษณ์ทางภาพของตัวละครหรือวัตถุได้โดยการอ้างอิงจากหลายภาพก่อนการสร้าง ซึ่งเป็นการ “แก้ไข” ทางเทคนิคเพื่อเอาชนะจุดอ่อนโดยธรรมชาติของโมเดลในการติดตามความคงที่ของลักษณะที่ไม่ใช่เชิงพื้นที่เมื่อเวลาผ่านไป 13
Table 2: Fundamental Differences: AI Image vs. AI Video Generation
ปัจจัยเปรียบเทียบ | AI สร้างภาพ (Image Generation) | AI สร้างวิดีโอ (Video Generation) | เหตุผลเชิงเทคนิคหลัก |
มิติข้อมูลที่ประมวลผล | 2D (Spatial: Height x Width) 8 | 3D หรือ 4D (Spatiotemporal: Time x H x W) 11 | ต้องพิจารณาลำดับของเฟรมและเวลา |
เงื่อนไขสำคัญ | ความสมจริงเชิงพื้นที่ (Spatial Realism) | ความสอดคล้องเชิงเวลา (Temporal Coherence) 7 | ต้องรักษา Identity, Lighting, และ Motion Consistency |
การประมวลผลหลัก | 2D Convolution, Spatial Attention | 3D Convolution, Factorized U-Net, Cross-Frame Attention 8 | 3D Kernels จับความสัมพันธ์ระหว่างเฟรม 14 |
ความซับซ้อนในการฝึกฝน | สูง | สูงกว่าแบบทวีคูณ (Exponentially Higher) 14 | จำนวนพารามิเตอร์และข้อมูลที่เพิ่มขึ้นตามมิติเวลา 12 |
Part III: Architectural Adaptation for Video Synthesis
เพื่อจัดการกับมิติเวลาที่เพิ่มเข้ามา สถาปัตยกรรมที่ใช้ในการสร้างภาพจะต้องได้รับการขยายและปรับปรุงอย่างมีนัยสำคัญ
3.1. การขยายสถาปัตยกรรมหลักจาก 2D ไปสู่ Spatiotemporal (Scaling Core Architecture from 2D to Spatiotemporal)
การปรับสถาปัตยกรรมหลักของ Diffusion Models เพื่อให้รองรับวิดีโอจำเป็นต้องมีการปรับเปลี่ยนเพื่อจัดการกับความคงที่เชิงเวลาและเชิงพื้นที่ 8
3D Convolutional Neural Networks (3D CNNs) และข้อจำกัด
วิธีการแรกคือการขยาย 2D CNN ไปสู่ 3D CNNs โดยใช้เคอร์เนล 3 มิติเพื่อประมวลผลข้อมูลปริมาตร ($T \times H \times W$) 14 เคอร์เนล 3 มิติจะเลื่อนผ่านทั้งมิติเชิงพื้นที่และแกนเวลา ทำให้โมเดลสามารถเรียนรู้รูปแบบและความสัมพันธ์เชิงเวลา เช่น การเคลื่อนที่ของวัตถุ 14 อย่างไรก็ตาม 3D CNNs ก่อให้เกิดภาระการคำนวณที่สูงขึ้นอย่างมาก การใช้หน่วยความจำที่เพิ่มขึ้น และพารามิเตอร์ที่เพิ่มขึ้นอย่างทวีคูณ ซึ่งทำให้วิธีการนี้ไม่สามารถนำมาใช้ได้อย่างเต็มที่สำหรับโมเดลวิดีโอความละเอียดสูงขนาดใหญ่ 14
การปรับใช้ U-Net และ Transformer แบบแยกส่วน (Factorization)
เพื่อหลีกเลี่ยงต้นทุนที่สูงเกินไปของ 3D CNNs งานวิจัยจึงหันมาใช้สถาปัตยกรรมแบบแยกส่วน (Factorized Architectures) เช่น Space-Time U-Net (STUNet) 11 สถาปัตยกรรมนี้จะขยายโมเดล U-Net ที่ฝึกฝนมาแล้วสำหรับภาพนิ่ง (2D) และเพิ่มส่วนประกอบใหม่ที่แยกการทำงานเชิงพื้นที่และเวลาออกจากกัน 11 ตัวอย่างเช่น การดำเนินการ Convolution เชิงพื้นที่จะถูกขยายจาก $3\times3$ เป็น $1\times3\times3$ ในขณะที่ความสนใจเชิงเวลาจะถูกเพิ่มเข้ามาเฉพาะในบล็อกความสนใจ (Attention Blocks) ที่ระดับ U-Net ที่หยาบที่สุด 11 การแยกส่วนนี้ช่วยให้สามารถดาวน์แซมปลิงและอัพแซมปลิงวิดีโอได้อย่างมีประสิทธิภาพทั้งในมิติเวลาและพื้นที่
นอกจากนี้ การใช้ Diffusion Transformer (DiT) ซึ่งเป็นพื้นฐานของ Latent Diffusion Models ได้รับการขยายโดยการประยุกต์ใช้ในพื้นที่แฝงมิติข้อมูลต่ำ 6 ซึ่งTransformer มีข้อได้เปรียบโดยธรรมชาติในการจัดการข้อมูลลำดับ (Sequence Data) ทำให้สามารถปรับเข้ากับแกนเวลาได้อย่างง่ายดาย
3.2. กลไกการสร้างความสอดคล้องเชิงเวลาขั้นสูง (Advanced Mechanisms for Temporal Coherence)
ความสอดคล้องเชิงเวลาจะถูกบังคับใช้ผ่านกลไกความสนใจ (Attention Mechanisms) ที่ได้รับการดัดแปลง:
- Cross-Frame Attention (CFA): กลไกนี้ถูกเพิ่มเข้ามาในโมดูล Self-Attention เพื่อแนะนำปฏิสัมพันธ์ระหว่างทุกเฟรมในลำดับ 11 แทนที่จะประมวลผลเฟรมแยกกัน ระบบจะแมปเฟรมแฝงทั้งหมด ณ เวลาต่างๆ เข้าสู่เมทริกซ์ Query (Q), Key (K), และ Value (V) 11 กลไกนี้ทำให้แต่ละเฟรมสามารถ “มองเห็น” และรับอิทธิพลจากเฟรมอื่นๆ ทั้งหมดในคลิปเดียวกัน ซึ่งเป็นสิ่งจำเป็นอย่างยิ่งในการรักษาความต่อเนื่องของลักษณะสำคัญของวัตถุตลอดทั้งวิดีโอ 8
- การเร่งความเร็วผ่าน Dual-Expert Consistency Models (DCM): เนื่องจากความช้าในการอนุมานเป็นปัญหาพื้นฐานของ Diffusion Models 5 การพัฒนากลไกเร่งความเร็วจึงเป็นสิ่งสำคัญ DCM ถูกออกแบบมาเพื่อเร่งกระบวนการ Diffusion โดยเฉพาะในวิดีโอ โดยการแบ่งโมเดลออกเป็นสองส่วน: ผู้เชี่ยวชาญเชิงความหมาย (Semantic Expert) ที่เน้นการเรียนรู้เค้าโครงและการเคลื่อนไหว และ ผู้เชี่ยวชาญเชิงรายละเอียด (Detail Expert) ที่เน้นการปรับปรุงรายละเอียดปลีกย่อย 16 เพื่อให้แน่ใจว่าการเร่งความเร็วจะไม่ทำลายความต่อเนื่อง ระบบได้แนะนำ Temporal Coherence Loss เพื่อปรับปรุงความสอดคล้องของการเคลื่อนไหวสำหรับผู้เชี่ยวชาญเชิงความหมาย 16 การแยกความเชี่ยวชาญนี้ช่วยให้ได้คุณภาพระดับ SOTA โดยใช้ขั้นตอนการสุ่มตัวอย่าง (Sampling Steps) ที่ลดลงอย่างมาก 16
การปรับสถาปัตยกรรมเชิงกลยุทธ์ เช่น การใช้ Factorization และ Cross-Frame Attention แสดงให้เห็นว่าการสร้างวิดีโอประสิทธิภาพสูงไม่ได้อาศัยเพียงแค่การเพิ่มขนาดโมเดลเท่านั้น แต่ยังอาศัยการแบ่งแยกงานระหว่างมิติเชิงพื้นที่และเวลา เพื่อให้เกิดความสมดุลระหว่างคุณภาพและความเป็นไปได้ทางเทคนิค (Feasibility)
Part IV: Resource Analysis and Computational Overhead
ความซับซ้อนเชิงเทคนิคที่เพิ่มขึ้นในการจัดการกับมิติเวลา ส่งผลให้ความต้องการทรัพยากรการคำนวณ โดยเฉพาะ VRAM เพิ่มขึ้นอย่างมากเมื่อเทียบกับการสร้างภาพ
4.1. ความต้องการทรัพยากร: VRAM และเวลาการฝึกฝน (Resource Demand: VRAM and Training Time)
การฝึกฝนและการอนุมานโมเดล AI สร้างสรรค์ขนาดใหญ่ต้องอาศัยหน่วยประมวลผลกราฟิก (GPU) ที่มีประสิทธิภาพสูงและ VRAM (Video RAM) จำนวนมาก (เช่น NVIDIA A100, H100 หรือ RTX 4090) 17 แม้แต่การขยายขนาดภาพนิ่งก็ทำให้จำนวนพิกเซลเพิ่มขึ้นแบบกำลังสอง ส่งผลให้ภาระการคำนวณและหน่วยความจำเพิ่มขึ้นอย่างมาก 15
วิดีโอทำให้ปัญหานี้ซับซ้อนขึ้นไปอีกขั้น เนื่องจากโมเดลต้องจัดเก็บเทนเซอร์ 4 มิติ ($T \times H \times W \times C$) 11 ในขณะที่โมเดลภาพขนาดใหญ่อาจต้องการ VRAM 24GB–48GB สำหรับการฝึกฝน 17 โมเดล Diffusion วิดีโอระดับ SOTA ที่ให้คุณภาพสูง เช่น Wan2.2 T2V-A14B อาจต้องการ VRAM ขั้นต่ำถึง 80GB สำหรับการอนุมานบน GPU เดี่ยว 7
ข้อจำกัดด้าน VRAM นี้ทำให้เกิดปัญหาคอขวดที่เรียกว่า Memory Bound 18 ซึ่งหมายความว่าเวลาการทำงานส่วนใหญ่ไม่ได้เกิดจากการคำนวณเพียงอย่างเดียว แต่เกิดจากค่าใช้จ่ายในการทำ I/O (การอ่าน/เขียนผลลัพธ์ระหว่างทาง) ซึ่งเป็นอุปสรรคต่อการใช้ประโยชน์จากขีดความสามารถของ GPU อย่างเต็มที่ 18 นอกจากนี้ ข้อจำกัดด้านหน่วยความจำยังบังคับให้นักพัฒนาต้องใช้ขนาดชุดข้อมูล (Batch Sizes) ที่เล็กลงในการฝึกฝน ซึ่งทำให้การฝึกฝนและการหาค่าที่เหมาะสม (Optimization) ช้าลง 15
Table 3: Computational Requirements and Challenges
ปัจจัย | AI สร้างภาพ (High-Resolution SOTA) | AI สร้างวิดีโอ (High-Fidelity SOTA) | ความท้าทาย/ผลกระทบ |
มิติข้อมูลหลัก | 3 (H x W x C) | 4 (T x H x W x C) | ปริมาณข้อมูลเพิ่มขึ้นแบบทวีคูณ 14 |
VRAM ขั้นต่ำ (สำหรับ Inference) | 6GB – 24GB (RTX 3090/4090) 17 | 42GB – 80GB (H100/A100 class GPU recommended) 7 | Memory Bound เนื่องจาก I/O Overhead สูง 18 |
การประมวลผลหลัก | 2D Spatial Attention | Spatiotemporal Attention / 3D Convs | ช้าลงเนื่องจากขั้นตอน Denoising ที่ไม่สามารถทำขนานกันได้ 5 |
กลยุทธ์ลดภาระ | Latent Diffusion (LDM) | High-Compression LDM, MoE Architecture, DCM, Hierarchical Sampling 7 |
4.2. กลยุทธ์การเพิ่มประสิทธิภาพเพื่อลดภาระ VRAM (Efficiency Optimization Strategies)
เพื่อทำให้การสร้างวิดีโอมีความเป็นไปได้และประหยัดค่าใช้จ่าย การวิจัยได้มุ่งเน้นไปที่การเพิ่มประสิทธิภาพสถาปัตยกรรม แทนที่จะพึ่งพาการเพิ่มขนาดพารามิเตอร์เพียงอย่างเดียว 19
- Latent Diffusion Models (LDM) ที่มีการบีบอัดสูง: นี่คือกลยุทธ์หลักในการลดหน่วยความจำ โดย VAE จะบีบอัดข้อมูลวิดีโอให้อยู่ในพื้นที่แฝงที่มีมิติข้อมูลต่ำมาก ตัวอย่างเช่น AsymmVAE ของ Mochi 1 สามารถบีบอัดวิดีโอให้มีขนาดเล็กลงถึง 128 เท่า (บีบอัดเชิงพื้นที่ $8\times8$ และเชิงเวลา $6\times$) 7 การดำเนินการ Diffusion ในพื้นที่บีบอัดนี้ช่วยลดการใช้ VRAM ลงอย่างมาก 8
- สถาปัตยกรรม Mixture-of-Experts (MoE): Wan2.2 ได้นำสถาปัตยกรรม MoE มาใช้ในโมเดลวิดีโอ Diffusion 7 กลไกนี้ช่วยขยายความจุของโมเดลโดยไม่ต้องเพิ่มต้นทุนการอนุมาน โดยแบ่งกระบวนการลดสัญญาณรบกวนออกเป็นผู้เชี่ยวชาญเฉพาะทางตามช่วงเวลา (เช่น ผู้เชี่ยวชาญสำหรับสัญญาณรบกวนสูงและผู้เชี่ยวชาญสำหรับรายละเอียดปลีกย่อย) 7 ทำให้โมเดลมีพารามิเตอร์รวมขนาดใหญ่ (เช่น 27 พันล้าน) แต่ใช้พารามิเตอร์ที่ใช้งานจริงเพียงส่วนเดียว (เช่น 14 พันล้าน) ในแต่ละขั้นตอน ทำให้การอนุมานมีประสิทธิภาพเชิงต้นทุนสูง 7
- โมเดล Consistency และ Temporal Coherence Loss: ดังที่กล่าวไว้ในส่วนที่ 3.2 การใช้โมเดล Dual-Expert Consistency Model (DCM) 16 พร้อมกับการสูญเสียความสอดคล้องเชิงเวลา (Temporal Coherence Loss) เป็นตัวอย่างของการออกแบบสถาปัตยกรรมใหม่ที่มุ่งเน้นการเร่งความเร็ว (ลดขั้นตอน Denoising) ในขณะที่รักษาคุณภาพของการเคลื่อนไหว 16
ความต้องการทรัพยากรที่เพิ่มขึ้นแบบทวีคูณนี้ ได้ผลักดันให้เกิดนวัตกรรมด้านฮาร์ดแวร์ เช่น ควอนตัมคอมพิวเตอร์ หรือชิลิกอนพิเศษสำหรับโมเดล Bitnet 19 ซึ่งจำเป็นต่อการลดเวลาและพลังงานที่ใช้ในการฝึกฝนโมเดลขนาดใหญ่ให้มีประสิทธิภาพสูงสุด การพัฒนาดังกล่าวถือเป็นแนวทางที่สำคัญในการเอาชนะขีดจำกัดด้านการคำนวณในปัจจุบัน
Part V: State-of-the-Art, Market Trends, and Societal Implications
5.1. การวิเคราะห์เปรียบเทียบโมเดลชั้นนำ (Comparative Analysis of Leading Models)
โมเดล AI สร้างวิดีโอชั้นนำในปัจจุบันแสดงให้เห็นถึงการเปลี่ยนผ่านจากการมุ่งเน้นความเที่ยงตรงของภาพ (Visual Fidelity) ไปสู่การจำลองโลก (World Modeling) และการควบคุมเชิงผู้กำกับ (Directorial Control)
- OpenAI Sora: ถือเป็นก้าวกระโดดครั้งใหญ่ โดยมุ่งเน้นไปที่ความสมจริงที่ไม่เคยมีมาก่อนและความเข้าใจเชิงบรรยาย (Narrative Coherence) 20 Sora พยายามปรับปรุงความน่าเชื่อถือทางฟิสิกส์ (Physical Plausibility) เช่น น้ำหนัก สมดุล และความสัมพันธ์ของเหตุและผล 7 นอกจากนี้ยังมีความสามารถในการสร้างเสียงที่ซิงโครไนซ์ (Synchronized Audio) พร้อมกับภาพในรอบเดียว ซึ่งเป็นสิ่งที่ขาดไปในเวิร์กโฟลว์ก่อนหน้า 7
- Kling AI: เน้นที่ความเร็วและเสรีภาพในการสร้างสรรค์ โดยมีจุดเด่นที่การยึดมั่นใน Prompt อย่างเข้มแข็ง (Strong Prompt Adherence) และการควบคุมกล้องขั้นสูง 7 โมเดลนี้สร้างผลลัพธ์ระดับภาพยนตร์ที่มีความสมจริงที่รับรู้หลักฟิสิกส์ (Physics-aware realism) ทำให้การเคลื่อนไหวเป็นไปตามทิศทางที่ต้องการโดยมีการวนซ้ำและค่าความหน่วงน้อยลง 7
- Marey (Moonvalley): เน้นย้ำตำแหน่งของตัวเองว่าเป็นโมเดลเชิงพาณิชย์ที่มีความปลอดภัยทางกฎหมาย (Commercial Safety) โดยฝึกฝนจากฟุตเทจที่ได้รับอนุญาตเท่านั้น 7 Marey นำเสนอคุณสมบัติการควบคุมระดับโปรดักชัน เช่น Camera Control (เปลี่ยนฉาก 2D เป็นสภาพแวดล้อม 3D), Motion Transfer, และ Keyframing เพื่อให้ผู้สร้างสามารถกำหนดทิศทางของฉากได้อย่างแม่นยำ 7
แนวโน้มโดยรวมแสดงให้เห็นว่า การแข่งขันด้าน AI สร้างวิดีโอในปัจจุบันได้ยกระดับไปสู่การจำลองระบบพลวัตของโลก (Dynamic Systems) โดยให้ผู้ใช้มีเครื่องมือที่ช่วยในการควบคุมองค์ประกอบของภาพยนตร์และรักษาความคงที่ของตัวละครผ่านฟีเจอร์อย่าง Multi-image fusion ซึ่งกลายเป็นคุณสมบัติที่สำคัญในการลดความพยายามในขั้นตอนหลังการผลิต 13
5.2. ความท้าทายทางจริยธรรมและผลกระทบทางสังคม (Ethical Challenges and Societal Implications)
ความก้าวหน้าอย่างรวดเร็วของ AI สร้างวิดีโอโดยเฉพาะอย่างยิ่งในด้านความสมจริง ได้นำมาซึ่งความเสี่ยงทางสังคมที่ลึกซึ้ง:
- วิกฤต Deepfake และข้อมูลบิดเบือน: วิดีโอ AI ที่สมจริงอย่างยิ่งยวดเป็นภัยคุกคามต่อ “ความเข้าใจร่วมกันในความเป็นจริง” 21 เนื้อหาวิดีโอที่เคยถูกใช้เป็นหลักฐานยืนยันเหตุการณ์จริง อาจถูกปัดทิ้งว่าเป็นของปลอม ในขณะที่เหตุการณ์ที่ถูกสร้างขึ้นจะถูกเชื่อว่าเป็นความจริง การสร้าง Deepfakes (สื่อสังเคราะห์ที่ใช้เทคนิค VAE และ Diffusion) เพื่อวัตถุประสงค์ในการฉ้อโกง การกลั่นแกล้ง หรือเนื้อหาที่ไม่ได้รับความยินยอม ได้เพิ่มความจำเป็นเร่งด่วนสำหรับกรอบจริยธรรมและข้อบังคับที่แข็งแกร่งขึ้น 22
- ปัญหาลิขสิทธิ์และการใช้ข้อมูล (Copyright and Data Provenance): เครื่องมือ AI มักถูกฝึกฝนโดยใช้เนื้อหาที่มีลิขสิทธิ์โดยไม่ได้รับอนุญาตอย่างชัดเจน 24 การที่โมเดลสามารถสร้างองค์ประกอบที่เกือบจะเหมือนกับเนื้อหาของผู้สร้างต้นฉบับได้ก่อให้เกิดความกังวลอย่างมากเกี่ยวกับที่มาของข้อมูล (Data Provenance) และความเสี่ยงทางกฎหมาย 24 การตอบสนองทางเทคนิคที่จำเป็นต่อความเสี่ยงนี้คือการพัฒนาโมเดลที่โปร่งใสและได้รับการฝึกฝนบนข้อมูลที่มีการอนุญาตอย่างถูกกฎหมาย (เช่น Marey) และการใช้เทคนิคการติดลายน้ำดิจิทัล (Watermarking) เพื่อตรวจสอบแหล่งที่มา 7
การพัฒนาอย่างก้าวกระโดดของ AI วิดีโอ (เช่น ความสามารถในการสร้าง Deepfakes ได้ในเวลาเพียงไม่กี่วินาที 23) หมายความว่าการพัฒนากรอบจริยธรรมและกฎหมายต้องเร่งให้ทันกับความก้าวหน้าทางเทคโนโลยี การสร้างความสมดุลระหว่างนวัตกรรมกับความรับผิดชอบ และการส่งเสริมความโปร่งใส จึงเป็นสิ่งที่สำคัญที่สุดสำหรับการใช้งาน AI สร้างวิดีโอในอนาคต 24
บทสรุป
AI สร้างภาพและ AI สร้างวิดีโอมีความเหมือนกันในรากฐานอัลกอริทึม (Diffusion Models, VAEs, และ Transformer Architecture) แต่มีความแตกต่างกันอย่างชัดเจนในด้านความซับซ้อนของการประมวลผลและการออกแบบสถาปัตยกรรม โมเดลสร้างวิดีโอต้องขยายการทำงานจาก 2 มิติไปสู่ 4 มิติ ซึ่งแนะนำเงื่อนไขที่สำคัญที่สุดคือ ความคงที่เชิงเวลา (Temporal Consistency) และความสามารถในการจำลองระบบฟิสิกส์ของโลก
ความท้าทายในการจัดการมิติเวลา ส่งผลให้เกิดความต้องการทรัพยากร VRAM ที่สูงขึ้นอย่างทวีคูณ (สูงถึง 80GB สำหรับ SOTA Inference) 7 ซึ่งนำไปสู่การพัฒนานวัตกรรมทางสถาปัตยกรรมที่เน้นประสิทธิภาพ:
- การแยกส่วน Spatiotemporal: การใช้ 3D CNNs แบบ Factorized และกลไก Cross-Frame Attention เพื่อจัดการมิติพื้นที่และเวลาแยกกันอย่างมีประสิทธิภาพ 11
- การเร่งความเร็วที่มีความคงที่: การใช้ Dual-Expert Consistency Models (DCM) และ Temporal Coherence Loss เพื่อลดขั้นตอนการอนุมานของ Diffusion Model ที่ช้าโดยไม่สูญเสียความต่อเนื่อง 16
- สถาปัตยกรรมที่ปรับขนาดได้: การใช้ Latent Diffusion Models ร่วมกับ VAEs ที่มีการบีบอัดสูง (เช่น 128x) และสถาปัตยกรรม Mixture-of-Experts (MoE) เพื่อเพิ่มขนาดโมเดลโดยไม่เพิ่มภาระการคำนวณในการอนุมาน 7
ความก้าวหน้าทางเทคนิคในปัจจุบันแสดงให้เห็นว่า AI สร้างวิดีโอกำลังเปลี่ยนจากการสร้างภาพที่สวยงามไปสู่การจำลองโลกที่มีตรรกะเชิงบรรยายและฟิสิกส์ที่สมจริง (World Modeling) ซึ่งในขณะเดียวกัน ก็เพิ่มความเสี่ยงทางสังคม เช่น Deepfakes และปัญหาลิขสิทธิ์ การจัดการความท้าทายเหล่านี้จึงจำเป็นต้องมีการพัฒนาควบคู่กันทั้งด้านเทคโนโลยี (เช่น เครื่องมือตรวจสอบความถูกต้อง) และด้านกรอบจริยธรรมและกฎหมาย เพื่อรับประกันการใช้งานอย่างรับผิดชอบในอนาคต.24
ผลงานที่อ้างอิง
- Generative AI เอไอแบบรู้สร้าง – NSTDA, เข้าถึงเมื่อ ตุลาคม 21, 2025 https://www.nstda.or.th/home/news_post/10-tech-generative-ai/
- Comparing Diffusion, GAN, and VAE Techniques – Generative AI Lab, เข้าถึงเมื่อ ตุลาคม 21, 2025 https://generativeailab.org/l/generative-ai/a-tale-of-three-generative-models-comparing-diffusion-gan-and-vae-techniques/569/
- Diffusion Models vs. GANs vs. VAEs: Comparison of Deep Generative Models – Towards AI, เข้าถึงเมื่อ ตุลาคม 21, 2025 https://pub.towardsai.net/diffusion-models-vs-gans-vs-vaes-comparison-of-deep-generative-models-67ab93e0d9ae
- Diffusion Model คืออะไร ? มารู้จักแบบจำลองในการสร้างข้อมูล Generative …, เข้าถึงเมื่อ ตุลาคม 21, 2025 https://tips.thaiware.com/2629.html
- Optimizing the Full Stack: Thoughts with Image and Video Generation Models – Sayak Paul, เข้าถึงเมื่อ ตุลาคม 21, 2025 https://sayak.dev/posts/flow-optim.html
- GenTron: Diffusion Transformers for Image and Video Generation – arXiv, เข้าถึงเมื่อ ตุลาคม 21, 2025 https://arxiv.org/html/2312.04557v2
- The Top 10 Video Generation Models of 2025 | DataCamp, เข้าถึงเมื่อ ตุลาคม 21, 2025 https://www.datacamp.com/blog/top-video-generation-models
- How can diffusion models be adapted for video generation? – Milvus, เข้าถึงเมื่อ ตุลาคม 21, 2025 https://milvus.io/ai-quick-reference/how-can-diffusion-models-be-adapted-for-video-generation
- Synthetic Scientific Image Generation with VAE, GAN, and Diffusion Model Architectures – PMC – PubMed Central, เข้าถึงเมื่อ ตุลาคม 21, 2025 https://pmc.ncbi.nlm.nih.gov/articles/PMC12387873/
- 1 Introduction – arXiv, เข้าถึงเมื่อ ตุลาคม 21, 2025 https://arxiv.org/html/2502.09164v1
- Diffusion Models for Video Generation | Lil’Log, เข้าถึงเมื่อ ตุลาคม 21, 2025 https://lilianweng.github.io/posts/2024-04-12-diffusion-video/
- Video Is Worth a Thousand Images: Exploring the Latest Trends in Long Video Generation, เข้าถึงเมื่อ ตุลาคม 21, 2025 https://arxiv.org/html/2412.18688v1
- AI Video Generation: Innovations That Are Powerfully Driving the …, เข้าถึงเมื่อ ตุลาคม 21, 2025 https://reelmind.ai/blog/ai-video-generation-innovations-that-are-powerfully-driving-the-industry-forward
- 3D Convolutional Neural Network (3D CNN) — A Guide for …, เข้าถึงเมื่อ ตุลาคม 21, 2025 https://www.neuralconcept.com/post/3d-convolutional-neural-network-a-guide-for-engineers
- What challenges arise when scaling diffusion models to higher resolutions? – Milvus, เข้าถึงเมื่อ ตุลาคม 21, 2025 https://milvus.io/ai-quick-reference/what-challenges-arise-when-scaling-diffusion-models-to-higher-resolutions
- Dual-Expert Consistency Model for Efficient and High-Quality Video Generation – arXiv, เข้าถึงเมื่อ ตุลาคม 21, 2025 https://arxiv.org/abs/2506.03123
- What are the hardware requirements for AI image generation? – Tencent Cloud, เข้าถึงเมื่อ ตุลาคม 21, 2025 https://www.tencentcloud.com/techpedia/125161
- Fast and Memory-Efficient Video Diffusion Using Streamlined Inference – arXiv, เข้าถึงเมื่อ ตุลาคม 21, 2025 https://arxiv.org/html/2411.01171v1
- The Future of Artificial Intelligence | IBM, เข้าถึงเมื่อ ตุลาคม 21, 2025 https://www.ibm.com/think/insights/artificial-intelligence-future
- Sora & Kling AI: The Powerhouses of AI Video | ReelMind, เข้าถึงเมื่อ ตุลาคม 21, 2025 https://reelmind.ai/blog/sora-kling-ai-the-powerhouses-of-ai-video
- When Everything Is Fake, What’s the Point of Social Media? – Time Magazine, เข้าถึงเมื่อ ตุลาคม 21, 2025 https://time.com/7326718/sora-2-ai-fake-videos-social-media/
- Deepfake – Wikipedia, เข้าถึงเมื่อ ตุลาคม 21, 2025 https://en.wikipedia.org/wiki/Deepfake
- Deepfakes and the Ethics of Generative AI | Tepperspectives – Carnegie Mellon University, เข้าถึงเมื่อ ตุลาคม 21, 2025 https://tepperspectives.cmu.edu/all-articles/deepfakes-and-the-ethics-of-generative-ai/
- AI-generated videos: Innovation, risks & rewards – WeAreBrain, เข้าถึงเมื่อ ตุลาคม 21, 2025 https://wearebrain.com/blog/era-of-ai-generated-videos/
- The Impact of AI Video Generators Like Sora on Content Creation | PixelDojo News, เข้าถึงเมื่อ ตุลาคม 21, 2025 https://pixeldojo.ai/industry-news/the-impact-of-ai-video-generators-like-sora-on-content-creation