Typhoon โมเดล LLM ของไทยที่พัฒนาโดย SCB10X เปิดตัวฟีเจอร์ใหม่ Typhoon OCR เอา AI มาช่วยดึงข้อมูลจากเอกสาร รองรับ รูปภาพ ตาราง ลายมือ รองรับทั้งไทย-อังกฤษ
เทคโนโลยี OCR แบบเดิมนั้นจะใช้ Convolutional Neural Networks (CNNs) ทำงานร่วมกับ RNNs หรือ Transformers แปลงภาพเป็นข้อความ แต่ก็มีข้อจำกัดหลายอย่าง
ทาง SCB 10X ได้อัปเกรด Typhoon แก้ปัญหาเหล่านี้ด้วย OCR โอเพ่นซอร์สรุ่นล่าสุด ที่พัฒนาโดย Vision-Language Model ทำให้เข้าใจโครงสร้างของเอกสาร เช่น เลย์เอาต์ ตาราง กราฟ และรูปภาพได้ แถมเข้าใจเอกสารภาษาไทย ตัวเลขไทย แม่นยำกว่าทั้ง GPT-4o และ Gemini 2.5 Flash
นอกจากแยกข้อความที่ต้องการออกมาจากในภาพได้แล้ว Typhoon OCR ยังสามารถสร้างข้อมูลเพื่อการสืบค้น (Retrieval-Augmented Generation – RAG), แยกวิเคราะห์และเข้าใจเอกสาร และอ่านตาราง แผนภูมิ และแบบฟอร์มอย่างแม่นยำ ทำให้รองรับการใช้งานจริงกับเอกสารหลากหลายประเภท ไม่ว่าจะเป็นแบบฟอร์ม, เอกสารราชการ, รายงาน, ตารางข้อมูล, งบการเงิน จนไปถึงกราฟและอินโฟกราฟิก พร้อมแปลงเป็นคำอธิบายที่เข้าใจง่าย
ใครอยากทดลองใช้งานสามารถเข้าไปได้ที่ OCR Playground เนื่องจากตอนนี้มีคนสนใจเข้ามาใช้งานเป็นจำนวนมาก ทำให้บางช่วงนั้นอาจจะมีการทำงานผิดพลาดขึ้น error ได้
ที่มา opentyphoon