มาแล้ว Typhoon OCR! AI ดึงข้อมูลจากภาพถ่าย รองรับ รูปภาพ ตาราง ลายมือ ใช้ได้ทั้งไทย-อังกฤษ

dailygizmoAI3 weeks ago14 Views

Typhoon โมเดล LLM ของไทยที่พัฒนาโดย SCB10X เปิดตัวฟีเจอร์ใหม่ Typhoon OCR เอา AI มาช่วยดึงข้อมูลจากเอกสาร รองรับ รูปภาพ ตาราง ลายมือ รองรับทั้งไทย-อังกฤษ

เทคโนโลยี OCR แบบเดิมนั้นจะใช้ Convolutional Neural Networks (CNNs) ทำงานร่วมกับ RNNs หรือ Transformers แปลงภาพเป็นข้อความ แต่ก็มีข้อจำกัดหลายอย่าง

  • หากเอกสารมีความซับซ้อนจะไม่สามารถแยกแยะตาราง หัวข้อ คอลัมน์ หรือเนื้อหาหลายรูปแบบได้
  • ไม่เข้าใจแผนภูมิ แผนผัง และรูปภาพ
  • การดึงข้อมูลจาก PDF จะใช้วิธีเปลี่ยนเป็นภาพก่อน ทำให้ข้อมูล metadata สำคัญๆ ไม่ตามมาด้วย เช่น ลำดับการอ่าน ตำแหน่งของข้อความ และคำอธิบาย
  • OCR แบบเดิมจะไม่เข้าใจบริฐทของเนื้อหาทั้งหมด เพราะใช้การประมวลผลแบบรายบรรทัด ทำให้ไม่สามารถเชื่อมโยงข้อมูล สรุปเนื้อหาหรือการค้นหาอัจฉริยะได้

ทาง SCB 10X ได้อัปเกรด Typhoon แก้ปัญหาเหล่านี้ด้วย OCR โอเพ่นซอร์สรุ่นล่าสุด ที่พัฒนาโดย Vision-Language Model ทำให้เข้าใจโครงสร้างของเอกสาร เช่น เลย์เอาต์ ตาราง กราฟ และรูปภาพได้ แถมเข้าใจเอกสารภาษาไทย ตัวเลขไทย แม่นยำกว่าทั้ง GPT-4o และ Gemini 2.5 Flash

นอกจากแยกข้อความที่ต้องการออกมาจากในภาพได้แล้ว Typhoon OCR ยังสามารถสร้างข้อมูลเพื่อการสืบค้น (Retrieval-Augmented Generation – RAG), แยกวิเคราะห์และเข้าใจเอกสาร และอ่านตาราง แผนภูมิ และแบบฟอร์มอย่างแม่นยำ ทำให้รองรับการใช้งานจริงกับเอกสารหลากหลายประเภท ไม่ว่าจะเป็นแบบฟอร์ม, เอกสารราชการ, รายงาน, ตารางข้อมูล, งบการเงิน จนไปถึงกราฟและอินโฟกราฟิก พร้อมแปลงเป็นคำอธิบายที่เข้าใจง่าย

ใครอยากทดลองใช้งานสามารถเข้าไปได้ที่ OCR Playground  เนื่องจากตอนนี้มีคนสนใจเข้ามาใช้งานเป็นจำนวนมาก ทำให้บางช่วงนั้นอาจจะมีการทำงานผิดพลาดขึ้น error ได้

ที่มา opentyphoon

นักเขียนสาย Introvert ที่ชื่นชอบเรื่องนวัตกรรมและความคิดสร้างสรรค์ ใช้เวลาว่างกับ มังงะ, เสียงเพลงและ idol

Advertisement

Sidebar Search
Popular Now
Loading

Signing-in 3 seconds...

Signing-up 3 seconds...