Home
Tech & Innovation
AI
เปิดตัว Gemini 2.5 Computer Use model ช่วยนักพัฒนาสร้าง AI Agent ควบคุมหน้าจอ

เปิดตัว Gemini 2.5 Computer Use model ช่วยนักพัฒนาสร้าง AI Agent ควบคุมหน้าจอ

หัวข้อในเนื้อหานี้

THE SUMMARY:

Google เปิดตัว Gemini 2.5 Computer Use Model โมเดลใหม่ที่พัฒนาต่อยอดจากของ Gemini 2.5 Pro ออกแบบมาเพื่อขับเคลื่อน “AI Agent” ที่สามารถโต้ตอบกับ UI บนหน้าจอได้โดยตรงทั้งบนเว็บและมือถือ

แม้ว่า AI จะเชื่อมต่อกับซอฟต์แวร์ต่าง ๆ ผ่าน API ได้อยู่แล้ว แต่งานดิจิทัลจำนวนมากยังต้องอาศัยการโต้ตอบกับ UI โดยตรง เช่น การกรอกแบบฟอร์ม คลิกปุ่ม หรือเลื่อนหน้า เพื่อให้ AI Agent ทำงานเหล่านี้ได้เหมือนมนุษย์

นั่นจึงมีการออกแบบโมเดลใหม่ให้ “เข้าใจและควบคุม” อินเทอร์เฟซกราฟิกได้อย่างแม่นยำ สามารถจัดการองค์ประกอบแบบโต้ตอบ (Interactive Elements) เช่น เมนูดรอปดาวน์ ตัวกรอง หรือฟอร์มล็อกอิน ได้อย่างมีประสิทธิภาพ ถือเป็นก้าวสำคัญสู่การสร้าง AI Agent ที่ทำงานได้ครบวงจรยิ่งขึ้น

วิธีการทำงานของ Gemini 2.5 Computer Use model

ความสามารถนี้เปิดให้ใช้งานผ่านเครื่องมือใหม่ computer_use ใน Gemini API การทำงานจะเริ่มจาก

Input ของระบบ ประกอบด้วย คำขอของผู้ใช้ ภาพหน้าจอเพื่อให้เข้าใจบริบท และประวัติการดำเนินการล่าสุด พร้อมตัวเลือกให้จำกัดหรือเพิ่มฟังก์ชันที่ต้องการ
การประมวลผล โมเดลจะวิเคราะห์ Input แล้วสร้างการตอบสนองเป็น “การเรียกใช้ฟังก์ชัน” ที่แทนพฤติกรรมบน UI เช่น คลิก พิมพ์ หรือยืนยันคำสั่งบางอย่าง เช่น การซื้อสินค้า
วงจรการทำงาน (Loop) หลังจากดำเนินการแต่ละขั้นตอน ระบบจะส่งภาพหน้าจอใหม่และ URL ปัจจุบันกลับไปยังโมเดล เพื่อประเมินและดำเนินการขั้นต่อไปจนกว่างานจะสำเร็จหรือสิ้นสุด

ตอนนี้ Gemini 2.5 Computer Use Modelปรับให้เหมาะสมสำหรับเว็บเบราว์เซอร์เป็นหลัก และเริ่มแสดงศักยภาพในงานควบคุม UI บนมือถือ แต่ยังไม่รองรับการควบคุมระดับระบบปฏิบัติการเดสก์ท็อปเต็มรูปแบบ

ประสิทธิภาพการทำงาน

Gemini 2.5 Computer Use Model แสดงประสิทธิภาพโดดเด่นในการทดสอบมาตรฐานด้านการควบคุมเว็บและมือถือหลายรายการ โดยผลการประเมินมาจากทั้งข้อมูลที่รายงานโดยทีมพัฒนาเอง การทดสอบโดย Browserbase และการประเมินภายในของ Google

รายละเอียดทั้งหมดสามารถดูได้ในเอกสาร “ข้อมูลการประเมินการใช้งานคอมพิวเตอร์ Gemini 2.5” และบล็อกโพสต์จาก Browserbase โดยเว้นแต่จะระบุไว้เป็นอย่างอื่น คะแนนทั้งหมดเป็นผลการทดสอบจากเครื่องมือ Computer Use ที่เปิดให้ใช้งานผ่าน API

โมเดลนี้ทำผลงานได้ในระดับ ชั้นนำของอุตสาหกรรม โดยเฉพาะในด้าน การควบคุมเบราว์เซอร์ที่มีความหน่วงต่ำที่สุด (Low Latency) ซึ่งได้รับการวัดผลผ่านเกณฑ์ Online-Mind2Web ของ Browserbase

ความปลอดภัยในการใช้งาน

ในด้านความปลอดภัยนั้น ทาง Google ให้ความสำคัญตั้งแต่การเริ่มต้นออกแบบ เนื่องจาก AI Agent ที่สามารถควบคุมคอมพิวเตอร์ได้โดยตรง อาจก่อให้เกิดความเสี่ยง เช่น การถูกนำไปใช้อย่างไม่เหมาะสม, พฤติกรรมของโมเดลที่คาดเดาไม่ได้, การแทรกข้อมูลหรือการหลอกลวงภายในสภาพแวดล้อมเว็บ ดังนั้นการติดตั้งระบบป้องกันความปลอดภัยจึงเป็นสิ่งสำคัญอย่างยิ่ง

เพื่อจัดการกับความเสี่ยงเหล่านี้ Google ได้ ฝังฟีเจอร์ด้านความปลอดภัยไว้ในตัวโมเดลโดยตรง ครอบคลุมความเสี่ยงหลักทั้งสามประเภท รวมถึงมีเครื่องมือควบคุมความปลอดภัยสำหรับนักพัฒนา เพื่อช่วยป้องกันไม่ให้โมเดลดำเนินการที่มีความเสี่ยงสูงโดยอัตโนมัติ เช่น

การทำลายความสมบูรณ์ของระบบ
การละเมิดความปลอดภัย
การข้าม CAPTCHA
หรือการควบคุมอุปกรณ์ทางการแพทย์

ระบบความปลอดภัยนี้ประกอบด้วย:

บริการความปลอดภัยแบบ Step-by-Step ระบบประเมินความปลอดภัยภายนอกโมเดล ที่จะตรวจสอบและอนุมัติแต่ละการกระทำก่อนลงมือจริง
คำแนะนำของระบบ (System Instructions) นักพัฒนาสามารถตั้งค่าให้ Agent “ปฏิเสธ” หรือ “ขอการยืนยันจากผู้ใช้” ก่อนดำเนินการใด ๆ ที่เข้าข่ายความเสี่ยงสูง

ทั้งนี้ Google ยังแนะนำให้นักพัฒนา ศึกษาคู่มือแนวทางปฏิบัติที่ดีที่สุด (Best Practices) และ ทดสอบระบบอย่างละเอียด ก่อนเปิดใช้งานจริง เพื่อให้มั่นใจว่าการใช้งานเป็นไปอย่างปลอดภัยสูงสุด

ที่มา blog.google