Google เปิดตัว Gemini 2.5 Computer Use Model โมเดลใหม่ที่พัฒนาต่อยอดจากของ Gemini 2.5 Pro ออกแบบมาเพื่อขับเคลื่อน “AI Agent” ที่สามารถโต้ตอบกับ UI บนหน้าจอได้โดยตรงทั้งบนเว็บและมือถือ
แม้ว่า AI จะเชื่อมต่อกับซอฟต์แวร์ต่าง ๆ ผ่าน API ได้อยู่แล้ว แต่งานดิจิทัลจำนวนมากยังต้องอาศัยการโต้ตอบกับ UI โดยตรง เช่น การกรอกแบบฟอร์ม คลิกปุ่ม หรือเลื่อนหน้า เพื่อให้ AI Agent ทำงานเหล่านี้ได้เหมือนมนุษย์
นั่นจึงมีการออกแบบโมเดลใหม่ให้ “เข้าใจและควบคุม” อินเทอร์เฟซกราฟิกได้อย่างแม่นยำ สามารถจัดการองค์ประกอบแบบโต้ตอบ (Interactive Elements) เช่น เมนูดรอปดาวน์ ตัวกรอง หรือฟอร์มล็อกอิน ได้อย่างมีประสิทธิภาพ ถือเป็นก้าวสำคัญสู่การสร้าง AI Agent ที่ทำงานได้ครบวงจรยิ่งขึ้น
ความสามารถนี้เปิดให้ใช้งานผ่านเครื่องมือใหม่ computer_use
ใน Gemini API การทำงานจะเริ่มจาก
ตอนนี้ Gemini 2.5 Computer Use Modelปรับให้เหมาะสมสำหรับเว็บเบราว์เซอร์เป็นหลัก และเริ่มแสดงศักยภาพในงานควบคุม UI บนมือถือ แต่ยังไม่รองรับการควบคุมระดับระบบปฏิบัติการเดสก์ท็อปเต็มรูปแบบ
Gemini 2.5 Computer Use Model แสดงประสิทธิภาพโดดเด่นในการทดสอบมาตรฐานด้านการควบคุมเว็บและมือถือหลายรายการ โดยผลการประเมินมาจากทั้งข้อมูลที่รายงานโดยทีมพัฒนาเอง การทดสอบโดย Browserbase และการประเมินภายในของ Google
รายละเอียดทั้งหมดสามารถดูได้ในเอกสาร “ข้อมูลการประเมินการใช้งานคอมพิวเตอร์ Gemini 2.5” และบล็อกโพสต์จาก Browserbase โดยเว้นแต่จะระบุไว้เป็นอย่างอื่น คะแนนทั้งหมดเป็นผลการทดสอบจากเครื่องมือ Computer Use ที่เปิดให้ใช้งานผ่าน API
โมเดลนี้ทำผลงานได้ในระดับ ชั้นนำของอุตสาหกรรม โดยเฉพาะในด้าน การควบคุมเบราว์เซอร์ที่มีความหน่วงต่ำที่สุด (Low Latency) ซึ่งได้รับการวัดผลผ่านเกณฑ์ Online-Mind2Web ของ Browserbase
ในด้านความปลอดภัยนั้น ทาง Google ให้ความสำคัญตั้งแต่การเริ่มต้นออกแบบ เนื่องจาก AI Agent ที่สามารถควบคุมคอมพิวเตอร์ได้โดยตรง อาจก่อให้เกิดความเสี่ยง เช่น การถูกนำไปใช้อย่างไม่เหมาะสม, พฤติกรรมของโมเดลที่คาดเดาไม่ได้, การแทรกข้อมูลหรือการหลอกลวงภายในสภาพแวดล้อมเว็บ ดังนั้นการติดตั้งระบบป้องกันความปลอดภัยจึงเป็นสิ่งสำคัญอย่างยิ่ง
เพื่อจัดการกับความเสี่ยงเหล่านี้ Google ได้ ฝังฟีเจอร์ด้านความปลอดภัยไว้ในตัวโมเดลโดยตรง ครอบคลุมความเสี่ยงหลักทั้งสามประเภท รวมถึงมีเครื่องมือควบคุมความปลอดภัยสำหรับนักพัฒนา เพื่อช่วยป้องกันไม่ให้โมเดลดำเนินการที่มีความเสี่ยงสูงโดยอัตโนมัติ เช่น
ระบบความปลอดภัยนี้ประกอบด้วย:
ทั้งนี้ Google ยังแนะนำให้นักพัฒนา ศึกษาคู่มือแนวทางปฏิบัติที่ดีที่สุด (Best Practices) และ ทดสอบระบบอย่างละเอียด ก่อนเปิดใช้งานจริง เพื่อให้มั่นใจว่าการใช้งานเป็นไปอย่างปลอดภัยสูงสุด
ที่มา blog.google