Mẫu AI mới nhất của Google có khả năng sử dụng trình duyệt web giống như người

Công nghệ này cho phép AI không chỉ lướt web mà còn có thể điền biểu mẫu, cuộn trang, nhấn chuột máy tính và thao tác với các thành phần giao diện người dùng, mở ra hướng tiếp cận mới cho tự động hóa trên môi trường trực tuyến.

Khi AI biết “nhìn” và thao tác như người thật

Khác với các mô hình AI truyền thống chỉ hoạt động dựa trên truy vấn văn bản hoặc dữ liệu API, Gemini 2.5 được thiết kế để quan sát và hiểu giao diện trình duyệt bằng năng lực suy luận hình ảnh. Nhờ đó, AI có thể tự mình xác định vị trí nút bấm, ô nhập liệu hay các phần tử hiển thị trên trang web, sau đó thực hiện hành động tương ứng như điền thông tin, thêm sản phẩm vào giỏ hàng hoặc duyệt tin tức theo yêu cầu.

Google cho biết công nghệ này kế thừa từ các dự án nghiên cứu nội bộ như AI Mode và Project Mariner, vốn tập trung vào việc phát triển AI hoạt động như một trợ lý tác vụ độc lập, có khả năng thực hiện hành vi trực quan thay vì chỉ xử lý câu lệnh.

mau-ai-moi-nhat-cua-google-co-kha-nang-su-dung-trinh-duyet-web-giong-nhu-nguoi-1.jpg

Theo Google, Gemini 2.5 Computer Use hiện có thể đảm nhận mười ba loại hành động khác nhau bao gồm mở trình duyệt, gõ văn bản, kéo thả và cuộn trang. Điểm đặc biệt của hệ thống này nằm ở khả năng hiểu bối cảnh của giao diện, cho phép AI hành xử tự nhiên và linh hoạt hơn nhiều so với các công cụ tự động hóa trình duyệt thông thường.

Trong các thử nghiệm nội bộ, Gemini 2.5 cho kết quả vượt trội về tốc độ và độ chính xác khi thao tác trên cả trình duyệt web và thiết bị di động. Tuy vậy, hiện mô hình này vẫn chỉ hoạt động trong phạm vi trình duyệt chứ chưa có khả năng kiểm soát toàn bộ hệ điều hành máy tính như một trợ lý desktop thực thụ.

Google đang cung cấp Gemini 2.5 Computer Use cho cộng đồng lập trình viên thông qua các nền tảng quen thuộc gồm Google AI Studio, Vertex AI và Browserbase. Tại đây, người dùng có thể truy cập các bản trình diễn thực tế, quan sát cách AI tự động thực hiện những tác vụ như chơi game 2048 hoặc duyệt trang Hacker News để tìm bài viết nổi bật. Các video demo được Google công bố đều tua nhanh gấp ba lần so với thời gian thực, cho thấy mô hình vẫn đang trong giai đoạn hoàn thiện nhưng đã đạt đủ mức ổn định để xử lý những thao tác mà trước đây chỉ con người mới làm được.

Tuy vẫn còn giới hạn trong môi trường trình duyệt nhưng Gemini 2.5 Computer Use thể hiện tầm nhìn rõ ràng của Google trong việc xây dựng một hệ thống trí tuệ nhân tạo có khả năng hiểu và tương tác với thế giới số theo cách tự nhiên nhất. Đây có thể xem là bước đệm quan trọng hướng tới thế hệ AI có thể kết hợp giữa năng lực ngôn ngữ và khả năng thao tác thực tế, giúp người dùng tương tác với công nghệ một cách trực quan và hiệu quả hơn bao giờ hết.

Xem thêm:

Nguồn: The Verge