:quality(75)/cloudflare_se_chan_cac_trinh_thu_thap_du_lieu_ai_theo_mac_dinh_de_bao_ve_noi_dung_84f4a25f66.jpg)
Cloudflare sẽ chặn các trình thu thập dữ liệu AI theo mặc định để bảo vệ nội dung
Theo chính sách mới, Cloudflare sẽ chặn các trình thu thập dữ liệu AI theo mặc định, nhằm ngăn chặn hành vi truy cập trái phép hoặc không được bồi thường đối với nội dung trực tuyến.
Bảo vệ nội dung số trong kỷ nguyên AI
Trong nhiều năm qua, các trình thu thập dữ liệu AI đã âm thầm quét hàng tỷ trang web để trích xuất nội dung phục vụ cho việc huấn luyện các mô hình ngôn ngữ lớn, tìm kiếm hoặc tổng hợp thông tin. Tuy nhiên, quá trình này thường diễn ra mà không có sự đồng thuận từ phía chủ sở hữu nội dung. Cloudflare nhận định rằng điều này đang đặt ra những thách thức nghiêm trọng đối với quyền lợi và giá trị của các nhà xuất bản, đặc biệt là trong bối cảnh nội dung gốc ngày càng bị khai thác mà không có sự kiểm soát.
Matthew Prince, Giám đốc điều hành của Cloudflare, nhấn mạnh tầm quan trọng của việc bảo vệ nội dung gốc và cho rằng internet cần duy trì tính sáng tạo vốn là cốt lõi của nó. Ông chia sẻ rằng nhiều hệ thống AI hiện nay đang hoạt động mà không tuân thủ bất kỳ giới hạn nào trong việc thu thập nội dung, và Cloudflare muốn trao lại quyền kiểm soát cho những người đã tạo ra nội dung đó.
Song song với việc chặn mặc định các trình thu thập dữ liệu AI, Cloudflare cũng giới thiệu một sáng kiến mang tên Pay Per Crawl. Chương trình này cho phép các nhà xuất bản tự định giá quyền truy cập vào nội dung của họ. Các công ty AI có thể xem mức phí và quyết định có tham gia hay không. Đây được xem là một nỗ lực nhằm tạo ra cơ chế bù đắp công bằng cho việc sử dụng tài nguyên nội dung trong đào tạo và triển khai các mô hình trí tuệ nhân tạo.

Chương trình Pay Per Crawl không chỉ là công cụ kinh tế mà còn mang ý nghĩa minh bạch hóa quá trình thu thập dữ liệu. Thay vì để các bot AI âm thầm khai thác thông tin, các nhà xuất bản có thể trực tiếp kiểm soát ai được phép truy cập và với điều kiện nào.
Trên thực tế, từ năm 2023, Cloudflare đã cung cấp cho các trang web khả năng chặn trình thu thập AI thông qua tệp robots.txt, một phương pháp truyền thống trong việc hướng dẫn bot hoạt động trên trang web. Tuy nhiên, cách làm này chỉ có hiệu lực với những bot tuân thủ tiêu chuẩn. Nhiều trình thu thập dữ liệu, đặc biệt là các hệ thống AI không xác định rõ ràng nguồn gốc, vẫn bỏ qua hướng dẫn này và tiếp tục quét dữ liệu.
Nhận thấy lỗ hổng đó, Cloudflare đã mở rộng khả năng kiểm soát bằng cách cho phép chặn mọi trình thu thập AI, kể cả những bot không tôn trọng tệp robots.txt. Chính sách này sẽ được áp dụng mặc định cho tất cả khách hàng mới và các khách hàng hiện tại có thể kích hoạt trong phần cài đặt dịch vụ. Bằng cách này, Cloudflare giúp hàng triệu trang web bảo vệ tốt hơn nội dung số mà họ đang sở hữu.
Để tạo sự cân bằng giữa bảo vệ nội dung và hỗ trợ phát triển AI, Cloudflare cũng đang hợp tác với các công ty AI để xác minh trình thu thập dữ liệu của họ. Mục tiêu là yêu cầu các hệ thống AI phải nêu rõ mục đích sử dụng dữ liệu, chẳng hạn như đào tạo, truy xuất thông tin hoặc phân tích ngữ nghĩa. Việc công khai mục đích thu thập sẽ giúp các chủ sở hữu trang web đưa ra quyết định sáng suốt hơn về việc cho phép hay từ chối quyền truy cập.
Sáng kiến này không chỉ cải thiện tính minh bạch trong môi trường số mà còn khuyến khích các công ty AI tuân thủ các chuẩn mực đạo đức và pháp lý trong quá trình phát triển công nghệ.
Quyết định chặn các trình thu thập dữ liệu AI theo mặc định của Cloudflare là một động thái thể hiện cam kết mạnh mẽ đối với việc bảo vệ tài sản nội dung trên internet. Trong khi AI tiếp tục mở ra những cơ hội mới, thì quyền lợi của những người tạo ra nội dung cũng cần được bảo đảm một cách công bằng và rõ ràng.
Bằng cách trao quyền kiểm soát cho nhà xuất bản, minh bạch hoá mục đích sử dụng dữ liệu và thiết lập cơ chế định giá rõ ràng, Cloudflare đang góp phần định hình lại mối quan hệ giữa các nền tảng nội dung và công nghệ AI. Đây có thể là tiền đề cho một giai đoạn phát triển mới, nơi sự sáng tạo và công nghệ có thể cùng tồn tại trong một hệ sinh thái số công bằng và bền vững hơn.
Nguồn: The Verge
:quality(75)/estore-v2/img/fptshop-logo.png)