一家公司的狡猾计划阻止AI网络刮刀窃取您的内容

AI是。我们知道这是AI公司如何建立其备受价值的业务 - 通过刮擦网络并使用您的数据来培训聊天机器人。

网络刮擦并不是新事物。过去,网站可以依靠诸如robots.txt之类的简单协议来定义网络爬网手可能和不能使用的东西。这些准则受到刮擦的公司的尊重,例如为搜索引擎建立结果。但是,AI公司是不遵守通过这份社会契约,忽略了这些指示。

CloudFlare是一项全球网络服务,可帮助世界上一些最大的网站向用户提供内容,并制定了一项新计划来与AI Companies的网络刮刀打交道。这个想法和巧妙一样积极。

在新的博客文章,Cloudflare分享了它现在是如何“在AI迷宫中捕获不当行为的机器人”。基本上,不遵循通过协议(例如Robots.txt)的bot,一个简单的文本文件,该文件列出了哪些网络爬网器是什么允许这样做在一个站点上,将被弄乱,以浪费公司负责机器人的时间和资源。

Cloudflare在其帖子中说:“ AI生成的内容爆炸了……同时,我们还看到了AI公司用来刮擦模型培训的新爬行者的爆炸。” “ AI爬行者每天向CloudFlare网络产生超过500亿个请求,或者我们看到的所有Web请求的不到1%。”

可混合的轻速速度

Cloudflare说,它以前只是阻止了AI网络爬网和刮板。但是,这样做向机器人背后的人提醒了他们的访问权限,因此他们将改变策略以继续刮擦运动。

因此,CloudFlare提出了一个构建Honeypot的想法:一系列使用AI生成的内容创建的假网页。

Cloudflare利用AI生成的内容来对抗AI Web刮刀的事实不仅仅是Schadenfreude。当AI训练AI生成的内容时,它实际上是退化AI模型本身。该行业甚至有一个术语:“模型崩溃”。 Cloudflare实质上是确保违反规则的机器人会受到惩罚。

Cloudflare的帖子进入技术细节建造AI迷宫。但是,主要要点是,Cloudflare以某种方式设计了这些AI生成的Honeypot页面的方式。此外,人类会注意到这些页面上的“ AI生成的胡说八道”。然而,机器人将掉落在兔子洞中,浪费计算资源,因为它们在AI生成的内容的多个页面上越来越深入。

CloudFlare客户现在可以选择使用AI迷宫,以保护其内容免受网络刮擦的侵害。