一家公司的狡猾计划阻止AI网络刮刀窃取您的内容

AI是。我们知道这是AI公司如何建立其备受价值的业务 - 通过刮擦网络并使用您的数据来培训聊天机器人。

网络刮擦并不是新事物。过去，网站可以依靠诸如robots.txt之类的简单协议来定义网络爬网手可能和不能使用的东西。这些准则受到刮擦的公司的尊重，例如为搜索引擎建立结果。但是，AI公司是不遵守通过这份社会契约，忽略了这些指示。

CloudFlare是一项全球网络服务，可帮助世界上一些最大的网站向用户提供内容，并制定了一项新计划来与AI Companies的网络刮刀打交道。这个想法和巧妙一样积极。

在新的博客文章，Cloudflare分享了它现在是如何“在AI迷宫中捕获不当行为的机器人”。基本上，不遵循通过协议（例如Robots.txt）的bot，一个简单的文本文件，该文件列出了哪些网络爬网器是什么允许这样做在一个站点上，将被弄乱，以浪费公司负责机器人的时间和资源。

Cloudflare在其帖子中说：“ AI生成的内容爆炸了……同时，我们还看到了AI公司用来刮擦模型培训的新爬行者的爆炸。” “ AI爬行者每天向CloudFlare网络产生超过500亿个请求，或者我们看到的所有Web请求的不到1％。”

可混合的轻速速度

Cloudflare说，它以前只是阻止了AI网络爬网和刮板。但是，这样做向机器人背后的人提醒了他们的访问权限，因此他们将改变策略以继续刮擦运动。

因此，CloudFlare提出了一个构建Honeypot的想法：一系列使用AI生成的内容创建的假网页。

Cloudflare利用AI生成的内容来对抗AI Web刮刀的事实不仅仅是Schadenfreude。当AI训练AI生成的内容时，它实际上是退化AI模型本身。该行业甚至有一个术语：“模型崩溃”。 Cloudflare实质上是确保违反规则的机器人会受到惩罚。

Cloudflare的帖子进入技术细节建造AI迷宫。但是，主要要点是，Cloudflare以某种方式设计了这些AI生成的Honeypot页面的方式。此外，人类会注意到这些页面上的“ AI生成的胡说八道”。然而，机器人将掉落在兔子洞中，浪费计算资源，因为它们在AI生成的内容的多个页面上越来越深入。

CloudFlare客户现在可以选择使用AI迷宫，以保护其内容免受网络刮擦的侵害。