Cloudflare指控Perplexity AI使用隐蔽爬虫规避网站拦截

芝麻开门

芝麻开门(Gateio)

注册芝麻开门享最高$2,800好礼。

币安

币安(Binance)

币安是世界领先的数字货币交易平台,注册领100U。

互联网基础设施提供商Cloudflare指出,Perplexity的爬虫程序在数万个网站明确禁止其访问后,仍持续抓取这些网站的内容。

Cloudflare周一宣布已将Perplexity移出其认证机器人计划,并对其所谓的”欺骗性抓取行为”实施拦截。这家总部位于旧金山的公司由Aravind Srinivas(CEO,前OpenAI研究员)、Denis Yarats(前Facebook AI)、Johnny Ho和Andy Konwinski(Databricks联合创始人)于2022年创立,上月完成1亿美元融资后估值达180亿美元

事件起因是Cloudflare客户投诉称,尽管已通过robots.txt指令和防火墙规则拦截Perplexity申报的爬虫,该公司仍在抓取其网站内容。Cloudflare工程师团队通过测试确认:”Perplexity爬虫确实在被拦截的特定页面上停止了活动。”

为验证行为模式,Cloudflare创建了多个配置严格robots.txt文件的新域名,明确禁止所有自动化访问。”我们向Perplexity AI询问这些域名内容时,发现它仍能提供受限制域名的详细页面信息。”更令人意外的是,当主要爬虫被拦截后,Perplexity会切换使用未申报的浏览器UA伪装成macOS版Chrome进行抓取。

Cloudflare指控Perplexity AI使用隐蔽爬虫规避网站拦截 来源:Cloudflare

这些隐蔽爬虫采用复杂规避技术:”它们使用非官方IP池轮转访问,当遭遇拦截时还会切换自治系统编号(ASN)。”据监测,Perplexity已申报爬虫日均请求量2000-2500万次,而未申报的隐蔽爬虫每日额外产生300-600万次请求,”涉及数万个域名”。

Perplexity未回应置评请求,其发言人向《TechCrunch》称相关指控只是Cloudflare的”营销说辞”。Cloudflare CEO马修·普林斯多次批评AI公司不可持续的内容攫取行为:”当人们越来越依赖AI摘要,搜索引擎推荐流量已断崖式下跌。”他披露的抓取转化率对比触目惊心:谷歌每抓取18页带来1次访问,而OpenAI的比率从半年前250:1恶化至1500:1,Anthropic更是从6000:1暴增至60000:1。

Cloudflare指控Perplexity AI使用隐蔽爬虫规避网站拦截 来源:Cloudflare

这促使Cloudflare启动”内容独立日”计划,默认拦截所有AI爬虫访问新域名,成为保护内容创作者的”网络义警”。据此前报道,自去年秋季以来已有超百万网站加入拦截行列,包括美联社、《时代》周刊、《大西洋月刊》、BuzzFeed、Reddit、Quora和环球音乐集团等知名机构。

Cloudflare强调:”合规爬虫应保持透明、目的明确且遵循网站指令。”该公司指出OpenAI能严格遵守robots.txt规范,与Perplexity形成鲜明对比。目前Cloudflare已采取双重措施:立即将隐蔽爬虫特征码加入全用户(含免费版)防护规则;长期计划开发”AI迷宫”(用虚假内容困住违规机器人)和”按次付费”内容市场等创新工具。


通用智能通讯

由生成式AI模型Gen讲述的每周AI之旅
您的邮箱
获取!
获取!

© 版权声明

相关文章