什么是内容抓取?
内容或网络抓取使用自动化脚本或机器人从网站中提取有价值的数据。如果您的网站包含需要收集或计算的昂贵数据,不良行为者或竞争对手可能会窃取这些数据并将其用于邪恶目的。您的数据还可以通过浏览 ChatGPT 等生成式 AI 模型的插件来抓取,并在您不知情的情况下用于回答用户查询或训练大型语言模型。

机器人抓取内容和避免检测的能力各不相同。使用wget等 HTTP 库的简单脚本可以从 Web 服务器检索页面并解析 HTML 响应中的信息。它们对于抓取静态网站可能很有效,但对于动态客户端呈现的内容效率较低。它们也更容易检测,因为您的网站可以轻松测试其是否无法执行 JavaScript。

无头浏览器和浏览器自动化工具(例如Puppeteer或Selenium)要复杂得多。他们可以执行 JavaScript、滚动、按下按钮、等待客户端渲染的内容加载并抓取它。它们是功能齐全的浏览器,只是自动化的,这使得它们更强大且更难以检测。许多浏览器还具有“隐形”插件,试图使它们类似于常规浏览器。

请查看我们关于了解内容抓取的文章,以了解有关其工作原理及其对网站所有者的影响的更多信息。

保护您的内容免受复杂机器人的侵害
Web应用程序防火墙(WAF) 可以提供基于规则的基本保护层,例如阻止主机机器人已知的 IP 范围、国家/地区和数据中心。第一道防线很有帮助,但有时还不够,因为抓取工具可以使用代理循环访问不同的 IP 地址。

您可以要求访问者通过完成验证码挑战来证明他们是人类,例如选择所有包含宽边帽的图像。这通常是有效的,但也会破坏用户体验。为了在不打扰人类的情况下对抗机器人,您可以使用客户端库通过分析访问者的浏览器在运行时检测机器人。

ipfingerprint 机器人检测会收集机器人泄露的大量浏览器数据(错误、网络覆盖、浏览器属性不一致、API 更改等),以可靠地区分真实用户与无头浏览器、自动化工具、其衍生产品和插件。

它基于BotD——我们创建的一个免费开源库,用于检测完全在客户端运行的简单机器人。然而,ipfingerprint 机器人检测可以检测更广泛的复杂机器人,并在服务器端运行分析,这样就不易受到机器人本身的篡改。请参阅我们的文档,了解 BotD 和 ipfingerprint 机器人检测的详细比较。下面的示例使用非开源版本。

将指纹机器人检测集成到您的网站中
首先,注册一个指纹帐户。机器人检测作为智能信号之一包含在 Pro Plus 计划中,与隐身模式检测、VPN 检测、浏览器篡改检测以及其他有助于保护网站安全的数据点一样。

将JavaScript 代理添加到您的网站客户端。启用后,您可以使用相同的 JavaScript 代理进行访客识别和机器人检测。我们拥有适用于所有重要前端框架的客户端库,或者您也可以从我们的 CDN 加载脚本

对于生产部署,我们建议使用参数通过您自己的域将请求路由到 ipfingerprint 的 API endpoint。这可以防止广告拦截器中断识别请求并提高准确性。我们提供了多种方法来执行此操作,您可以在我们的有关如何保护您的 JavaScript 代理免受广告拦截器侵害的指南中了解更多信息。

在客户端,在请求飞行数据之前,使用加载的fpPromise浏览器参数将其发送到 ipfingerprint API 进行分析。requestId您将在回复中收到。将其包含在您发送到服务器的搜索请求中。

注意:ipfingerprint 必须从浏览器收集信号才能检测机器人。因此,如本文所示,它最好用于保护可从您的网站访问的数据端点。它的设计目的不是为了保护服务器渲染的内容或在初始页面加载时发送到浏览器的静态内容,因为浏览器信号在服务器端渲染期间不可用。

在服务器上,发送requestId到 ipfingerprint Server API以获取机器人检测结果。如果requestId格式错误或未找到,则不会返回航班结果。您可以直接调用服务器 API REST 端点或使用我们的服务器 SDK之一。

从服务器 API 返回的结果botDetection会告诉您 ipfingerprint 是否检测到良好的机器人(例如搜索引擎爬虫)、不良的机器人(自动浏览器)或根本不是机器人。

如果访问者是恶意机器人,则返回错误。或者,您可以更新WAF 规则以在将来阻止机器人的 IP 地址。

此时,您将知道哪些指纹识别请求是真实的并且没有检测到恶意机器人。但您需要验证结果是否确实属于此搜索请求。该机器人可能会requestId用不久前手动获得的旧机器人替换真实机器人。要检查重放攻击,您需要验证指纹请求的新鲜度:

您还需要验证指纹识别请求的来源是否与搜索请求本身的来源匹配。通常,两者都来自您网站的域。

最后,验证指纹识别请求的 IP 是否与搜索请求的 IP 匹配。

验证了机器人检测结果的真实性后,您现在可以放心地返回数据:


点赞(0) 打赏

评论列表 共有 0 条评论

暂无评论

我的微信

免费获取资源

立即
投稿

跨境引流推广

微信扫一扫入群

发表
评论
返回
顶部