Vercel 发布的一份报告强调了 AI 机器人在网络爬虫中日益增长的影响。
OpenAI 的 GPTBot 和 Anthropic 的 Claude 在 Vercel 的网络中每月产生近 10 亿个请求。
数据显示,GPTBot 在过去一个月发出了 5.69 亿次请求,而 Claude 占了 3.7 亿次。
此外,PerplexityBot 贡献了 2440 万次抓取,AppleBot 增加了 3.14 亿次请求。
这些 AI 爬虫加起来约占 Googlebot 总量的 28%,即 45 亿次抓取。
以下是这对 SEO 可能意味着什么。
AI 爬虫的主要发现
该分析着眼于 Vercel 网络和各种 Web 架构上的流量模式。它发现了 AI 爬虫的一些关键功能:
主要的 AI 爬虫不会呈现 JavaScript,但它们会拉取 JavaScript 文件。
AI 爬虫通常效率低下,ChatGPT 和 Claude 在 34 个页面上花费了超过 404% 的请求。
这些爬网程序关注的内容类型各不相同。ChatGPT 优先考虑 HTML (57.7%),而 Claude 更关注图像 (35.17%)。
地理分布
与在多个区域运营的传统搜索引擎不同,AI 爬虫目前在美国保持集中分布:
ChatGPT 在得梅因(爱荷华州)和凤凰城(亚利桑那州)运营
Claude 在哥伦布(俄亥俄州)工作
Web Almanac 相关性
这些发现与Web Almanac网络年鉴的SEO章节中分享的数据一致,该章节还指出了AI爬虫的日益增长。
根据该报告,网站现在使用 robots.txt 文件为 AI 机器人设置规则,告诉它们可以抓取什么或不能抓取什么。
GPTBot 是被提及最多的机器人,出现在 2.7% 的研究移动网站上。Common Crawl 机器人通常用于收集语言模型的训练数据,也经常被注意到。
两份报告都强调网站所有者需要适应 AI 爬虫的行为方式。
优化 AI 爬虫的 3 种方法
根据 Vercel 和 Web Almanac 的最新数据,以下是针对 AI 爬虫进行优化的三种方法。
1. 服务器端渲染
AI 爬虫不执行 JavaScript。这意味着任何依赖于客户端渲染的内容都可能是不可见的。
建议的操作:
为关键内容实施服务器端渲染
确保初始 HTML 中存在主要内容、元信息和导航结构
尽可能使用静态站点生成或增量静态重新生成
2. 内容结构和交付
Vercel 的数据显示了 AI 爬虫之间不同的内容类型偏好:
ChatGPT:
优先考虑 HTML 内容 (57.70%)
将 11.50% 的获取次数花费在 JavaScript 文件上
Claude:
非常注重图片 (35.17%)
将 23.84% 的 fetch 专用于 JavaScript 文件
优化建议:
清晰、语义化地构建 HTML 内容
优化图像交付和元数据
为图像包含描述性替代文本
实施适当的标头层次结构
3. 技术考虑
AI 爬虫的高 404 率意味着您需要将以下技术考虑因素放在首位:
维护更新的站点地图
实施适当的重定向链
使用一致的 URL 模式
定期审核 404 错误
最后
对于搜索营销人员来说,信息很明确:AI 聊天机器人是网络爬虫领域的一股新生力量,网站需要相应地调整其 SEO。
尽管 AI 机器人现在可能依赖于缓存或过时的信息,但它们解析来自 Web 的新内容的能力将会提高。
您可以通过服务器端渲染、干净的 URL 结构和更新的站点地图来帮助确保您的内容被抓取和索引。