您的位置 首页 行业知识

惊人揭秘:AI 爬虫竟占 Googlebot 流量的 28%!

Vercel 发布的一份报告强调了 AI 机器人在网络爬虫中日益增长的影响。

OpenAI 的 GPTBot 和 Anthropic 的 Claude 在 Vercel 的网络中每月产生近 10 亿个请求。

数据显示,GPTBot 在过去一个月发出了 5.69 亿次请求,而 Claude 占了 3.7 亿次。

此外,PerplexityBot 贡献了 2440 万次抓取,AppleBot 增加了 3.14 亿次请求。

这些 AI 爬虫加起来约占 Googlebot 总量的 28%,即 45 亿次抓取。

以下是这对 SEO 可能意味着什么。

AI 爬虫的主要发现

该分析着眼于 Vercel 网络和各种 Web 架构上的流量模式。它发现了 AI 爬虫的一些关键功能:

主要的 AI 爬虫不会呈现 JavaScript,但它们会拉取 JavaScript 文件。

AI 爬虫通常效率低下,ChatGPT 和 Claude 在 34 个页面上花费了超过 404% 的请求。

这些爬网程序关注的内容类型各不相同。ChatGPT 优先考虑 HTML (57.7%),而 Claude 更关注图像 (35.17%)。

惊人揭秘:AI 爬虫竟占 Googlebot 流量的 28%!

地理分布

与在多个区域运营的传统搜索引擎不同,AI 爬虫目前在美国保持集中分布:

ChatGPT 在得梅因(爱荷华州)和凤凰城(亚利桑那州)运营

Claude 在哥伦布(俄亥俄州)工作

Web Almanac 相关性

这些发现与Web Almanac网络年鉴的SEO章节中分享的数据一致,该章节还指出了AI爬虫的日益增长。

根据该报告,网站现在使用 robots.txt 文件为 AI 机器人设置规则,告诉它们可以抓取什么或不能抓取什么。

GPTBot 是被提及最多的机器人,出现在 2.7% 的研究移动网站上。Common Crawl 机器人通常用于收集语言模型的训练数据,也经常被注意到。

两份报告都强调网站所有者需要适应 AI 爬虫的行为方式。

优化 AI 爬虫的 3 种方法

根据 Vercel 和 Web Almanac 的最新数据,以下是针对 AI 爬虫进行优化的三种方法。

1. 服务器端渲染

AI 爬虫不执行 JavaScript。这意味着任何依赖于客户端渲染的内容都可能是不可见的。

建议的操作:

为关键内容实施服务器端渲染

确保初始 HTML 中存在主要内容、元信息和导航结构

尽可能使用静态站点生成或增量静态重新生成

2. 内容结构和交付

Vercel 的数据显示了 AI 爬虫之间不同的内容类型偏好:

ChatGPT:

优先考虑 HTML 内容 (57.70%)

将 11.50% 的获取次数花费在 JavaScript 文件上

Claude:

非常注重图片 (35.17%)

将 23.84% 的 fetch 专用于 JavaScript 文件

优化建议:

清晰、语义化地构建 HTML 内容

优化图像交付和元数据

为图像包含描述性替代文本

实施适当的标头层次结构

3. 技术考虑

AI 爬虫的高 404 率意味着您需要将以下技术考虑因素放在首位:

维护更新的站点地图

实施适当的重定向链

使用一致的 URL 模式

定期审核 404 错误

最后

对于搜索营销人员来说,信息很明确:AI 聊天机器人是网络爬虫领域的一股新生力量,网站需要相应地调整其 SEO。

尽管 AI 机器人现在可能依赖于缓存或过时的信息,但它们解析来自 Web 的新内容的能力将会提高。

您可以通过服务器端渲染、干净的 URL 结构和更新的站点地图来帮助确保您的内容被抓取和索引。

免责声明:本站不对文章内容负责,仅供读者参考,版权归原作者所有。如有影响到您的合法权益(内容、图片等),请联系本站删除。

相关阅读