在过去五年中,日志文件越来越受到技术 SEO 的认可,这是有充分理由的。它们是了解搜索引擎已抓取的 URL 的最值得信赖的信息来源,这可能是帮助诊断技术 SEO 问题的关键信息。Google 本身也意识到了它们的重要性,在 Google Search Console 中发布了新功能,并且可以轻松查看以前只能通过分析日志才能获得的数据样本。
此外,Google Search Advocate John Mueller 曾公开表示日志文件保存了多少好的信息。围绕日志文件中的数据大肆宣传,您可能希望更好地了解日志、如何分析它们以及您正在处理的网站是否会从中受益。本文将回答所有这些以及更多内容。以下是我们将要讨论的内容:
什么是服务器日志文件
日志文件如何使 SEO 受益
如何访问您的日志文件
如何分析您的日志文件
什么是服务器日志文件?
服务器日志文件是由服务器创建和更新的文件,用于记录其已执行的活动。一个流行的服务器日志文件是一个访问日志文件,它保存了对服务器的 HTTP 请求历史记录(用户和机器人)。当非开发人员提到一个日志文件时,他们通常会提到访问日志。然而,开发人员发现自己花费更多时间查看错误日志,这些日志报告服务器遇到的问题。
以上很重要:如果您向开发人员索取日志,他们首先会问的是,“哪些?”因此,请始终针对日志文件请求进行具体说明。如果您希望日志分析爬取,请索取访问日志。访问日志文件包含有关向服务器发出的每个请求的大量信息,例如:
IP 地址
用户代理
网址路径
时间戳(当机器人/浏览器发出请求时)
请求类型(GET 或 POST)
HTTP 状态码
访问日志中包含的服务器因服务器类型而异,有时开发人员已将服务器配置为存储在日志文件中。日志文件的常见格式包括:
Apache 格式——这由 Nginx 和 Apache 服务器使用。
W3C 格式 – 这是由 Microsoft IIS 服务器使用的。
ELB 格式 – 这由 Amazon Elastic Load Balancing 使用。
自定义格式——许多服务器支持输出自定义日志格式。
存在其他形式,但这些是您将遇到的主要形式。
日志文件如何使 SEO 受益?
现在我们已经对日志文件有了基本的了解,让我们看看它们如何使 SEO 受益。
以下是一些关键方法:
抓取监控——您可以查看搜索引擎抓取的 URL,并使用它来发现抓取工具陷阱,注意抓取预算浪费,或者更好地了解获取内容更改的速度。
状态代码报告——这对于优先修复错误特别有用。无需知道您有 404.您可以准确地看到用户/搜索引擎访问 404 URL 的次数。
趋势分析——通过监控对 URL、页面类型/站点部分或整个站点的爬取,您可以发现变化并调查潜在原因。
孤立页面发现——您可以交叉分析来自日志文件的数据,并通过您自己运行的站点爬网来发现孤立页面。
所有站点都将在一定程度上受益于日志文件分析,但收益量因站点大小而异。这是因为日志文件主要通过帮助您更好地管理爬网来使站点受益。谷歌本身表示管理抓取预算是更大规模或经常变化的网站将从中受益。
日志文件分析也是如此。例如,较小的网站可能会使用 Google Search Console 中提供的“抓取统计”数据并获得上述所有好处,而无需访问日志文件。Google 不会向您提供所有抓取的网址(如日志文件),并且趋势分析仅限于三个月的数据。但是,不经常更改的较小站点也需要较少的持续技术 SEO。让现场审核员发现和诊断问题可能就足够了。
例如,来自站点爬虫、XML 站点地图、Google Analytics 和 Google Search Console 的交叉分析可能会发现所有孤立页面。您还可以使用站点审核员从内部链接中发现错误状态代码。我指出这一点有几个关键原因:
获取访问日志文件并不容易。对于不经常更改的小型网站,日志文件的好处并不多,这意味着 SEO 的重点可能会转移到其他地方。
如何访问您的日志文件?
在大多数情况下,要分析日志文件,您首先必须向开发人员请求访问日志文件。然后,开发人员可能会遇到一些问题,他们会引起您的注意。这些包括:
部分数据——日志文件可以包含分散在多个服务器上的部分数据。这通常发生在开发人员使用各种服务器时,例如源服务器、负载均衡器和 CDN。获得所有日志的准确图片可能意味着编译来自所有服务器的访问日志。
文件大小——高流量站点的访问日志文件最终可能达到 TB,如果不是 PB 的话,这使得它们难以传输。
隐私/合规——日志文件包括属于个人身份信息 (PII) 的用户 IP 地址。用户信息可能需要先删除,然后才能与您共享。
存储历史——由于文件大小,开发人员可能已将访问日志配置为仅存储几天,这使得它们对于发现趋势和问题没有用处。
这些问题会让人质疑存储、合并、过滤和传输日志文件是否值得开发人员的努力,特别是如果开发人员已经有很长的优先级列表(通常是这种情况)。开发人员可能会将责任放在 SEO 上来解释或建立一个案例,说明为什么开发人员应该在这方面投入时间,您需要在其他 SEO 重点中优先考虑这一点。这些问题正是日志文件分析不经常发生的原因。
您从开发人员那里收到的日志文件也经常被流行的日志文件分析工具以不支持的方式格式化,使得分析更加困难。值得庆幸的是,有一些软件解决方案可以简化这个过程。我最喜欢的是 Logflare,它可以将日志文件存储在您拥有的 BigQuery 数据库中。
如何分析您的日志文件?
现在是时候开始分析您的日志了。我将具体向您展示如何在 Logflare 的上下文中执行此操作;但是,有关如何使用日志数据的提示适用于任何日志。
1. 首先设置 Logflare(可选)
2. 验证 Googlebot
3. 从日志文件中提取数据
4. 添加到 Google 表格
5. 添加Ahrefs数据
6. 检查状态码
7. 检测抓取预算浪费
8. 监控重要的 URL
9. 查找孤立的URL
10. 监控按目录爬取
11. 查看 Cloudflare 缓存比率
12. 检查哪些机器人最常抓取您的网站
写在最后
您现在应该对在审核站点时可以对日志文件进行的分析有了一个很好的了解。