网页未被Google编入索引常见原因

Google Search Console 的“页面索引报告”是帮助网站管理员了解网站在 Google 搜索结果中表现的重要工具。而许多网站管理员会发现，有些页面明明已经创建，却始终无法被 Google 索引，或者多次使用“验证工具”都无法解决该问题，这篇指南整理了中文搜索社区常见“网页未被编入索引”的原因，帮助网站管理员进一步了解产生错误的原因。

Why pages aren't index

网站管理者可以通过“Google Search Console – 索引 – 网页索引”查看报告，里面则会列出每一条未被 Google 编入索引的 URLs，该板块列出了5个细分维度，分别是：

原因 – 某个网址无法编入索引的原因。
来源 – 表格中的来源值会显示问题的来源是 Google 还是网站。
验证 – 站长是否已请求验证此问题的修正效果。
趋势 – 影响网址的增幅情况。
页面数 – 影响网址的具体数量

这里需要重点讲解第2和3点，有时候显示的问题来源是 Google，不一定代表就是你无法解决的，例如“已抓取 – 当前未编入索引”和“已发现 – 目前未编入索引”也是站长们可以优化，这部分在下面的内容会介绍，而第三点，许多站长们都会直接点击“验证”按钮，但过段时间会发现，未索引的页面数并没减少（变化），这个功能需要谨慎使用，不要滥用导致 Google 不信任你的“调整”。接下来是我整理的 GSC 常见未被编入索引的原因：

已发现 – 目前未编入索引（Discovered – currently not indexed）

Google 已发现相应网页，但尚未抓取该网页。这通常意味着，Google 想要抓取该网址，但这样预计会导致网站过载；因此，Google 重新安排了抓取时间。这就是该网页的上次抓取日期在报告中为空的原因。——Google 官方解释

这表示，

Google 发现了该页面；
但该页面可能存在一些问题，现已经在队列中，Google决定重新安排时间抓取；

已抓取 – 当前未编入索引（Crawled – currently not indexed）

Google 已抓取相应网页，但尚未将其编入索引。日后，该网页可能会被编入索引，也可能不会被编入索引；无论如何，您都无需重新提交该网址以供抓取。——Google 官方解释

这表示，

Google 可以访问该页面;
Google 花了一些时间来抓取页面;
爬取后，Google 决定不将其纳入索引;

导致上述的两种原因可能有，

抓取优先级
服务器性能
网站架构设置
网页内容价值

针对上述两种情况，网站管理者可以尝试，

内容质量问题——确保每个页面都包含唯一的内容。常见的低质量的页面有以下类型：过时的内容（如旧新闻文章），由网站内的搜索框生成的页面，通过应用过滤器生成的页面，重复内容，自动生成的内容，用户生成内容。最好通过Robots阻止此类页面。
内部链接问题——Googlebot 会跟踪您网站上的内部链接以发现其他页面并了解它们之间的联系。因此，请确保您最重要的页面经常在内部链接。
抓取预算——这种情况会出现在大型网站中，当页面数量超过百万，网站存在技术问题，容易造成抓取预算不足或浪费，常见抓取预算的问题有：低质量的内容，内部链接结构差，实施重定向的错误，服务器超载等。
网站内部——确保提交给Google的XML站点地图中只有规范版本。
抓取优先级——给 Google 一些时间处理，因为有些页面可能只是在等待抓取。

重复网页 – Google 选择的规范网页与用户指定的不同（Duplicate, Google chose different canonical than user）

相应网页被标记为一组网页的规范网页，但 Google 认为另一网址更适合作为规范网页。Google 已将其认为是规范网页的那个网页（而非该网页）编入索引。——Google 官方解释

这表示，

Google 在你的网站上发现了两个或多个相同或非常相似的网页；
Google 抓取时发现了该网页的Canonical标签；
Google 认为另一个网页更适合规范网页（系统评估）；
Google 忽视了该网页的规范标签，并决定不索引它；

导致上述的原因可能有，

网站出现对重复内容的指向信号（强烈）

重复网页 – 用户未选定规范网页（Duplicate without user-selected canonical）

相应网页与其他网页重复，但并未指明首选的规范网页。Google 已选择另一网页作为该网页的规范网页，因此该网页不会在 Google 搜索中显示。——Google 官方解释

这表示，

Google 在你的网站上发现了两个或多个相同或非常相似的网页；
Google 抓取时在页面上未发现canonical标签；
Google 认为另一个网页更适合规范网页（系统评估）；
Google 决定不索引该页面；

导致上述的原因可能有，

多个重复/相似内容网页没有实施规范化

针对上述两种情况，网站管理者可以尝试，

确保rel=”canonical”链接仅在核心页面上实施；
增强网站核心页面内部信号（站点地图/内部链接）；

网页会自动重定向（Page with redirect）

这是一个会重定向到另一网页的非规范网址。所以，该网址不会被编入索引。——Google 官方解释

这表示，

Google抓取该网页时已被重定向至新页面；
Google决定不索引该页面；

导致上述的原因可能有，

网站的链接结构调整
页面调整（例如产品下架，旧内容移除）

针对上述情况，网站管理者可以尝试，

检查这部分URL是否是正确/错误设置为重定向；

是 – 保留它；
不是 – 分析为何这部分页面会被设置为重定向，重定向逻辑制定错误？CMS内部错误？若查不到详细原因，可在文章中留下评论或在中文搜索社区进行提问。

已编入索引，尽管遭到 robots.txt 屏蔽（Indexed, though blocked by robots.txt）

该网页虽尽管遭到网站的 robots.txt 文件屏蔽，但已被编入索引。Google 始终都会遵从 robots.txt 中的规则，但如果有其他网页链接到该网页，这并不一定能够阻止该网页被编入索引。Google 不会请求和抓取该网页，但我们仍然可以使用与被屏蔽的网页关联的网页中的信息，将该网页编入索引。由于存在 robots.txt 规则，Google 搜索结果中显示的任何与该网页相关的摘要可能会非常有限。——Google 官方解释

这表示，

Google从其他网页跟随并访问了该网页；
Google评估该网页满足索引标准，决定索引该网页；
该网页在SERPs中显示非常有限；

导致上述的原因可能有，

内部/外部有存在指向该链接的信号

针对上述的情况，网站管理者可以尝试，

评估这部分 URL 是否真的应该被编入索引；

页面需要被索引 – 删除阻止抓取 URL 的 Disallow 指令；
页面不需要索引 – 不应使用 Robots.txt 来控制索引，请改用noindex 标记。

网址已被 robots.txt 屏蔽（Blocked by robots.txt）

此网页被网站的 robots.txt 文件屏蔽了。——Google 官方解释

这表示，

Google遵循了该网站的robots设置；
Google无法正常访问该网页；

导致上述的原因可能有，

robots.txt 中的 Disallow 指令阻止了该网址

针对上述的情况，网站管理者可以尝试，

检查 robots 的 disallow 指令是有意还是错误地添加

有意的 – 保留它；
无意的 – 删除阻止抓取给定页面的 Disallow 指令。

Blocked due to access forbidden (403)（由于禁止访问 (403) 而被屏蔽）

HTTP 403 表示用户代理提供凭据，但未被授予访问权限。不过，Googlebot 从未提供凭据，因此您的服务器错误地返回此错误。该网页不会被编入索引。——Google 官方解释

这表示，

Google尝试抓取访问该网页；
由于网站服务器设置，拒绝了 Google 的访问请求；

导致上述的原因可能有，

网站服务器错误设置

针对上述的情况，网站管理者可以尝试，

联系主机服务商进行协助处理；
检查.htaccess 文件；

回到前面所说的，只有经过上述的调整后，网站管理者才可以在 GSC 中点击“验证”按钮，而不是滥用该功能。以上是常见未被编入索引的情况，若没有列出的，可以参考 Google 官方文档

“网页索引编制”报告

Google Search Console “为什么页面没有被索引” 常见原因

已发现 – 目前未编入索引（Discovered – currently not indexed）

已抓取 – 当前未编入索引（Crawled – currently not indexed）

重复网页 – Google 选择的规范网页与用户指定的不同（Duplicate, Google chose different canonical than user）

重复网页 – 用户未选定规范网页（Duplicate without user-selected canonical）

网页会自动重定向（Page with redirect）

已编入索引，尽管遭到 robots.txt 屏蔽（Indexed, though blocked by robots.txt）

网址已被 robots.txt 屏蔽（Blocked by robots.txt）

Blocked due to access forbidden (403)（由于禁止访问 (403) 而被屏蔽）

发表评论取消回复

已发现 – 目前未编入索引（Discovered – currently not indexed）

已抓取 – 当前未编入索引（Crawled – currently not indexed）

重复网页 – Google 选择的规范网页与用户指定的不同（Duplicate, Google chose different canonical than user）

重复网页 – 用户未选定规范网页（Duplicate without user-selected canonical）

网页会自动重定向（Page with redirect）

已编入索引，尽管遭到 robots.txt 屏蔽（Indexed, though blocked by robots.txt）

网址已被 robots.txt 屏蔽（Blocked by robots.txt）

Blocked due to access forbidden (403)（ 由于禁止访问 (403) 而被屏蔽）

发表评论 取消回复

Blocked due to access forbidden (403)（由于禁止访问 (403) 而被屏蔽）

发表评论取消回复