1.False positives (误报)

优先级:低

我们的第一步是始终对“Crawled — currently not indexed”部分中标记的URL进行几次抽查,以建立索引。找到被报告为排除的URL,但最终却被归入Google的索引中并不少见。

例如,以下URL在我们的网站的报告中被标记:https://wady.pingbook.top/%E5%9C%A8%E4%B8%8B%E9%93%B2%E5%B1%8E%E5%AE%98%EF%BC%9A%E5%96%B5%E7%8E%8B%E5%9C%A8%E4%B8%8A/

但是,使用站点搜索运算符时,我们可以看到该URL实际上包含在Google的索引中。您可以通过在URL之前附加文本“ site:”来实现。

如果您看到以这种状态报告的URL,建议从使用站点搜索运算符确定URL是否已建立索引开始。有时,这些结果都是误报。

解决方案:什么都不做!现在状态已经很好了。

2. RSS feed URL

优先级:低

这是我们看到的最常见的例子之一。如果您的网站使用RSS提要,则可能会找到出现在Google的““Crawled — currently not indexed”报告中的URL。很多时候,这些URL的末尾会附加“ / feed /”字符串。它们可以这样显示在报告中:

Google找到了从首页链接的这些RSS feed URL。通常会将它们链接到使用“ rel = alternate”元素。WordPress插件(例如Yoast)可以自动生成这些URL。

解决方案:什么都不做!现在状态已经很好了。

谷歌很可能有选择地选择不对这些URL编制索引。如果导航到RSS feed URL,则会看到一个XML文档,如下所示:

尽管此XML文档对于RSS feed很有用,但Google无需将其包含在索引中。由于内容并非针对用户,因此这将提供非常差的体验。所以你可以在robots.txt中禁止谷歌爬取feed页面。

3.分页网址

优先级:低

“Crawled — currently not indexed”排除的另一个极为常见的原因是分页。我们经常会在此报告中看到大量的分页URL。在这里,我们可以看到在一个非常大型的电子商务网站上出现了一些分页的URL:

解决方案:什么都不做!现在状态已经很好了。

Google将需要通过分页URL进行爬网以获得网站的完整爬网。这是其获取内容的途径,例如更深的类别页面或产品描述页面。但是,尽管Google使用分页作为访问内容的途径,但不一定需要索引分页的URL本身。

如果有的话,请确保您不做任何事情来影响单个分页的抓取。确保所有分页均包含自引用规范标签,并且没有任何“ nofollow”标签。这种分页是Google抓取您网站上其他关键页面的一种途径,因此您肯定希望Google继续抓取它。

4.过期产品

优先级:中

在对报告中列出的各个页面进行抽查时,我们在客户中看到的一个常见问题是URL包含的文本标记为“过期”或“缺货”产品。尤其是在电子商务网站上,Google似乎检查以查看特定产品的可用性。如果确定产品不可用,它将继续从索引中排除该产品。

从用户体验的角度来看,这是有道理的,因为Google可能不想在用户无法购买的索引中包含内容。

但是,如果您的站点上实际提供了这些产品,则可能会导致许多SEO机会错失。通过从索引中排除页面,您的内容根本没有机会排名。

此外,Google不仅会检查页面上的可见内容。在某些情况下,我们在可见内容中未发现该产品不可用的迹象。但是,在检查结构化数据时,我们可以看到“ availability”属性设置为“ OutOfStock”。

Google似乎从可见内容和结构化数据中获取了有关特定产品可用性的线索。因此,同时检查内容和架构很重要。

解决方案:检查库存可用性。

如果在此报告中列出了实际可用的产品,则需要检查所有可能被错误地列为不可用的产品。对您的网站进行爬网,并使用自定义提取工具(例如Screaming Frog’s)  从产品页面中抓取数据。

例如,如果您想大规模查看架构设置为“ OutOfStock”的所有URL,则可以将“ Regex”设置为:“ availability”:

这是:  “ class =” redactor-autoparser-object“> http://schema.org/OutOfStock”  应该会自动抓取具有此属性的所有URL:

您可以使用Excel或商业智能工具导出此列表并与库存数据进行交叉引用。这应该可以使您迅速找到站点上的结构化数据与实际可用产品之间的差异。可以重复相同的过程以查找可见内容表明产品已过期的实例。

5. 301重定向

优先级:中

我们看到的一个有趣的例子就是重定向页面的目标URL。通常,我们会看到Google正在搜寻目标网址,但未将其包括在索引中。但是,在查看SERP时,我们发现Google正在为重定向URL编制索引。由于重定向URL是被索引的URL,因此目标URL被扔到“Crawled — currently not indexed”报告中。

这里的问题是Google可能尚未识别重定向。结果,它将目标URL视为“重复”,因为它仍在索引重定向URL。

解决方案:创建一个临时sitemap.xml。

如果这是在大量网址上发生的,则值得采取步骤向Google发送更强的合并信号。此问题可能表明Google无法及时识别您的重定向,从而导致内容信息不统一。

一种选择是设置“临时站点地图”。您可以创建此站点地图来加快对这些重定向URL的爬网。这是John Mueller先前推荐的策略。

要创建重定向,您将需要对过去创建的重定向进行反向工程:

  1. 从“Crawled — currently not indexed”报告中导出所有URL。
  2. 在Excel中将它们与以前设置的重定向进行匹配。
  3. 在“Crawled — currently not indexed”存储中找到所有具有目标URL的重定向。
  4. 使用Screaming Frog创建这些URL的静态sitemap.xml。
  5. 上载站点地图,并在Search Console中监视“Crawled — currently not indexed”报告。

Google的目标是使Google可以比其他方式更频繁地抓取临时sitemap.xml中的URL。这将导致更快地合并这些重定向。

6.内容缺乏

优先级:中

有时,我们会发现此报告中包含的URL内容很少。这些页面可能具有正确设置的所有技术元素,甚至可能已在内部正确链接,但是,当Google进入这些URL时,页面上的实际内容很少。下面是一个产品类别页面的示例,其中很少有唯一文本:

该产品列表页被标记为“Crawled — currently not indexed”。这可能是由于页面上的内容太少。

该页面可能太少,以至于Google认为它没有用,或者内容太少,以至于Google认为它与另一个页面重复。结果是Google从索引中删除了内容。

这是另一个示例:Google能够在Go Fish Digital网站(如上所示)上搜寻推荐组件页面。尽管此内容是我们网站的独有内容,但Google可能不认为单句推荐书应该单独作为可索引页面。

由于缺乏质量,谷歌再次做出行政决定,将页面从索引中排除。

解决方案:添加更多内容或调整索引信号。

下一步将取决于对这些页面建立索引的重要性。

如果您认为该页面一定包含在索引中,请考虑添加其他内容。这将帮助Google看到该页面,从而为用户提供更好的体验。

如果不需要为要查找的内容建立索引,那么更大的问题就变成了是否应该采取其他步骤来强烈暗示不应对该内容进行索引。“Crawled — currently not indexed”报告表明该内容符合出现在Google索引中的条件,但Google选择不包含该内容。

可能还有其他一些低质量的页面,而Google并未对其应用此逻辑。您可以执行常规的“site:”搜索以找到符合与上述示例相同的条件的索引内容。如果您发现索引中包含大量此类页面,则可能需要考虑采取更强有力的措施来确保将这些页面从索引中删除,例如“ noindex”标记,404错误,或者将其从您的索引中删除内部链接结构完全。

7.重复的内容

优先级:高

当评估大量客户的排除时,这是我们看到的最高优先级。如果Google认为您的内容重复,它可能会抓取内容,但选择不将其包含在索引中。这是Google避免SERP重复的一种方式。通过从索引中删除重复的内容,Google可以确保用户拥有更多种类的唯一页面来与之交互。有时,报告会将这些URL标记为“重复”状态(“重复,Google选择了与用户不同的规范”)。然而,这并非总是如此。

这是一个高度优先的问题,尤其是在许多电子商务网站上。诸如产品描述页面之类的关键页面通常包含与整个Web上许多其他结果相同或相似的产品描述。如果Google在内部或外部都认为它们与其他页面过于相似,则可能会将它们全部排除在索引之外。

解决方案:将唯一的元素添加到重复的内容。

如果您认为这种情况适用于您的网站,请按照以下方法进行测试:

  1. 摘录潜在的重复文本,并将其粘贴到Google中。
  2. 在SERP URL中,将以下字符串追加到末尾:“&num = 100”。这将显示前100个结果。
  3. 使用浏览器的“查找”功能查看您的结果是否出现在前100个结果中。如果没有,您的结果可能会从索引中过滤掉。
  4. 返回SERP URL,并将以下字符串追加到末尾:“&filter = 0”。这应该向您显示Google的未过滤结果(感谢Patrick Stox的提示)。
  5. 使用“查找”功能搜索您的URL。如果您现在看到页面,则表明您的内容已从索引中过滤掉。
  6. 对您可能在“Crawled — currently not indexed”报告中看到的,可能包含重复内容或内容非常相似的几个URL重复此过程。

如果您一直看到URL从索引中过滤掉,则需要采取措施使您的内容更具唯一性。

虽然没有一个万能的标准可以实现这一目标,但这里有一些选择:

  1. 重写内容,使其在高优先级页面上更加独特。
  2. 使用动态属性将独特的内容自动注入到页面上。
  3. 删除大量不必要的样板内容。模板文本多于唯一文本的页面可能会被重复读取。
  4. 如果您的网站依赖于用户生成的内容,请告知贡献者所有提供的内容都应该是唯一的。这可能有助于防止提供者在多个页面或域中使用相同内容的情况。

8.面向私密的内容

优先级:高

在某些情况下,Google的抓取工具可以访问他们不应该访问的内容。如果Google找到开发人员环境,则可以在报告中包含这些URL。我们甚至看到了Google抓取为JIRA票证设置的特定客户子域的示例。这引起了网站的爆炸性爬网,该站点集中于不应考虑用于索引的URL。

这里的问题是Google对网站的抓取没有重点,它花时间抓取(并可能为索引)不适合搜索者的URL。这可能会对网站的抓取预算产生巨大影响。

解决方案:调整您的爬网和索引编制计划。

该解决方案将完全取决于情况和Google能够访问的内容。通常,您要做的第一件事是确定Google如何发现这些面向私人的URL,尤其是通过内部链接结构来发现时。

从主要子域的主页开始爬网,并查看Screaming Frog是否可以通过标准爬网访问任何不需要的子域。如果是这样,可以肯定地说Googlebot可能正在寻找完全相同的途径。您需要删除与此内容的任何内部链接,以切断Google的访问权限。

下一步是检查应排除的URL的索引状态。Google是否已将所有这些都充分排除在索引之外,还是有些人被索引夹住了?如果Google没有为大量此类内容编制索引,则您可以考虑调整robots.txt文件以立即阻止抓取。如果没有,则“ noindex”标签,规范和受密码保护的页面都在桌子上。

案例研究:重复的用户生成内容

对于一个实际示例,这是我们在客户端站点上诊断问题的实例。该客户端类似于电子商务站点,因为它们的许多内容由产品描述页面组成。但是,这些产品描述页面都是用户生成的内容。

本质上,允许第三方在此站点上创建列表。但是,第三方经常在其页面上添加非常简短的描述,从而导致内容稀疏。经常发生的问题是这些用户生成的产品描述页面被“已抓取-当前未建立索引”报告所捕获。这导致错过SEO机会,因为能够生成自然流量的页面被完全排除在索引之外。

通过上述过程,我们发现客户的产品描述页面在独特内容方面非常薄。被排除的页面似乎只有一段或更少的唯一文本。此外,页面上的大部分内容是所有这些页面类型中都存在的模板化文本。由于页面上唯一的内容很少,因此模板化的内容可能导致Google将这些页面视为重复项。结果是Google以“已抓取-当前未建立索引”状态从索引中排除了这些页面。

为了解决这些问题,我们与客户一起确定了每个产品描述页面上不需要存在哪些模板化内容。我们能够从数千个URL中删除不必要的模板内容。随着Google开始认为每个页面更加独特,这导致“已爬网-当前未建立索引”页面的显着减少。

结论

希望这可以帮助搜索营销人员更好地理解“索引覆盖率”报告中神秘的“Crawled — currently not indexed”状态。当然,Google可能会选择许多其他原因来对此类URL进行分类,但这是迄今为止我们与客户见过的最常见的实例。

总体而言,“索引覆盖率”报告是Search Console中功能最强大的工具之一。我会极力鼓励搜索营销人员熟悉数据和报告,因为我们通常会发现次优的抓取和索引行为,尤其是在大型网站上。如果您在“已抓取-当前未建立索引”报告中看到了其他网址示例,请在评论中告诉我!