自谷歌退出中国将服务器搬至香港以后,很多站长都遭遇了谷歌收录骤减,Bansi也同样面临网站收录越来越少的问题,收录量从20W+骤减到3k多,后来经过一番努力,收录总算止住减少并慢慢增加恢复至3W+。
现将一些自己分析到的情况与解决问题的一些方法分享给大家参考。
一、谷歌收录突然骤减的现象
这个事情来的很突然,网站在出现问题前并没有做任何调整,也从来没有作弊行为。所以,首先分析的是网站是否被降权:
1、site指令还有网站首页记录。
2、用网站名进行搜索还排在第一,并且多个关键词还存在排名。
3、站点的sitelink还在(谷歌对于网站的一种奖励,被降权根本不可能会有)。
4、收录虽然减少但对流量的影响不大。
以上现象表明网站并未被降权,很可能是谷歌算法变动或服务器出了问题。没两天,很多业界朋友纷纷反映遇到了这个问题,社区里讨论这个话题的人也越来越多。很多人都认为是谷歌服务器搬至香港而引起的问题,选择守株待兔静待其变。但随着时间的推移,谷歌收录骤减的现象并无消减,越来越多的网站陷入此境。
二、谷歌数据的一些异常现象
经过一段时间的观察与分析,发现谷歌数据的一些异常现象:
1、site指令结合inurl指令查询的收录数竟是正常的,收录数与出问题前的数据都比较吻合,大多数问题站点都应证了这一点。两条指令并操作后本应返回比单独site时结果少,但现在却不少反多:site:example.com inurl:example。
2、最近一年的收录数远远大于目前的收录数。
3、收录数偶尔回跳,偶尔进行site查询时收录又突然跳回几万的数据。
4、国内的服务器日志记录中谷歌蜘蛛(GoogleBot)返回了大量404信息,而国外主机的服务器日志中谷歌蜘蛛抓取正常。附上其中一条日志:
203.208.60.178 [15/Jul/2010:10:14:56 +0800] "-" "GET /robots.txt HTTP/1.1" 404 208 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.
该日志显示GoogleBot来访时没有提交HTTP_HOST 的信息(该HTTP_HOST为定制的信息,并非标准Apache下的Log格式),所以GET前是一个分割线。robots.txt文件实际上是存在的,分析的可能原因是服务器是根据user-agent请求的HTTP_HOST 信息判断用户所请求的是哪个域名下的文件,如果请求信息为空,服务器就不知道该返回什么信息给GoogleBot,故而返回了404信息。举个例子:
bbs.example.com/test.html与example.com/test.html可能就不是同一个文件,如果GoogleBot不告诉服务器是请求的HTTP_HOST 是bbs.example.com还是example.com的话就不知道返回哪个test.html文件。(本站分国内、外主机比较特殊,不一定适用国内站长,但同样欢迎有收录骤减情况的朋友能够提供日志信息一同分析。更多关于日志分析的介绍见《服务器日志分析》)
尽管我们有足够的理由去认为是谷歌搬至香港所引起的问题,尽管我们发现了一些谷歌的一些异常现象,但那些都是外在因素,我们可能忽略了去检查网站自身的问题。
三、如何恢复站点的谷歌收录量
我们知道,网站要被收录就两点:1、蜘蛛抓取顺畅;2、内容质量。想办法让新更新的内容曝光在蜘蛛容易抓取的页面,并且保证内容独一无二。
内容重复可能是病因
经过对网站进行全面的检查,发现网站存在一些内容重复的问题,某些页面相似度达到了40%甚至更高。
这里提醒下各位朋友回头查一查网站自身的一些问题,借助服务器日志进行分析是再好不过了。
接下来继续增加新更新内容在网站收录的曝光度,让蜘蛛来到首页都有内容可抓。然后对一些链接进行了优化,将302链接修改到直接链接到的地址,省去中间URL跳转处理的一环。某些不存在的页面并且蜘蛛还在爬的页面则想办法将死链接去掉,并借助谷歌管理员工具删除该URL地址省去蜘蛛再去费精力去抓取这个不存在的页面。总之原则只有一个:提高蜘蛛爬取效率,不让蜘蛛爬没有价值的页面。更多信息可以参考:《10种提高站点蜘蛛爬行的方法》,同时强烈推荐SEM一家之言的两篇文章《如何规划好网站的URL(1)》、《我也谈一下nofollow 》。将你网站每天的抓取量提高到几万并解决内容质量问题,收录不可能提不高。
最后你最好检查下服务器是否稳定的问题。目前这个问题并无定论也没有一个绝对的解决方案,欢迎大家交换意见,将你发现的现象与有价值的数据分享出来一起讨论。本文的最后要特别感谢下Hafid兄,提供了很多有价值的信息跟建议。