一直以来Google的搜索爬虫就具有阅读JavaScript代码的功能,但是多年以来我们一直都不清楚Google的爬虫是否真正理解了其正在抓取的东西或者说它仅仅只是在易于理解的数据结构中对各种链接进行呆板的检索。本周五,一位Google的发言人向《福布斯》确认Google所作的远远超过对js代码的简单分析。这位发言人表示:“Google能够分析并理解某些JavaScript”

        Google的表述让我们意识到其爬虫所作的工作也许不仅仅只是获得对页面的相关链接,还能够像人一样与各类程序发生互动——发现Bing这类搜索引擎所不能发现的网络世界。而这意味着,Google重新定义了搜索引擎。在Google的搜索结果里面只有很少的js代码,而且Google也将这种js代码的解释功能做了很多保留。比如在Google站点搜索(Google’s Site Search)的文档显示其不能够索引带有js代码的内容。一本关于索引的入门教材这样写道:它(Google爬虫)“不能够处理带有富媒体的内容或者是动态网页”。仔细检查服务器日志中的记录我们便可以发现Google现在索引那些并不是直接包含在js代码里面的链接,Google的爬虫只有确定自己能够运行部分代码的时候才能明白整段代码到底是什么意思。

        Mark Drummond,一家独立搜索引擎公司Wowd的首席执行官(我们在今年之前的杂志中采访过他)在一封邮件中告诉我们理解js代码“是一个非常深刻、难度极大和一场经典的计算科学难题。”他解释道Google的努力在于它能够发现js代码在网页中是否存在停止运行的情况。他表示“停止运行的问题是无法判定的”,他说迄今为止还没有已知的算法能够在任何程序的任何时间点告诉我们该程序是否陷入了死循环,而且数学上已经证明了这一点。Drummond自己的公司通过人工的方式检索其索引并标明是否有可能简化这个复杂的问题,同时判断一个网络程序是否向另外的程序发起了数据请求。也许,这正是Google现在在做的事情。

        另一位同Google接近的搜索引擎人士也认同Drummond关于理解js代码复杂性的看法。他认为用一个程序去分析另一个程序是很困难的事情,执行js代码几乎是现阶段能够做到的极限了。

        而Google在六月发布的改进版搜索算法(即Caffeine)似乎开始能够理解部分js代码了。如果这是真的,那么Google的工程师已经教会了其爬虫如何执行部分js代码。这真是一大突破!

现在看来,香港网站的权重已经在提高了,很多没有seo介入的关键词,hk本地的和繁体的网站的权重都增加了:

看一些例子: 银行

还有其他词语,比如农业,政府等。

按照google的带区域性的搜索结果,在大陆搜索出来的结果应该以内地的为主,但是现在却很多是香港为主了

seo们可以留意下

Google对于网络搜索的排名有着极为复杂的算法,今天他们宣布,网站的速度也将成为搜索排名的新因素。
Google认为,网站和网页加载迅速,可以让用户节省下时间并且观感更好,这也符合Google的经营理念,不过需要注意的是,速度并不是最主要的排名 因素,“相关性”在排名中的主导作用依然不会改变,速度对搜索结果的影响程度应该不到1%。<

sitespeed

goog-speed-wmt

从google快照获取seo信息-通过google快照的文本模式诊断google机器人的爬行
在纯文字谷歌的快照版本提供了谷歌是否是正确的获取您网页的文字内容的线索。您可以通过点击“纯文字版本”来进入这个快照(见下面的截图)。如果在正常浏览,您可以看到您的文本,但如果您无法在文本模式中看到,则表示Googlebot无法看到您的网页上的文本。这可能是JavaScript的驱动或用Adobe Flash来显示的,效果都一样,总之,Googlebot不能正确地索引您的网站的文本内容。
事实上,纯文字谷歌的快照版本,提供的结果是非常相似的结果lynx text浏览器。这是有道理的,因为谷歌也承认,它Googlebot和该浏览器的行为很相似。

seo-google
建议:
1。如果您不能确定您的网站上的一些超级链接是不是可以抓去,请查看谷歌的快照的纯文字版本,以检查您是否可以看到这些链接,它们是否可以点击。

2。在纯文字版本可用于诊断一些网站的隐藏文字,JavaScript的伪装和基于flash的内容。如果被Googlebot看到的内容和正常的浏览器的显示有很大不同,那么您需要提高您的内容,以便Googlebot查看到的内容和访问者看到的内容一致。

    有些网站不喜欢google和其他搜索来获得它网站内容的快照,那么可以用下面这段代码来阻止:
    <meta name=”robots” content=”noarchive”>
     因此,当这些用户在搜索引擎上输入的你的网站排名不错的关键词的时候,他们会按一下,希望能更好地阅读和理解您的内容/服务。有一些不可避免的情况发生时,比如服务器关闭或者你的网页加载太慢的时候,用户的最常见的反应是按浏览器的后退按钮并且查看你的网站在google搜索结果中的网页快照。
如果你用了上面的元标记,google就不会显示你的网页快照,其结果是不好的用户体验,因为潜在的读者或者客户没法查看和阅读你网站的服务。如果他们能够这样做,他们很可能在将来是你忠实的客户。
       这就是为什么google快照经常可以作为一个你网站无法正确加载的时候的备份。在这种情况下,用户可以用快照记录一些信息而且在你网站可以访问的时候来购买商品,调查或者其他他们需要的你可以提供的服务。

    建议:
    1.如果你的网站包含了一些你不希望被google快照抓去的机密信息的时候,你发布网站的时候就要多多考虑下了。如果网站有一些风险或者有一些用户没必要阅读的内容,不希望被google快照索引的时候,你可以通过robot.txt或者no index标签来防止google索引这些url。更加稳妥的做法,是你用google的url移除工具来移除这些url,当然是在它已经被block,404或者加入no index标签之后。
       2.为了更好的用户体验,强烈建议在你网页站重要的页面保留快照(特别是那些你需要比较好的排名或者排名已经比较好的网页)。
       3.对seo来说,内容是相当重要的,快照页面给用户提供了互动的另外一条途径。他们可以在你的服务器或者网站没法打开的时候来阅读你的内容。在那种情况下,他们可以记录你的网址,并且在将来再次来访问你的网站,甚至加上链接-这对你的seo是有帮助的,

http://www.seochat.com/c/a/Google-Optimization-Help/Getting-SEO-Information-from-Googles-Cache/1/