微信号:infoqchina

介绍:有内容的技术社区媒体

【热点】Google索引服务已覆盖JS和CSS内容,开发者应注意避免一些陷阱

2014-06-18 16:30 InfoQ

Google表示其网络爬虫Googlebot的执行和索引范围,现在将扩大到覆盖JavaScript中的部分内容。如果不将一些基本规则纳入考虑的话,这一改变将对搜索结果产生一些负面影响。


Google Webmaster Central博客上的一篇文章里,开发者ErikHendriksMichael Xu,以及Webmaster趋势分析师Kazushi Nagayama忠告Web开发者:在GoogleWeb页面进行索引的过程中,对JavaScript内容的处理方式上出现的一些变化,将对搜索结果造成负面影响。该文章还给出了一些用来避免这种情况发生的建议。


三位作者表示,当启用JavaScript的时候,“在过去几个月里,Google的索引系统对大量Web页面的渲染处理的做法,更贴近普通用户的浏览器”。这不同于Google传统上对页面进行索引的方式,也即是“只查看我们从HTTP响应体中的未经加工的文本内容,而并没有真正对其进行解释,从而获得普通浏览器运行JavaScript后看到的结果。”


他们写道,有些时候JavaScript渲染并不能得到预期的结果,“这可能会对网站的搜索结果带来负面影响”。为了避免这种情况的发生,对于潜在的问题以及围绕这些问题的可能的方案,他们给出了以下建议:

  • 如果站点禁止访问JavaScriptCSS文件,那么Google索引系统将无法按照普通用户的方式来查看它。推荐的做法是在robots.txt中开放对JavaScriptCSS文件的访问。这与移动站点的关系尤为密切,因为JavaScriptCSS文件将允许Google算法了解该页面是针对移动端优化的。

  • Web服务器还应该能够处理针对资源的爬虫请求量,否则渲染结果或许会受到影响。

  • 过于复杂或晦涩的JavaScript代码,同样会妨碍页面渲染的完整度与准确性。

  • 有时候,JavaScript被用来从页面移除而不是添加内容,这会使得Google索引引擎无法访问被移除的内容。


最后,HendriksXuNagayama建议,让Web页面优雅降级将永远是个良好的策略。这将使目前尚不支持执行JavaScript的搜索引擎能够访问其内容。


Google正在开发一件工具——预计在近期发布——用来帮助网管们更好地理解Googlebot如何渲染JavaScriptCSS内容。

 
InfoQ 更多文章 Facebook如何实现PB级别数据库自动化备份 学术派Google软件工程师Matt Welsh谈移动开发趋势 Spotify为什么要使用一些“无聊”的技术? 妹纸们放假了,汉纸们做啥? 大多数重构可以避免
猜您喜欢 大数据里笑看那些风花雪月的事 API 调用次数限制实现 详谈Redis配置文件和持久化RDB、AOF 超人类的Google黑科技 安装包立减1M--微信Android资源混淆打包工具