历史

1.4 神话的炼成(2)(1/2)

    截止到2005年2月16日,Google已留存、搜集整理了8 058 044 651个网页,13亿张图像,成为搜集网页最完整的搜索引擎。而在7年前,整个网络仅有区区3亿个网页。这符合“资料多多益善”(More data is better data)的莫瑟定律(Mercer’s Law)。

    目前,Google在全球各地拥有6 000多部红帽Linux服务器,Google用这几千台机器构成一个庞大的超级计算机,并很好地完成了一切步骤:搜集信息、整理归类、精确网络信息、处理搜索请求。尽管每天要处理1亿以上、每秒上千次的搜索查询, Google仍然能够在不到1秒的时间内对近百亿网页进行筛选并得出搜索结果。

    以往的搜索引擎,尽管也能搜索到相关信息,但精确性却大打折扣,搜索结果往往很少能符合搜索用户的需要。Google却成功地解决了这些问题:不用空间向量模型(关键词比对),而用精确搜索(完全符合)与网页排名。这颠覆了传统上重视齐全,而不重视搜索结果精确的想法。同时也呼应了Google“快比慢好”以及“信息永远累积递增”的两个信条。

    Google通过其佩奇位阶(网页级别,PageRank)技术,越多网页所链接到的页面,将会获得更好的排名。网页上一个个的超级链接,就像一张张选票,选择出最有价值的网页,体现了Google式的网络民主:越多网页所链接到的网页,其信息越符合用户的需求。“网页排序”技术颠覆了传统搜索引擎依赖分析网页内文字的排名方式,让单一网页的所有者很难操弄网页内的文字与超级链接,影响自己网页的重要性排名。Google的首页简约典雅,但有用的信息几乎都在前几页。实际上,用户通常查看前几页的搜索结果。

    虽然AltaVista具有前所未有的广泛搜索范围和快速的搜索速度,但能够把搜索范围、速度及PageRank技术完美结合起