书城经济谷歌不听话:互联网背后的大国角力
8158000000039

第39章 要练神功

如果撇开感情因素,单纯从技术和用户的角度出发,谷歌和百度的搜索引擎哪个更好,这个问题同样仁者见仁、智者见智。

百度一直宣称他比谷歌更懂中文,很多用户也发现,在搜索某些中文内容的时候,百度的表现的确比谷歌更胜一筹。

2008年,美国一个叫作Globalbydesign的专业博客就这个问题做了一个试验。他们选取了三个关键词:“许霆”、“次贷危机”和“看羹吃饭”,分别在谷歌的Google。com、Google。cn和百度网站上搜索。他们选取的这三个关键词十分有代表性。“许霆”因银行自动取款机出错而恶意取款一事成为当时的舆论焦点,但在中国以外没有受到多大的关注;“次贷危机”是一个由英语翻译过来的词,可以说是中国人自己造出来的新词;而“看羹吃饭”是浙江的一句方言(大致是有什么吃什么,不强求的意思),其他地区的中国人估计都不会用这个词。

搜索结果出来一比较,“许霆”在百度上有200万个结果,在Google。com上有144万个结果,在Google。cn上有133万个结果。但是直接比较搜索结果的总数是没有意义的,因为用户不会一条一条全部看完。在绝大多数情况下,用户一般只关注前3页的内容,即在前30条搜索结果中找自己所要的信息,第10页之后,也就是100条之后的内容基本上没有人会去看。

Globalbydesign分别比较了这三个网站对“许霆”的前20条搜索结果,发现都是高质量的网站链接,用户通过这些链接基本上能够对许霆案的来龙去脉有个了解。因此,谷歌和百度在“许霆”这个关键词的搜索上平分秋色。

接下来看“次贷危机”的搜索结果。“次贷危机”在百度、Google。com和Google。cn网站上分别有105万、38万和154万个搜索结果条目。同样,比较搜索结果的总条目数没有意义,主要还是看前几页的条目是否是高质量的网站。

这回百度要比谷歌做得好,因为在Google。com和Google。cn的前20条搜索结果中,分别有7条和5条是繁体中文。虽然谷歌允许用户在搜索结果中对简体中文和繁体中文进行设置,但是如果用户用“次贷危机”这四个简体字搜索的时候,很显然用户是在寻找简体中文网站的信息,这个时候谷歌显示繁体中文网站显得有点驴唇不对马嘴了。

而实际上,谷歌搜索结果中简体中文和繁体中文混杂的问题一直存在。繁体中文的出现或多或少让简体中文的用户感到有点碍事。现在谷歌在识别和处理简体、繁体中文上的技术进步了很多,但是这个问题还是存在。特别是对于一些简体、繁体中文书写完全一致的词语,如“痞子英雄”,谷歌就要乱很多。笔者在2010年3月份曾用“痞子英雄”作为关键词搜索,百度搜索的结果全部为简体中文,而Google。com的前几页全部为繁体中文的台湾网页,而Google。cn前几页则是简体中文和繁体中文各占一半。显然百度把这个问题处理得更好,这也是中国大陆的一些用户觉得百度比谷歌更好用的原因之一。

最后是这个“看羹吃饭”。这次关键词的搜索结果就很戏剧化了。Globalbydesign的试验发现百度只有207个条目,而Google。com和Google。cn则分别有400万和24万条结果。乍一看,谷歌厉害多了,但是仔细看一下,就发现不是那么一回事。百度的207个条目中几乎每个条目都是精准的“看羹吃饭”这个词,而Google。com和Google。cn各自前10页的搜索结果中,没有一条是精准的,只是这四个字撒落在句子中间。所以在这一回合的较量中,百度无可争议的比谷歌强。

这也是很多中国用户的共识,在对待“看羹吃饭”这样极其中国化的关键词上,百度确实比谷歌更懂中文。

但是换个角度,如果你是一个搞学术研究的,经常要查一些资料,这个时候,你可能会发现,百度未必比谷歌强。

比如,我们用“灵菌红素”作为关键词去搜索(2010年3月,下同),谷歌网站上第一条就是来自维基百科(Wikipedia)的。这个维基百科是一个网上的百科全书,涵盖几乎所有语言。虽然它的内容是用户自行编写的,但是也很有权威性,很多人遇到新名词第一个想到的就是查维基百科。所以用户如果搜索“灵菌红素”这样的专业名词,往往都能在谷歌最前面的几个搜索条目中找到维基百科的链接。但是百度把这个维基百科排到很后面,重要的一个原因就是百度自己也有一个类似的产品——百度百科,跟维基百科是直接的竞争对手。

但问题是百度百科的权威性要比维基百科差一截,而且覆盖面也没有维基百科广,如这个“灵菌红素”被维基百科所收录,但却没有被百度百科收录。所以从网站质量上来讲,维基百科要比百度百科高,但是百度还是把百度百科的链接放在最上面,而在谷歌上,百度百科的条目一般也出现在比较靠前的位置。这一点,谷歌做得比百度更公正,也更被用户认可。

同样,如果我们用“亥姆霍兹方程”作为关键词搜索,谷歌搜索结果中的前20条都是优质结果,点击这20个网站,里面都是对“亥姆霍兹方程”的详细介绍;而百度就逊色了不少,点击百度搜索结果中的前20个网站,有一半没有提供实质性的信息,有些需要再次点击才能到达有实质性内容的页面,有些就是翻译网站。

如果我们再用“后现代主义”作为关键词搜索,会发现百度做得更离谱。前20条搜索结果中居然有17条来自百度自己的网站,除了百度百科以外,大量的搜索结果条目来自“百度知道”,即百度的在线问答的内容。百度的在线问答就是用户有问题了可以在线提问,知道答案的人可以回答,的确有人在这里找到了解决自己问题的答案,但是这中间也会夹杂不少错误的答案,而且这种形式所提供的内容并不权威。所以如果你是一个正在写关于“后现代主义”论文的人,看到百度这个搜索结果,估计就只会摇头了。而如果使用谷歌进行搜索,前20个条目都是高质量的网站,点进去一看都是对“后现代主义”的介绍,提供的内容比百度有用多了。

此外,百度的搜索结果中夹带了大量的广告,这也是一些用户诟病百度的原因。比如,我们用“软密封闸阀”作为关键词搜索,结果发现百度的前10条搜索结果中都是用小字标出“推广”的广告。如果用户不留心,可能就把这10条也当作了正常的搜索结果,点进去一看,全是卖这个“软密封闸阀”的。如果你是一个想知道什么是“软密封闸阀”的人,估计会大失所望。

如果你要查找一下英文资料,那么百度跟谷歌完全是两个套路。假如你要研究一下本书中多次提到的“网络中立”(Net Neutrality),拿“Net Neutrality”作为关键词进行搜索。百度前几页的搜索结果中不少都是中英文混杂,其中还包括权威性不高的个人博客;而谷歌的搜索结果则无可挑剔,全是关于“网络中立”的长篇大论,就怕中国用户看不懂英文。这个结果从表面上看谷歌胜出,但是实际上,中国用户未必都觉得谷歌好,关键要看什么人在使用。如果你英语水平很强,而且正在研究美国网络中立的政策,那么毫无疑问会选择谷歌;但是如果你英语水平一般,甚至看见英语就反胃,只是偶然看到了“Net Neutrality”这个单词觉得好奇,想弄清楚是什么意思,那么百度的搜索结果更适合你,因为这些中英文夹杂的网站中就有用中文对这个词进行说明和解释的,你一看就明白了。

比较到这里,我们可以对百度和谷歌的搜索能力下一个初步的结论了。从技术的角度出发,越是中国的东西,越是八卦的内容,百度往往比谷歌更好;而对于一些专业的内容,谷歌则更强大。所以一般中国用户想查点吃喝玩乐或者明星绯闻,百度可以告诉你更多的东西;如果你要写论文做研究,还是找谷歌更对路。

这个差异好比QQ和MSN的区别。QQ的用户一般是大众用户,下到小学生,上至想跟孙子孙女聊天的大爷大妈们;而MSN的用户群一般都是公司白领,相对来讲属于“高端”用户。

但是谷歌和MSN同病相怜的是,虽然都拥有了“高端”用户,可市场却依然惨淡。因为在互联网中,高端用户只是少数,大部分用户只管自己吃好喝好,因此百度和QQ占了更大的便宜。

美国互联网企业在中国来一个死一个的现实让美国人感到很憋屈。一憋屈,就要找各种理由。比较盛行的一个理由就是中国政府和中国市场更偏爱自己本土公司的产品,并有意设置各种障碍让美国公司打不开市场。对于这个技术性问题,谷歌又该如何回答呢?