国内主流搜索引擎中文分词技术实验分析
今天我们来用“筹到锻谁谁梗流”这一长句来对国内现在主流的搜索引擎进行中文分词技术强弱的比较,文章纯深邃seo实验室试验,不足与做正规参考,不确保本站试验结论为正确,请各位依据自己的感觉自行判断:
1、百度搜索“筹到锻谁谁梗流”得到的提示语句是“抽刀断水水更流”
2、这里我们在回到google搜索“筹到锻谁谁梗流”,很遗憾,技术强悍的google并没有给我们正确的答案提示:
http://www.google.cn/search?hl=zh-CN&q=筹到锻谁谁梗流&btnG=Google+搜索&meta=&aq=f&oq=
3、我们再试试用yahoo搜索“筹到锻谁谁梗流”得到的接过如下,跟google差不多:
4、接着再我们用soso对“筹到锻谁谁梗流”进行搜索,得到的结果如下(这个意料之中的,google办不了的事情soso也不用想办得到,因为他用的是google的技术):
5、最后我们实用sogou对“”进行搜索,接过如下,虽然sogou没有像百度一样提示“抽刀断水水更流”,但是如下图我们可以看到在最下方的相关搜索中sogou已经给出了正确的提示。
通过上面的例子我们可以得出结论,谁更懂中文?
百度 > sogou > google > yahoo > soso
soso可以说是没什么技术,因为本身实用的是google的数据库,yahoo已中道颓废,google技术虽然强,但是在中文分词技术,百度相对来说比他更加成熟。出乎我的意料的是sogou既然可以在相关搜索中显示正确的相近语句,很诧异的是为什么他不学百度放在顶部提醒用户,难道是对自己技术的信心还不够?google主要还是依据其强大的数据库,按我的判断我觉得google的数据库依据超过百度,从现阶段各大中小网站的收录情况来看大概是这样……
或许本文又会引起一些百度仇家的口水唾骂,那我也骂一句,虽然百度中文分词技术很成熟,但是他在搜索引擎公正性方面是做的最差的一个,大家可以看到排在第一的基本上都是“百度视频、百度图片、百度贴吧、百度知道、百度百科”,到现在的“百度有啊”,什么时候在出现几个“百度毛驴”“百度没啊”的话,大概中国互联网70%的搜索市场的搜索结构的首页全部被百度占据了,不是被百度占据了就是被“推广”占据了。百度的这种行为完全表现出它只是一家商业性质的公司,说再多都没用,它做的一切只为了自己的利益,因为它是商人,不是慈善家!鄙视!!!
很想问下博主:百度所表现出来的结果是人为干预的还是机器处理的?