深圳易捷网络科技财税咨询网-neatmaster518.com 返回首页

百度和Google的搜索算法、技术有何差异

信息来源:深圳市易捷网络科技有限公司
信息发布时间:2024/12/22
大规模机群建设与管理。Google 的情况可以参见 拥有世界上最大的计算机集群,论机器数量的话能在量级上超过所有其他公司。同时,它有一整套自动化管理软件,以便工程师申请和使用这些硬件资源(大致可以理解成一套Amazon EC2)。就我的了解,现在在普通工程师使用机群硬件资源的方便程度和可以使用的量上,百度还是远远不及大规模计算与存储。Google 论文老三篇 GFS, MapReduce, BigTable 不再赘述,近年 Google在这些方面的研发和进步没有停滞甚至在加快。当然百度也在努力追赶,百度不仅使用 Hadoop, 而且基于 Hadoop 做了大量改进和扩展,并贡献回 Hadoop开源社区。

百度在 SSD 存储技术等方面也很有心得,比如 flash 存储方面最近中了的一篇机器学习和人工智能。被吹得神乎其神的 deep learning 和 Google Brain 等等。在 deep learning这个相对较新的领域,百度追赶的更快,水平也更接近。机群管理的技术水平决定你能拥有和有效使用多少硬件资源,大规模计算与存储决定你能在这些硬件上做多大规模的事情 ——而最后,搜索引擎本身就是一套大规模机器学习系统。在纯技术之外,我想特别提一点极大影响技术进步,而至少在 百度与 Google 差距巨大的因素:普通工程师所能使用的工具水平。

我在Google感觉最爽的事情是我可以很容易获得大量的计算资源,做以前无法想象的大规模数据分析。要验证一个想法,我可以基于一整天的搜索记录做分析,只需几分钟就能得到结果r进行调整和下一步分析;而如果没有这套基础软件和可以随意使用的硬件资源,我可能得等一整天才能有结果,或者只能分析小规模的抽样数据。在我自己的知识和技术水平不变的前提下,Google这套系统极大地提高了我的工作效率,让我能做到以前完全无法想象的事情。

我觉得作为一个技术人员,黑或者捧哪个公司毫无意义,技术的事情很直接的,身在哪个公司都无法影响基本判断。还在百度的时候,我就经常想,Mig- 25的故事是个很好的警示,人很容易为类似双三这样的成就沾沾自喜,而对实实的基础技术差距视而不见,不图进步,那前景就相当危险了。幸好据我所知的情况,百度可没有这麽不争气。补充一个实际例子来说明不同技术条件下两个公司做事思路的区别。评论中有朋友提到百度的分词技术,这确实是百度更懂中文的一个集中体现。

百度当年做分词的时候很可能是这样的:先从一个人工编辑好的字典开始,用这个字典跑一些网页,观察分析裡面的bad case —— 可能是分词过细,或者是中文人名没分出来,然后就尝试根据中文语法规律加入规则或添加词表解决这些 bad case,如此往复,直到有满意的结果。上线应用,发现有新的 bad case 就再研究加规则,当然也有自动流程发现和确认如人艰不拆之类的新词。Google做分词的话就是把问题看成一个概率问题:如果中文网页中哪些字经常一起出现,那麽它们很有可能就是一个词。看哪些词后面会跟的地得,的地得后面有常跟哪些词,语法结构也就出来了。

(具体的模型参见吴军《数学之美》)。解题思路就是把所有抓到的中文网页往MapReduce裡一丢,参数算出来就好了。评估分词质量的方法也很简单,就拿新模型放到网页检索的模型裡,做个实验看质量有没提升就行。这套方法结果之好,基本把中文分词做成了一个没有多少悬念的简单问题,而且基本不需要中文语言专家的参与(自然也没有谁更懂中文的问题)。同时这也就是Google 做 Translate的思路。这裡面基本方法其实非常简单,没什麽祕密可言,但是你得先有这麽多的网页数据,还得有大机群,有分佈计算框架,还有可复用的模型……我认为在技术受限的条件下,人工微调优化结果是一个恰当的产品思路,但这个产品思路会与技术发展路线相互影响。

对于长尾头部的一千个热词,完全可以用人工编辑的方法做出非常好的结果,而短期内改进通用的机器模型达到人工编辑的效果几乎不可能。这时候,人工调整可能会受鼓励,而通用模型的技术改进可能就得不到足够的重视—— 虽然即使以中国的人力成本,对所有搜索结果人工调优也绝无可能,但能搞定长尾头部也不错了不是Google的主流技术思路则是骨子裡不相信人工调整,什麽事情都非得弄出个自动通用可扩展的模型来不可,这种思路可能一开始在那一千个热词上怎麽都比不过勤劳接地气的编辑,但通过积累数据调整模型,假以时日,整体结果质量就会显著提升—— 我就是这麽看 2009 年时 Google 搜索质量给我们的压力的。这种思路在具体的产品运营上不一定对,不是人人都有 Google的资源来花时间做通用技术,但 Google 确实就在这种技术碾压一切的(错误)道路上越走越快。

相关行业资讯

1、总结家居装修行业网站实现赢利的五种方式
2、微信小程序怎么用,如何去开发
3、企业网站设计建设细节非常关键,不能忽略
4、企业做网站建设可以为企业带来什么好处
5、SEO还只是为了优化排名吗
6、企业建站自主创新营销需要哪些准备工作
7、微博、探探、百度纷纷推出小程序为什么平台也都要上线小程序
8、站长们容易忽略影响网站排名的6大因素
9、防止被降权,我们应该注意什么
10、高端网站建设—设计师如何寻找设计灵感
11、企业为什么重视竞价而忽略优化
12、推广优化几个重要关键点站长不能放过
13、PC端做好长方形界面设计,需要做到这几点
14、手机网站建设从受众需求出发,关注细节设计
15、快速提高网站流量和百度权重的3个办法
16、做网站之前需要了解的网站建设知识
17、手机网站与传统PC端网站相比之下的有哪些优势
18、企业网站设计方案应该包含哪些内容
19、用户体验才是关键词浮动的根本原因
20、企业做网站界面编排
21、深圳网站设计公司友情链接判断方式
22、网站制作编排过程中需要注意的问题
23、商城网站制作需要有哪些网站功能
24、企业网站制作需要注意四个事项
25、网站关键词密度如何合理布局设置
26、修改justhost主机dns中文图文教程
27、如何通过提升用户体验来增强用户的访问粘性
28、浅析关键词布局小技巧站点优化也能变轻松
29、如何发外链不会被删_深圳网站建设公司
30、网站收录迟迟上不来是什么原因
31、深圳建设一个网站要多少钱
32、为什么新的一年公司要做好网站建设?
33、如何增加网站的外链有哪些注意事项
34、企业网站制作价格为什么不一样
35、网站制作过程中什么最重要
36、今年地产设计网站用哪些技巧才能吸引用户点击
37、网站建设切图CSS代码如何做到换行及方法
38、如何平衡营销型网站的用户体验设计与优化
39、网站设计的特征对在线购物产生什么好处
40、如何设计好网站首页
41、如何建设企业网站?有哪些好的方法
42、企业网站设计文字
43、个人站长优化新站技巧玩转个人网站
44、在同行之间让自己的网站脱颖而出
45、想知道企业网站如何才能实现利益的最大化
46、外贸网站制作小技巧
47、google广告推广中有哪些高招
48、互联网推广需要哪些终端
49、10个小插画,告诉你好设计师和差设计师的区别
50、如何让你的网站被快速收录
深圳市易捷网络科技有限公司版权所有    粤ICP备2022153140号