一 搜索引擎如何处理查询
1,搜索引擎的被动行为。
如果用户根据自已的意愿在搜索的关健词的时候有加上空格,标点,那么搜索引擎会优化按用户的行为进行查询,这个应该很好理解!例如:百度搜索 郑智化水手与搜索 郑智化 水手,所返回的结果会是不一样的!可能这个例子还并不直观,举一个更直观的例子,分别搜索:郑智化 学 和 郑智 化学。搜索结果分别如下图:
2,搜索引擎的主动行为搜索引擎收到用户的搜索内容,会根据自已基础词典与特殊词库为用户的查询进行主动分词,如搜索:郑智化水手,百度会根据其搜索词库(猜测为:人名库+歌名库)智能将郑智化与水手这两个词分别进行查询,搜索结果如: 那么如果搜索内容中包含同时中文与英文百度是如何处理的呢百度会将英文做为单独的一块来处理,然后英文前后的词也做为一个单独的块。试搜索:郑智化bt下载,结果如下:
二,搜索引擎如何进行分词与匹配分词根据字符串进行匹配,最常见的有三种分词匹配法,分别为:正向最大匹配法,反向最大匹配法和最短路径分词法。
1,什么是正向最大匹配法呢
简单点说就是从左到右进行分词,例如百度:武林外传说,武林外传与传说是两个不同的词,根据用户搜索习惯与词库分析百度会返回一个正向最大的匹配,也就是分词为:武林外传说。搜索结果如下图:
2,什么是反向最大匹配法反向分词固名思义就是从右向左进行分词了。回到刚才的例子,百度:郑智化学,如果按照正向分词那么我们应该得到的分词结果是:郑智化学。那么百度搜索的结果为什么却不是这样呢而是分成了郑智 化学。
3,正反向同时分词匹配
而有一种特殊的情况,就是关健词前后组合内容被认为粘性相差不大,而搜索结果辊也同时包含这两组词的话,百度会进行正反向同时进行分词匹配,如搜索关健词:北京华烟云,返回结果如下:
4,什么是分词最少化
指:分出来的词数应该是最求最少化,以搜索:武林外传说 为例,理论可以分成:武林 外 传说,可是百度只分成了 武林外传 说,即能尽量将分组数减少,能分成两组的尽量不分成三组!