大家好,我是朋少,一个风一样的男子,这几天又脱更了,首先要给大家说一下对不起,因为我对不起广大的读者以及群里的兄弟们,没有及时的让你们看到我的好文章,让你们学到到一些干货,这是我的罪过。因为这几天一直在搞我的论坛,还要讲课,还要优化站,最重要的还要悟道,至于怎么悟道呢当然是在滚滚红尘中悟到人生的真理。天道、地道、XX,就是这个样纸了。其实,还有一个最重要的原因,是因为我在研究百度分词算法,至于百度分词算法呢,可谓是博大精深,让我这个菜鸟研究的很痴迷。。。。。。
一、为什么会有百度分词算法呢百度为什么要分词呢
百度分词是有原因的,因为百度是面向中文的搜索引擎,当然英语也可以,不过大部分客户是中国人,对不对,大家都知道中文很难搞懂的,我们以前可以听过如果一段话没有加标点的话,会有N种意思的理解,就是基于这种问题,我们在查询的时候,一般不会输入标点的,比如输入:济南网站优化哪家好,你会打标点吗肯定不会的,百度要分词啊,要不然他如何知道你的意图叱不过分词也是有前提的,如果你小于3个字,就不会分词!
二、百度分词算法到底是怎么样的
分词算法也是有N多种的,比如正向最大分词、反向最大分词、 双向最大分词、最短路径分词等等,太多了,是不是晕了呢小伙伴,接着向下看吧!
1、搜索济南网站优化这个词,名显感觉是正向最大化分词算法,不信大家过来看。
因为网站优化是一个有指数的词,个人认为:他在百度的数据库中是属于一个专有词,固然,如果标题带有这个专有词的话,排名肯定比不带有有优势的,那么,我们来观察前5的网站的标题写法大家可以看到,前5的网站都有完整的展现这个词,我们知道我们的标题是很长的,而百度肯定会对我们的标题进行分词,虽然我们给我们的标题加上了,或是|,不过百度依然会分一些组合词出来,那么,这个如何解释呢,是因为百度会按照他的规则来进行分词,而这个规则是值得我们去探索的,好了,今天百度分词算法就说到这里,以后会接着更新文章说这个分词算法,敬请关注!