隐含语义索引原理就是搜索引擎的一种算法,它是基于中文分词原理而来的。搜索引擎通过上千万亿个网页去判断某一个关键词的密度,计算它的排名是非常非常困难的事,而且想在零点零点几秒内计算出来,那更是不可能了。搜索引擎利用中文分词原理将上千万亿个网站内的文字划分到我们中国现有的八万条词汇中去,就变得非常简单了。那么隐含语义索引原理是怎么计算的呢
隐含索引语义原理就是搜索引擎的蜘蛛把一个页面下载完成之后,会将下载的数据上传到服务器上然后进行一系列的算法计算分析,把这个页面的内容分成两部分,一部分是页面里面的所有链接(内部链接和外部链接),另一部分是页面内容的正文。把正文的内容整理再进行分词,把它分成若干个不可再分的词,把一些词按照算法处理过滤掉,比如:这个、那个、他这些没有意义巅峰词,只保留一些名词、动词、形容词。
当蜘蛛爬取下载分析完站点页面后,隐含索引语义就把下载页面的所有单词制成一个列表,然后再将站点所有页面的内容都做成单词列表,然后利用这些列表可以做成一个以页面为X轴,单词为Y轴的巨型矩阵,如果一个单词出现在某一个页面,那么对于的页面位置我们就标为1,反之为0.这样就可以很清楚的看到每个单词在整站页面出现的频率。
当然仅仅靠这样是不能准确的计算的,隐含索引语义原理还引入了一个关键词权重问题。关键词在页面出现的越高这个关键词在页面的权重也就越高;整站关键词频率高的权重越低。隐含语义索引最重要的是可以计算出某一个关键词的相关关键词在其他页面出现的频率。这样的好处就是即使你的某一个站点页面未出现你搜索的关键词,也可以将相关页面搜索出来。还有就是你页面做相关的长尾关键词相互提升其竞争力,就是因为他们的相关性。这就是隐含索引语义原理的核心所在,这就是为什么搜索引擎知道你的关键词在页面出现了几次以及相关词的比例,如果超出这个比例,搜索引擎就可能认为你在作弊,也可以算出关键词的密度,看你的网站是不是关键词堆积。