机器算法和人不一样的当地是人可以直接了解词的意思,文章的意思,机器和算法不能了解。人看到苹果这两个字就知道指的是那个圆圆的,有水的挺好吃的东西,查找引擎却不能从理性上了解。但查找引擎可以掌握词之间的联络,这就牵扯到语义分析。
两年前查找引擎优化业界很炽热的议论过一阵潜在语义索引(LatentSemanticIndexing)。因为时间比较久,记住也不是很清楚,大约介绍一下。所谓潜在语义索引指的是,怎样通过海量文献找出词汇之间的联络。当两个词或一组词许多出现在同一个文档中时,这些词之间就可以被认为是语义相关。
举个比如,电脑和计算机这两个词在人们写文章时常常混用,这两个词在许多的网页中一起出现,查找引擎就会认为这两个词是极为语义相关的。
要注意的是,潜在语义索引并不依赖于言语,所以SEO和查找引擎优化虽然一个是英语,一个是中文,但这两个词许多出现在相同的网页中,虽然查找引擎还不能知道查找引擎优化或SEO指的是什么,可是却可以从语义上把SEO,查找引擎优化,searchengineoptimization,SEM等词紧紧的连在一起。
再比如苹果和橘子这两个词,也是许多出现在相同文档中,不过严密度低于近义词。查找引擎有没有运用潜在语义索引,至今没有定论,因为查找引擎既不招认也不否定。但一个事实是Google买下了具有潜在语义索引专利的一家公司AlliedSemantic.