深圳易捷网络科技财税咨询网-neatmaster518.com 返回首页

距离和相似度度量

信息来源:深圳市易捷网络科技有限公司
信息发布时间:2024/9/17

在数据分析和数据挖掘的过程中,我们经常需要知道个体间差异的大小,进而评价个体的相似性和类别。最常见的是数据分析中的相关分析,数据挖掘中的分类和聚类算法,如K最近邻(KNN)和K均值(K-Means)。当然衡量个体差异的方法有很多,最近查阅了相关的资料,这里整理罗列下。

为了方便下面的解释和举例,先设定我们要比较X个体和Y个体间的差异,它们都包含了N个维的特征,即X=(x1, x2, x3, … xn),Y=(y1, y2, y3, … yn)。下面来看看主要可以用哪些方法来衡量两者的差异,主要分为距离度量和相似度度量。

距离度量

距离度量(Distance)用于衡量个体在空间上存在的距离,距离越远说明个体间的差异越大。

欧几里得距离(Euclidean Distance)

欧氏距离是最常见的距离度量,衡量的是多维空间中各个点之间的绝对距离。公式如下:

因为计算是基于各维度特征的绝对数值,所以欧氏度量需要保证各维度指标在相同的刻度级别,比如对身高(cm)和体重(kg)两个单位不同的指标使用欧式距离可能使结果失效。

明可夫斯基距离(Minkowski Distance)

明氏距离是欧氏距离的推广,是对多个距离度量公式的概括性的表述。公式如下:

这里的p值是一个变量,当p=2的时候就得到了上面的欧氏距离。

曼哈顿距离(Manhattan Distance)

曼哈顿距离来源于城市区块距离,是将多个维度上的距离进行求和后的结果,即当上面的明氏距离中p=1时得到的距离度量公式,如下:

切比雪夫距离(Chebyshev Distance)

切比雪夫距离起源于国际象棋中国王的走法,我们知道国际象棋国王每次只能往周围的8格中走一步,那么如果要从棋盘中A格(x1, y1)走到B格(x2, y2)最少需要走几步扩展到多维空间,其实切比雪夫距离就是当p趋向于无穷大时的明氏距离:

其实上面的曼哈顿距离、欧氏距离和切比雪夫距离都是明可夫斯基距离在特殊条件下的应用。

马哈拉诺比斯距离(Mahalanobis Distance)

既然欧几里得距离无法忽略指标度量的差异,所以在使用欧氏距离之前需要对底层指标进行数据的标准化,而基于各指标维度进行标准化后再使用欧氏距离就衍生出来另外一个距离度量——马哈拉诺比斯距离(Mahalanobis Distance),简称马氏距离。

相似度度量

相似度度量(Similarity),即计算个体间的相似程度,与距离度量相反,相似度度量的值越小,说明个体间相似度越小,差异越大。

向量空间余弦相似度(Cosine Similarity)

余弦相似度用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小。相比距离度量,余弦相似度更加注重两个向量在方向上的差异,而非距离或长度上。公式如下:

皮尔森相关系数(Pearson Correlation Coefficient)

即相关分析中的相关系数r,分别对X和Y基于自身总体标准化后计算空间向量的余弦夹角。公式如下:

Jaccard相似系数(Jaccard Coefficient)

Jaccard系数主要用于计算符号度量或布尔值度量的个体间的相似度,因为个体的特征属性都是由符号度量或者布尔值标识,因此无法衡量差异具体值的大小,只能获得“是否相同”这个结果,所以Jaccard系数只关心个体间共同具有的特征是否一致这个问题。如果比较X与Y的Jaccard相似系数,只比较xn和yn中相同的个数,公式如下:

调整余弦相似度(Adjusted Cosine Similarity)

虽然余弦相似度对个体间存在的偏见可以进行一定的修正,但是因为只能分辨个体在维之间的差异,没法衡量每个维数值的差异,会导致这样一个情况:比如用户对内容评分,5分制,X和Y两个用户对两个内容的评分分别为(1,2)和(4,5),使用余弦相似度得出的结果是0.98,两者极为相似,但从评分上看X似乎不喜欢这2个内容,而Y比较喜欢,余弦相似度对数值的不敏感导致了结果的误差,需要修正这种不合理性,就出现了调整余弦相似度,即所有维度上的数值都减去一个均值,比如X和Y的评分均值都是3,那么调整后为(-2,-1)和(1,2),再用余弦相似度计算,得到-0.8,相似度为负值并且差异不小,但显然更加符合现实。

欧氏距离与余弦相似度

欧氏距离是最常见的距离度量,而余弦相似度则是最常见的相似度度量,很多的距离度量和相似度度量都是基于这两者的变形和衍生,所以下面重点比较下两者在衡量个体差异时实现方式和应用环境上的区别。

借助三维坐标系来看下欧氏距离和余弦相似度的区别:

从图上可以看出距离度量衡量的是空间各点间的绝对距离,跟各个点所在的位置坐标(即个体特征维度的数值)直接相关;而余弦相似度衡量的是空间向量的夹角,更加的是体现在方向上的差异,而不是位置。如果保持A点的位置不变,B点朝原方向远离坐标轴原点,那么这个时候余弦相似度cosθ是保持不变的,因为夹角不变,而A、B两点的距离显然在发生改变,这就是欧氏距离和余弦相似度的不同之处。

根据欧氏距离和余弦相似度各自的计算方式和衡量特征,分别适用于不同的数据分析模型:欧氏距离能够体现个体数值特征的绝对差异,所以更多的用于需要从维度的数值大小中体现差异的分析,如使用用户行为指标分析用户价值的相似度或差异;而余弦相似度更多的是从方向上区分差异,而对绝对的数值不敏感,更多的用于使用用户对内容评分来区分用户兴趣的相似度和差异,同时修正了用户间可能存在的度量标准不统一的问题(因为余弦相似度对绝对数值不敏感)。

上面都是对距离度量和相似度度量的一些整理和汇总,在现实的使用中选择合适的距离度量或相似度度量可以完成很多的数据分析和数据挖掘的建模,后续会有相关的介绍。

相关行业资讯

1、新版IXWebHosting面板域名解析管理教程
2、网站优化的技巧方法-深圳网站建设公司
3、百度为什么要把你的网站放到首页
4、小学教育专业做IT工作惹争议_深圳网站建设公司
5、分析网站在做竞价时着陆页面如何优化更能留住用户
6、做网站要在结构上精雕细琢
7、现阶段比较流行的网站风格
8、一个月提升网站排名的实用技巧
9、现如今我们要从多种角度进行优化分析
10、南充网站建设之域名注册需要注意的问题
11、浅谈友链的寻找方法
12、蜘蛛爬行不顺畅清理网站陷阱是关键
13、深入探讨企业网页设计中深色背景的魅力
14、如何做好网站根底优化
15、会SEO,要不要会做网站
16、网站设计不容小觑的用户意见反馈功能
17、公司网站制作需要强调什么
18、SEO优化战略是什么|深圳网站建设
19、网站制作的把握程度决定什么
20、企业网站设计紫色
21、个人建站、企业建站适合怎样的建站系统
22、企业怎样做网络推广怎样才不亏
23、深究网站被K的原因,及时找到网站被K首页的解决方法
24、说说现代企业都要做网络推广的必要性
25、企业定制网站究竟有什么优势
26、辉格SEO教你如何制作网站的SEO优化方案
27、网站建设运营的技巧
28、如何轻松玩转百度竞价推广
29、SEO优化和搜索引擎推广有什么区别
30、从众心理的SEO优化效果不会好
31、深圳网站建设怎么才能有更高的流量
32、企业网站策划前需要注意些什么
33、企业网站制作之后该如何维护
34、揭阳企业网站建设流程都有哪些
35、百度显示网站标题错误是什么原因
36、网站建设中的域名选购技巧
37、如何把企业网站运营推行做好
38、网站运营决胜秘籍三要点
39、网站建设中不容忽视的细节
40、精准的网站建设步骤你知道吗
41、提高网站的用户体验度是网站优化的关键
42、SEO做网站优化的最忌讳的几点都在这
43、网站设计页面不可缺少的几个地方
44、相关性分析:网站加载速度与搜索引擎排名
45、药品生产销售企业网站设计时应该注意什么
46、企业建设网站的优势
47、商城网站制作未来的发展
48、 企业网站应对新算法的4大优化策略
49、网站制作哪家专业,SEO优化中怎么去提高网站的权重和流量?
50、浅谈HTML5页面的价值提拔
深圳市易捷网络科技有限公司版权所有    粤ICP备2022153140号