深圳易捷网络科技财税咨询网-neatmaster518.com 返回首页

基于KNN的相关内容推荐

信息来源:深圳市易捷网络科技有限公司
信息发布时间:2024/12/22

如果做网站的内容运营,相关内容推荐可以帮助用户更快地寻找和发现感兴趣的信息,从而提升网站内容浏览的流畅性,进而提升网站的价值转化。相关内容推荐最常见的两块就是关联推荐和相关内容推荐,关联推荐就是我们常说的购物篮分析,即使用购买了某商品的用户同时购买了什么这个规则来发现商品间的潜在联系,之前有相关的文章介绍——向上营销、交叉营销与关联推荐;关联推荐是基于用户行为分析的推荐,而相关内容推荐是基于内容固有特征的推荐,只与内容本身有关,与用户的行为完全无关,所以相关内容推荐的模型是一种冷启动的算法,不需要任何历史浏览访问数据的支持。

内容固有属性

相关内容推荐因为完全不借助用户浏览行为的数据,所以底层数据不依赖于网站的点击流日志,唯一的基础数据就是内容的固有属性及完整信息。我们以豆瓣网的几大块内容为例来看看对于这些内容一般包含哪些固有属性:书籍-书名、作者、出版时间、出版社、分类、标签音乐-专辑名、歌手、发行时间、发行方、风格流派、标签电影-电影名称、导演、演员、上映时间、制片方、类型、标签豆瓣很多地方都使用了标签这个词,用贴标签的形式来完成内容的分类和标识,但其实标签又分为很多种,有些标签是在内容生成时就被贴上的,有些可能是后续用户贴上去的,而且豆瓣一般为内容和标签定义了原始分类,如书籍分为文学、流行、文化……既然分类和标签内容源生就带有,那同样可以作为内容的固有属性。还需要说明的是,这里不涉及文本挖掘和字符切分模糊匹配等问题,因此内容的标题、简介和全文不参与文本相似度的分析,虽然这些可能在构建完整的相关内容模型中不可缺少,但这里只考虑一些固有属性是否相同实现简单应用。基于上述豆瓣几类内容的属性特征,选择和整理适合分析的内容属性如下:作者就是指内容的创造者,来源指内容的发布方或获取渠道,分类为内容归属的类别,标签可以包含对内容的各类描述信息和关键词等。这里为了能够尽可能清晰地描述整个分析模型和思路只选取了大部分内容都包含的一些属性,如果要构建更加高效的相关内容分析模型,需要更完整的内容属性,可以根据自身内容的特征进行属性的定义和选取。


KNN算法及应用;相关内容模型

有了基础数据和算法的支持,我们就可以创建数据模型了。先看下基础数据的类型,作者、分类、来源和标签都是字符型,其中作者、分类、来源基本可以当做是单个值的属性,标签一般包含多个值。首先由于都是字符可以确定属性之间相似性的判定只能通过是否相同,无法体现数值上的差异,所以对于作者、分类、来源这几个单值属性而言,比较的结果就是一个布尔型的度量,相同或者不相同;对于标签这个多值属性可以考虑使用Jaccard相关系数,但因为每个内容标签的个数存在较大差异,使用验证后的结果并不理想,所以不考虑使用(当然,如果内容的标签个数比较固定,Jaccard相关系数是有效的)。因此,直接创建加权相似度模型如下,首先是标签的相似度分值设定:再结合作者、分类和来源,通过加权设定总体的相似度分值:将所有属性加权相似度分值的结果相加应该分布在[0,100],分值越高说明内容间的相似度越高。

对于这种简单的加权相似度评分模型,估计又有很多人要问权重是怎么确定的,确实,这里的权重并没有通过任何定量分析模型的方法去计算,只是简单的经验估计,但估计的过程经过反复地调整和优化,也就是不断地尝试调整各属性的权重系数并输出结果,抽样检验结果是否符合预期、是否有提升优化的空间。
基于上述内容间相似度的计算结果,套用KNN的原理实现相关内容推荐就异常简单了,只要根据每个内容与之比较的所有内容的相似度分值降序排列取前K 个内容作为该内容的最相关内容推荐给用户就可以了。当然中间可能会涉及相同相似度分值的内容如何排序的问题(因为模型的关系分值分布可能不会很离散),建议如果相似度分值相同使用随机排序,以保证推荐结果有一定的变化,均匀内容的曝光。

好了,所有的分析流程介绍完了,好像跟前一篇的距离和相似度度量完全没有关系,其实距离和相似度度量是KNN的基础算法,因为KNN的个体相似度或邻近的距离都会选择距离度量和相似度度量中的某种方法进行计算,但这里考虑到了现实的数据情况和应用环境,并不是KNN就一定要硬套欧氏距离,其实换一种简单的方法可能反而更加适合整个模型,而且模型的最终效果可能会更理想。所以一切的数据挖掘算法的选择和使用都是基于数据模型的有效性和输出结果的效果来决定的,并不是简单的算法效果就一定不好,而高级复杂的算法一定更加有效。对了,如果你已经做了相关内容推荐,那么优化相关内容推荐这篇文章里面介绍的一些方法将是检验推荐效果的一个很好的参考。

相关行业资讯

1、菜鸟必备的WP博客优化手册
2、网站巧“瘦身”优化更给力
3、网站目录如何设计
4、做好网站建设,你要清楚这几点
5、外贸网站制作一般需要多少钱
6、不同的网站风格有什么必须留意的SEO优化提升对策
7、你必须了解一下SEO优化的重要性
8、浅析网站如何自测
9、自己的个人网页应该如何来进行制作
10、博客的更新策略
11、网站设计的流程是什么
12、Android和iOS在新版本中助力HTML5
13、浅谈:如何才能提高品牌主要词的热度
14、网站广告设计技巧
15、手机网站制作具备的八大特点
16、网站优化中如何更新网站的内容
17、详细解说网站优化的两种含义
18、浅谈竞价着陆页面应该如何优化
19、现在所用的素材将来会引起有版权纠纷吗
20、影响网站SEO优化主要因素有哪些
21、网站制作过程中如何选择域名
22、seo内链布局和外链建设很重要
23、SEO优化图片的七大技巧
24、更新网站怎样做到降低损失
25、网站内容更新和相关保护
26、想要自己建设一个网站需要做哪些准备工作
27、SEO优化不仅要做排名,更应该关注优化效果
28、企业做网站排名优化,应该选SEM推广还是SEO优化
29、如何进行网站推广效果才能更佳
30、当网站被恶意刷流量,需向百度联盟备案
31、网站SEO优化中有哪些方面是和权重有关的?
32、网络给我们的生活带来了哪些影响
33、站长别让DEDE“会员”功能毁了你的站
34、谈一谈网站建设分析的基本步骤
35、面对SEO行业现状,找优化将成为新的曙光
36、推广优化网站优化有什么技巧
37、哪些因素会影响响应式网站的布局
38、网站建设和运营有哪些错误的方向
39、网站常用到网页制作软件都有什么
40、电商网站该如何避免过度优化
41、2020年企业网站建设哪家专业
42、新网站应该如何优化呢
43、营销型安康网站建设的精华所在
44、百度算法改进后,我们该如何做网站优化
45、网站制作中最容易被忽略的几大问题
46、网站关键词排名靠后该如何优化呢
47、淘客站备案中3个不得不注意的小细节
48、网站设计的灵感来源
49、南京网站建设做网站优化的侧重点有哪些
50、符合搜索引擎算法的推广不可忽视的几点要素
深圳市易捷网络科技有限公司版权所有    粤ICP备2022153140号