深圳易捷网络科技财税咨询网-neatmaster518.com 返回首页

网站更懂读者:戳中开发者痛点的文章推荐算法

信息来源:深圳市易捷网络科技有限公司
信息发布时间:2024/11/8
在很多网站中我们看到有文章推荐功能,有的网站中还使用的无觅插件或百度的脚本挂件,然而推荐出来的文章却存在两个问题:相关性不大,不能引起读者兴趣。那么,有没有一种方法,提高相关文章的推荐吻合度呢?答案是有的。我还见过很多博客中放出的根据标签来推荐相关文章的代码,这种方法应该是比较好的,但是问题是,很多博主对标签的选择非常不专业,标签的选取常常是 随意的,即便两篇文章都含有百度这个标签,可能一篇文章是讲百度搜索规则的变化,而另一篇讲百度年营收,两篇文章根本没有非常明显的相关性。


1.期待谷歌更加强大的推荐挂件

在这个方面,虽然我们对百度寄予了厚望,但是实际上我更相信谷歌的技术。原理很简单:通过不同用户的不同搜索词进入不同文章,而这些搜索词在其他用户而言又是意思相近的。理解起来有点难,我们只能通过例子来说明:有A、B、C三个用户。有a、b、c三篇文章。A搜索w点击进入了a文章,B搜索m点击进入了b 文章,C搜索p进入c文章时,谷歌发现w、m、p这三个词组意思非常相近,所以判断a、b、c三篇文章是相关文章,因此在三篇文章下方返回了一个相关 文章列表(使用javascript来调用)。通过历史记录来判断某些文章相关,很多用户点击进入某篇文章后,同时进入另外一篇文章,说明文章相关性强。如果非得靠谷歌搜索的关键词,就显得太傻了,通过谷歌统计代码,从历史浏览记录来进行深入判断。当A进入a文章之后,发现下方有一个随机的推荐列 表,如果发现有自己需要的或者感兴趣的文章b,就会点击进去,这些行为被记录在谷歌的大数据中,当从a进入b被无数人实践过后,甚至可以统计b出现在a页 面的哪个位置更容易被点击,第几次进入的时候是否不愿意再点击b文章了,而谷歌完全有能力做到这种分析,最终当B、C首次进入a文章的时候,b文章的链接 就会非常合理的出现在该出现的位置。而实际上,如果无数用户从a进入,最后到了c这篇文章,那么为什么不直接把c文章链接放在a页面呢?这多少有点大数据 的意思。


2.统计和聚类:数据库爬虫

人工智能希望计算机有理解能力,但实际上目前我们只能通过统计和聚类来更加只能的判断相关性和可能性。100个人买了尿不湿的时候买了啤酒,这不能说明什么,但是有1万亿人次都这样做了呢?通过设计一个爬虫程序,到数据库中的文章表中去抓取,对文章标题、内容、摘要、关键词、标签等进行分词统计。最原始的方案是最长匹配词数量越多,文章相关性越强。爬虫要做的就是匹配词组,因此最开始应该有一个词典。但是词典需要人为手工建立,略显麻烦。解决方案也很简单,用一篇典型文章作为原始案例,让爬虫 去爬,反复的爬,通过分词建立原始词典。利用这个原始词典再去爬其他的文章,遇到新词的时候就加入到词典中。这种方法能够保证新词只会在后面去爬的文章中 出现。在爬的过程中,一方面可以发现新词加入词典,另一方面又把词频统计出来,按照词组的长度降序排,找到最长词。通过对文章最长词的对比,确定文章的相 关性。但是这种方法必须面临两个问题,一个是效率问题,一个是干扰问题。搜索引擎中最核心的问题之一就是效率,主要是两个方面的效率,一个是爬取,另一个是检索。对应到推荐系统中,一方面是如何确定文章的相关性(爬的效率),另一方面是如何更快的根据爬的结果返回相关文章列表(取的效率)。干扰问题则是指 部分文章的词频无法反应这个问题的核心主旨,例如一篇含有100行代码的文章,介绍性的文字可能只有20-30行,这种情况下很难防止统计结果与文章核心 主旨不符(而其他文章的统计结果又相对比较准确)。为了提高效率,你可以鼓动你的读者来为你提供词典,比如说读者读完文章后,你要求他输入认为可以概括本文的关键词,这样可以让爬虫更加确定自己是否应该省去某些词,而重视某些词。

3.最有可行性:标签、搜索和浏览记录

上面说到的两种方案都是离我们比较远的,普通程序员很难在自己的网站中实现。回归现实,我们希望真正可以在网站中实现的一种方案(即使可能相关性结果稍微弱一点)。标签是最合理的一种方案。给不同的文章贴上3个以上的标签,因为标签是人工撰写的,所以最好有一个自己的标签列表,防止把 同一个意思写成了不同的标签,例如自行车单车脚踏车。把标签统一起来,意思相近的,全部统归为一个词,下次再打算贴标签的时候,就只用这个 词。3个以上的标签基本上能反映出该文章大概要讲什么内容。在使用程序去挑选相关文章的时候,尽可能的匹配所有标签,假如两篇文章有3个以上的标签,那应 该是有相同主题的内容的吧。我见过只要有一个标签相同就推荐出来,我认为这种方法不好,文章开头已经举过了例子。但标签的方法毕竟是人工来弄,思考和统归过程是很累的。一个网站中相关性比标签还要强的,应该是站内搜索结果。我是指那些具备稍微强大的搜索模块的站内搜索,仅仅用LIKE去匹 配一下数据库的情况,个人认为搜索结果参考价值比较低,特别是只用一个搜索词的情况下。但是大部分网站的搜索模块还是比较差的,因此,我的建议是,规定用 户必须使用两个以上的词进行搜索,这样可以保证搜索结果相对准确。


4.但是如何将搜索应用到文章推荐中呢?

搜索的出发点是关键词,因此你得找到和这篇文章相关的关键词。怎么找呢?一种是直接使用标签,把这篇文章的标签作为关键词 (上面说了,3个标签以上),利用网站的搜索模块,搜索出文章,返回到当前文章的页面,列出链接列表即可。另一种比较复杂,通过浏览记录来获取关键词。 (这里需要提一下,面对普通的网站,分词的想法被我放弃了。)浏览记录里面记录了一些关键词,包括站外搜索引擎关键词、站内搜索关键词和浏览过的文章的标 签。浏览记录里面需要通过社会网络方法,找出与当前文章相关的关键词,再通过网站的搜索模块,搜索出相关文章,把链接列表显示出来。当A通过w搜索进入网站的时候,记录下w(如何获取搜索引擎过来的关键词的文章网上一大堆),并且标记它跟a文章相关(例如记录到a的一个 字段里,或者另外建立一个表记录对应关系)。当B和A发生了同样的情况的时候,增加相关次数n。当n的值大到一个区间的时候,那么w肯定和a相关。同样的 方法,m、p也跟a相关,可见w、m、p这三个词组和a都相关。拿w、m、p到网站的搜索模块中检索,返回的结果可能就是用户最需要的。站内搜索的道理一样,通过记录不同的用户搜索的词和点击进入的结果的一个n值,最终找到某些文章最相关的关键词,用这些词去搜索,返回的结果应该是比较相关的。历史浏览记录主要是指用户都阅读了网站内的哪些文章,在这个用户的浏览器中用cookie记录下来,为了防止cookie被清除,还可以通过用户注 册、社交账号绑定、IP记录等把该用户的行为记录到网站数据库中。不单单要记录读了哪些文章,还要记录其阅读的顺序和页面停留的时间,高级一点还可以记录 每一个页面都在哪些位置进行了点击,哪些位置花了更多的时间来研究阅读。总之,这些都可以通过javascript来实现。只有通过按顺序点击链接次数在 5次以内的访问有参考价值,而且这里假设了用户不是因为图片上有个美女而被吸引去点击的。只要符合这种情况,就可以把用户阅读过的这些文章的标签收集起 来,进行词频统计,挑出词频最大的几个,再使用搜索模块搜索文章。下一次有新用户访问上面5次访问内的文章的时候,都可以尝试把这些搜索到的文章作为推荐 文章推荐给用户。

相关行业资讯

1、网站设计应该满足哪些要求 具体做法有哪些
2、大数据分析哪些文章不被搜索引擎收录
3、网站分析师的五个忠告不能忘记分析目的
4、企业网站建设一般都有哪些功能
5、站长实用的5个SEO工具(2)
6、网络推广的优点或者说强在哪些方面
7、怎么判断网站开发是否合格?
8、互联网盈利模式有哪些
9、怎样的网页设计有利于网站优化
10、网站建设如何进行规划
11、做网络推广这件事很重要
12、为何辛辛苦苦做的网站的关键词排名会不稳定
13、在书写网站标题的时候有哪些要点
14、企业网站设计文字
15、网站建设浅谈网站设计的核心是什么
16、HTML引入CSS的常见方法有哪些
17、网站优化新思维:如何让蜘蛛来适应我们呢
18、SEO技术站群的SEO优化
19、让用户对你网站不离不弃的三大法则
20、网页设计中7个用户体验要素
21、如何做网站的站外优化工作
22、如何进行一次全面的网站分析
23、商城网站建设常见的几种国内在线支付介绍
24、带你走进营销型网站SEO优化
25、端午节旅游网站建设该怎么做呢?
26、百度竞价做好关键词研究的重要性
27、深圳网站建设公司-有搜索的地方就有SEO的存在
28、浅谈黑链对网站有影响吗
29、做网站如何走在可持续发展的互联网路上(二)
30、易捷网络谈深圳网站制作,推动行业发展
31、企业官网如何进行后期维护打理
32、如何让你的网站受到百度的青睐
33、实用的整体SEO优化战略
34、网站开发需要注意哪些原则?
35、企业怎么做网络营销才能取得更好的效果
36、个人博客网站该如何打理运营
37、如何明确网站制作的重点
38、这样打开企业网站“建设+运营”的正确方法
39、解析新手SEO优化进阶之友情链接优化
40、提升网站优化技能,只需要突破几个难点
41、做网站怎么走在可持续发展的互联网路上
42、企业网站建设常见的三大误区
43、企业建设网站当以盈利为前提开展
44、seo优化技能:关键字选择
45、站长们:我们真的应该定时的“清理”下自己
46、企业在网站建设中的困局
47、还在为你们的关键词排名不稳定而发愁吗
48、怎样的网站建设才能获得用户认可?
49、学SEO需要多久
50、深圳网站建设专题页的设计和使用
深圳市易捷网络科技有限公司版权所有    粤ICP备2022153140号