推广 热搜: 行业  机械  设备    系统  教师  经纪    参数  蒸汽 

浅析如何设计一个内容推荐系统

   日期:2024-12-27     移动:http://changmeillh.xhstdz.com/mobile/quote/85836.html

  推荐的基础是数据,前两步挖掘了内容数据,第三步就是挖掘用户行为生成用户画像

1、采集:通常采用前端埋点的方式,上报用户的点击、分享、收藏等等行为。

  日志采集是数据挖掘非常重要的环节,如果采集有缺失或错误(很可能的事),那么后续不管怎么做都没有效果,同时前端的改动也可能影响日志,如果不有效协同,会对后端有很大影响。

2、传输:用于用户兴趣的收集,往往越快越好,这样用户的某个操作就能快速反馈到下一步推荐中,所以就需要日志的稳定传输和更新。

  但由于成本考虑,用户 profile 不是都能实时更新的,有的可能延时1小时,有的可能1天1更、一周1更,甚至更久。

3、挖掘:这一过程是将用户数据计算、挖掘处理成我们想要的特征(俗称“用户画像”,业内通常叫用户profile)。

  用户挖掘通常要与算法结合,而不能凭空挖特征,没有算法应用再牛逼的用户画像也是没有价值的。

4、存储:用户的兴趣在一段时间内不会变化太大,因此可以用用户长期留下的行为来积累用户画像,并需要把这些profile存起来。

  如果用户量很大,那么需要的存储资源也是海量的,那就需要一个能对大量数据进行分布式存储的数据库,并且需要可靠和廉价,例如 hdfs(Hadoop Distributed File System),如果想要实时计算用户兴趣,就需要可快速存取的数据库比如redis,所以购买服务器也是微博、今日头条等公司很大的开支。

  当然用户的兴趣不是一成不变的,因此用户兴趣需要随时间“衰减”,设置合理的衰减系数,对用户profile也很重要。

本文地址:http://changmeillh.xhstdz.com/quote/85836.html    物流园资讯网 http://changmeillh.xhstdz.com/ , 查看更多

特别提示:本信息由相关用户自行提供,真实性未证实,仅供参考。请谨慎采用,风险自负。


0相关评论
相关最新动态
推荐最新动态
点击排行
网站首页  |  关于我们  |  联系方式  |  使用协议  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  鄂ICP备2020018471号