转自:https://taozj.org/2016/04/%E6%8E%A8%E8%8D%90%E7%B3%BB%E7%BB%9F%E7%9A%84%E5%85%B8%E5%9E%8B%E6%8E%A8%E8%8D%90%E6%A1%88%E4%BE%8B/
一、电商
电商类的推荐,首推强大的亚马逊了,其讲求的是了解每个客户,针对客户个性化推荐。当打开自己的推荐列表的时候,不仅显示出推荐的内容、评分,还提供了与用户交互反馈式的方式:我拥有了、我不感兴趣、评分,甚至显示出给你推荐的理由,由此可见亚马逊推荐功能之强大,同时对自己的推荐系统之自信。当然我在亚马逊购物的东西还不多,亚马逊可用的信息应当包括购买记录、添加购物车历史、搜索历史、浏览历史等信息,甚至还包括你的购物趋势(Inspired by your shopping trends),当然还有那些Facebook等社交网络推荐、打包销售等还没能体会到。
作为海淘一族,下面是Amazon针对自己的推荐信息:引用亚马逊CEO Jeff Bezos:“We have 6.2 million customers, we should have 6.2 million stores. There should be the optimum store for each and every customer.”据称推荐系统给亚马逊贡献了20%~30%的收入,可见一个好的推荐系统比一般广告的收益率要高的多!国内的京东也在倡导数据化运营,为个人生成的购物基因还是蛮有意思的。二、影视
影视方面Netflix的推荐被传为推荐经典,源于其用100W刀悬赏推荐算法,并为此开放了户行为数据集(40万用户对2万部电影的上亿条评分记录),虽然这个悬赏活动早就结束了,但是开放的数据集吸引了大量机器学习学者,方便了很多推荐算法用于训练和测试模型。
这个网站在大陆居然可以访问,其原因是没有在大陆开展业务,所以出了个空壳你啥也看不到。YouTube的推荐还是可以体会到的,其根据用户的观看和Subscribe内容,为我推荐了大量生活大爆炸、袁腾飞等视频内容,当然还有很多不符合当地法律规定的内容。三、音乐
音乐电台在国内数十分的流行,上班的时候可以戴上耳机,当然不会刻意去欣赏和品味某些音乐,只是当作背景音乐罢了。作者介绍了三个典型的音乐电台:Pandora、Last.fm和国内的豆瓣,Pandora基于一个音乐基因工程(Music Genome Project)的项目,针对海量的曲库,让音乐家和工程师对音乐的各种特性(包括旋律、风格、节奏等信息)进行手动标注,称之为音乐基因,然后对用户的收听历史进行基于相似度聚类推荐;Last.fm是基于用户的收听历史和评价反馈,然后对那些相似兴趣的用户歌曲集向目标用户推送不再收听列表中的歌曲,可见Last.fm是使用当前推荐系统最流行的基于用户协同过滤的推荐方法;豆瓣的信息比较的少,使用过程中一方面用户点击喜欢、垃圾桶进行当前曲目的反馈,同时可以收听指定类型频道的音乐电台。
针对音乐推荐,或许可以考虑优化的因素还会很多,比如:音乐本身有频率、歌词等信息,可以考虑音乐本身属性的自动挖掘聚类;用户在工作、锻炼、休息的时候,心情和状态都不一样,最好能个性化推荐不同风格、节奏的曲目;用户注册的年龄、性别、学历、工作、地域等信息,对用户的品味影响比较大,对也是不错的参考源。四、社交网络
社交网络其实是个十分优质的数据源,因为他是个结构化的网络数据,可以不断地深层次挖掘,同时涉及到的内容也是丰富多彩而不会十分单一,可以从多个维度刻画目标用户的属性。
国内的新浪微博,一打开就是铺天盖地的广告,用户烦了便纷纷投向微信盆友圈求安宁去了,作为传统内容门户网站的新浪没有这方面的基因,形式太过于简单粗鲁;百度贴吧每隔两三楼就插播一个广告,看的人也是醉了;优酷一分多种的视频广告超过30秒,热点视频甚至更久,所有视频的广告内容基本一样,尤其那种游戏类的广告声响大的要死,直逼用户的心理底线;各大门户网站就更不用说了,什么顶端、底端、侧面都布满了,还要给你来个浮动的,弹窗的。这些网络运营商,或许他们只管卖固定价格的广告位,于是拼命建立更多的广告区域,也没考虑过精细化广告运营和广告实际的转化率。这里倒是还有个段子,说是新浪微博的好友推荐系统,对于用户A的好友B和C,系统把B和C进行好友互推,导致的结果就是:A的老婆和A的小三认识了,或者A的女友和A的前任认识了。虽然这种情况在现实中出现的概率不会太高,但是后果很严重,至少也说明了推荐问题可以做的很简单,但是要实现精准的推荐也不是件简单的事情,比如对A和B以及A和C的交流信息做深层次的文本挖掘或许可以解决上面这种尴尬。五、聚合阅读
聚合阅读的话,偏执点的程序员会自己搜集个人喜好的RSS订阅(以前自己居然用过USENET),而普通大众手机端最流行的莫过于今日头条了(我的好几个朋友反对,说标题党信息太多)。虽然现在已经卸载了,但基于以前的使用经验,他会给每篇文章打几个TAG,当用户不喜欢的时候,可以选择原因,包括内容性质的TAG(比如某个明星),或者评价类的TAG(比如内容质量差),借此实现个性化的推荐。
目前个人的新闻阅读方法都是讲RSS烧录到,然后他会自动收集新闻然后发送到我的邮箱中,并且是免费使用的。大家不要声张,希望这个好东西能存在的长久点。目前的问题是每日推送的有点多,而且有些是重复的,ThunderBird上要是能搞个插件,排重后优先把我感兴趣的复制一份到某个目录就方便多了。六、广告
广告投放不得不提Google Ads了,其算是Google的命脉,所以也极为的重视,Google Ads算是一个联盟,你可以选择将Google的广告挂在自己的网站上,当有点击的时候,Google会给你相应的收益。Google Ads对广告把控的算是比较严格的,当时自己作弊点击,被Google发现后取消了广告收益,因此Google对广大广告投放者来说还是比较负责人的。
这里还有个段子,说的是有个哥们处于好奇在淘宝网,结果一个多月他打开新浪微博的时候,就给他推介寿衣、骨灰盒寿衣之类的。当然上文的重点偏向了用户隐私和数据贩卖,但在中国应当习以为常了吧,广大网民基本都是裸奔,在国外的话,也有专门做这个的公司,叫做,目前已被Orale收购,针对企业客户,他们会给企业提供的数据做分析,然后给出广告投放的个性化方案。如果只是这个,还不算牛逼的,他做了个数据Market,有客户数据的公司可以把数据卖给他,他们对数据进行清洗(最主要把涉及用户隐私的部分抹掉)、加工之后,对于有需要的公司可以买下和自己胃口的用户,将广告定向投放给他们。想想都是一件不可思议的壮举!七、其它
推荐系统表面看就是给出一些信息,可以做的很粗放,也可以做的很精细,其必须考虑到客户需求和商家(包括第三方商家)利益之间能够最大化。比如长尾效应和马太效应,前者在关注重点客户主流需求的同时,也可以挖掘潜在个性化客户,往往会有的更大的增长空间;后者可以维持公平竞争兼顾扶植一些成长型的客户;对于客户,你可以准确推荐,也可以给用户多样化推荐,甚至给用户“惊喜/尝试”型推荐,总之一切尽在细节之中!