谈谈“推荐系统”和“搜索引擎”两者间的关系、和异同点
只依赖最热门内容的另一个不易察觉的危险是潜在用户的流失:因为只依赖爆款虽然能吸引一批用户(简称A类用户),但同时也悄悄排斥了对这些热门内容并不感冒的用户(简称B类用户),按照长尾理论,B类用户的数量并不少,并且随时间推移A类用户会逐步转变为B类用户(因为人们都是喜新厌旧的),所以依靠推荐系统来充分满足用户个性化、差异化的需求,让长尾内容在合适的时机来曝光,维护企业健康的生态,才能让企业的运转更稳定,波动更小。 评价方法的异同搜索引擎通常基于Cranfield评价体系,并基于信息检索中常用的评价指标,例如nDCG(英文全称为normalized Discounted Cumulative Gain)、Precision-Recall(或其组合方式F1)、P@N等方法,具体可参见之前发表于InfoQ的文章《怎样量化评价搜索引擎的结果质量 陈运文》。整体上看,评价的着眼点在于将优质结果尽可能排到搜索结果的最前面,前 10 条结果(对应搜索结果的第一页)几乎涵盖了搜索引擎评估的主要内容。让用户以最少的点击次数、最快的速度找到内容是评价的核心。 推荐系统的评价面要宽泛的多,往往推荐结果的数量要多很多,出现的位置、场景也非常复杂,从量化角度来看,当应用于Top-N结果推荐时,MAP(Mean Average Precison)或CTR(Click Through Rate,计算广告中常用)是普遍的计量方法;当用于评分预测问题时,RMSE(Root Mean Squared Error)或MAE(Mean Absolute Error)是常见量化方法。 由于推荐系统和实际业务绑定更为紧密,从业务角度也有很多侧面评价方法,根据不同的业务形态,有不同的方法,例如带来的增量点击,推荐成功数,成交转化提升量,用户延长的停留时间等指标。 搜索和推荐的相互交融搜索和推荐虽然有很多差异,但两者都是大数据技术的应用分支,存在着大量的交叠。近年来,搜索引擎逐步融合了推荐系统的结果,例如右侧的“相关推荐”、底部的“相关搜索词”等,都使用了推荐系统的产品思路和运算方法(如下图红圈区域)。 在另一些平台型电商网站中,由于结果数量巨大,且相关性并没有明显差异,因而对搜索结果的个性化排序有一定的运作空间,这里融合运用的个性化推荐技术也对促进成交有良好的帮助。 搜索引擎中融合的推荐系统元素推荐系统也大量运用了搜索引擎的技术,搜索引擎解决运算性能的一个重要的数据结构是倒排索引技术(Inverted Index),而在推荐系统中,一类重要算法是基于内容的推荐(Content-based Recommendation),这其中大量运用了倒排索引、查询、结果归并等方法。另外点击反馈(Click Feedback)算法等也都在两者中大量运用以提升效果。 作者:陈运文,达观数据CEO (编辑:西安站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |