您现在的位置是:课程

推荐算法Rerank二次重排序

2023-07-03 15:20课程 人已围观

1、 课程咨询加老师助理微信:助理1微信: chenjinglei88 ,助理2微信: omf6757
2、 决定购买并想得到陈敬雷老师亲自指导(课程或自己项目难题均可)加老师微信: chenjinglei66

推荐算法Rerank二次重排序精品系列课(逻辑回归、GBDT、随机森林、神经网络、Learning to rank排序学习-ListWise-LambdaMART、加权公式):

一、课程优势

本课程有陈敬雷老师的清华大学出版社配套2020年10月新书《分布式机器学习实战》人工智能科学与技术丛书,
对应京东自营链接地址:item.jd.com/12743009.html

新书配合此实战课程结合学习,一静一动,互补高效学习!
加陈敬雷老师助理微信 chenjinglei88 或 omf6757 邀请进入【陈敬雷读书会交流群】,结识更多大牛一起互动探讨交流学习!
本课程由互联网一线知名大牛陈敬雷老师全程亲自授课,技术前沿热门,是真正的互联网工业级实战项目。

二、课程简介

       推荐的Rerank排序有几种应用场景,一个是离线计算的时候为每个用户提前用Rerank排序 算法算好推荐结果,另一个是在实时在线Web推荐引擎里做二次融合排序的时候。 但不管哪一种用到的算法是一样的。 比如用逻辑回归、GBDT、随机森林、神经网络等来预测这个商品被点击或者 被购买的可能性的概率,用的模型都是同一个,预测的时候是对特征转换做同样的处理。 一般封装一个通用方法供离线和在线场景调用。
有三种做推荐的Rerank排序的思想:
1.基于逻辑回归、GBDT、随机森林、神经网络的分类思想做二次排序
2.基于Learning to rank排序学习思想做二次排序
3.基于加权组合的公式规则做二次排序

我们这个系列课会全面深度讲解这三种实现方式:
1.基于逻辑回归、GBDT、随机森林、神经网络的分类思想做二次排序
做二次排序之前首先得有一个候选结果集合,简单来说,为某个用户预测哪个商品最可能被购买,不会把所有的商品都预测一遍,除非你的数据库所有商品总共就有几千个。实际上电商网站的商品一般都是多少万量级,甚至几百万SKU。都预测一遍的话,估计跑完都不知道什么时候。所以一般处理的方法都是在一个小的候选集合上产生的。这个候选集合你可以认为是一个粗筛选。当然这个粗筛选也不是你想象的那么粗,其实也是通过算法得到,精准度也是非常不错的。只是通过Rerank二次重排序算法把精准度再提高到一个台阶。至于推荐效果能提高多少,要看你在特征工程上、参数调优是不是做的好。但一般来说推荐效果能提升10%以上,就认为优化效果非常显著了。当然最高提升几倍也是有可能的。
更多内容和源码...
2.基于Learning to rank排序学习思想做二次排序
Learning to Rank排序学习是推荐、搜索、广告的核心方法。排序结果的好坏很大程度影响用户体验、广告收入等。排序学习可以理解为机器学习中用户排序的方法,是一个有监督的机器学习过程,对每一个给定的查询-文档对,抽取特征,通过日志挖掘或者人工标注的方法获得真实数据标注。然后通过排序模型,使得输入能够和实际的数据相似。
常用的排序学习分为三种类型:PointWise、PairWise和ListWise。
1)PointWise
单文档方法的处理对象是单独的一篇文档,将文档转换为特征向量后,机器学习系统根据从训练数据中学习到的分类或者回归函数对文档打分,打分结果即是搜索结果或推荐结果。
2)PairWise
对于搜索或推荐系统来说,系统接收到用户査询后,返回相关文档列表,所以问题的关键是确定文档之间的先后顺序关系。单文档方法完全从单个文档的分类得分角度计算,没有考虑文档之间的顺序关系。文档对方法则将重点转向量对文档顺序关系是否合理进行判断。之所以被称为文档对方法,是因为这种机器学习方法的训练过程和训练目标,是判断任意两个文档组成的文档对<D0C1,D0C2>是否满足顺序关系,即判断是否D0C1应该排在DOC2的前面。常用的PairWise实现有SVM Rank、RankNet、RankBoost。
3)ListWise
单文档方法将训练集里每一个文档当做一个训练实例,文档对方法将同一个査询的搜索结果里任意两个文档对作为一个训练实例,文档列表方法与上述两种方法都不同,ListWise方法直接考虑整体序列,针对Ranking评价指标进行优化。比如常用的MAP, NDCG。常用的ListWise方法有:LambdaRank、AdaRank、SoftRank、LambdaMART。
4)Learning to rank指标介绍
(1)MAP(Mean Average Precision):
假设有两个主题,主题1有4个相关网页,主题2有5个相关网页。某系统对于主题1检索出4个相关网页,其rank分别为1, 2, 4, 7;对于主题2检索出3个相关网页,其rank分别为1,3,5。对于主题1,平均准确率为(1/1+2/2+3/4+4/7)/4=0.83。对于主题2,平均准确率为(1/1+2/3+3/5+0+0)/5=0.45。则MAP= (0.83+0.45)/2=0.64。
(2)NDCG(Normalized Discounted Cumulative Gain):
一个推荐系统返回一些项并形成一个列表,我们想要计算这个列表有多好。每一项都有一个相关的评分值,通常这些评分值是一个非负数。这就是gain(增益)。此外,对于这些没有用户反馈的项,我们通常设置其增益为0。现在,我们把这些分数相加,也就是Cumulative Gain(累积增益)。我们更愿意看那些位于列表前面的最相关的项,因此,在把这些分数相加之前,我们将每项除以一个递增的数(通常是该项位置的对数值),也就是折损值,并得到DCG。
在用户与用户之间,DCGs没有直接的可比性,所以我们要对它们进行归一化处理。最糟糕的情况是,当使用非负相关评分时DCG为0。为了得到最好的,我们把测试集中所有的条目置放在理想的次序下,采取的是前K项并计算它们的DCG。然后将原DCG除以理想状态下的DCG并得到NDCG@K,它是一个0到1之间的数。你可能已经注意到,我们使用K表示推荐列表的长度。这个数由专业人员指定。你可以把它想像成是一个用户可能会注意到的多少个项的一个估计值,如10或50这些比较常见的值。
     对于MAP和NDCG这两个指标来讲,NDCG更常用一些。Learning to Rank和基于监督分类的思想做Rerank二次排序总体效果是差不太多的,关键取决于特征工程和参数调优。
更多内容和源码...
3.基于加权组合的公式规则做二次排序
听课获取... 

额外福利:
       加助理微信chenjinglei88邀请进入技术大牛交流群,和陈敬雷老师及各位大佬一起探讨交流技术问题,同时额外免费领取一门干货精品课。

三、老师介绍

陈敬雷  充电了么创始人,CEO兼CTO

陈敬雷,北京充电了么科技有限公司创始人,CEO兼CTO,中国首席数据官联盟专家委员 ,十几年互联网从业经验,曾就职于用友、中软、凡客、乐蜂网(唯品会)、猎聘网、人民日报(灵思云途)、北京万朝科技,曾任架构师、首席技术官、首席科学家等职务,对业务领域B端、C端、电商、职场社交招聘、内容文娱、营销行业都有着丰富的经验,在技术领域,尤其在大数据和人工智能方向有丰富的算法工程落地实战经验,其中在猎聘网任职期间主导的推荐算法系统项目获得公司优秀项目奖,推荐效果得到5倍的提升。

目前专注于大数据和人工智能驱动的上班族在线教育行业,研发了充电了么app和网站www.chongdianleme.com,用深度学习算法、nlp、推荐引擎等技术来高效提升在线学习效率。

四、《分布式机器学习实战》新书介绍及最新热点技术解密如下:
陈敬雷老师的京东自营书名标题: 分布式机器学习实战(人工智能科学与技术丛书)
新书京东自营链接(复制链接粘贴到浏览器访问): item.jd.com/12743009.html


  ****************好评如潮**************
本书作者陈敬雷曾在多家一线大型互联网公司任职,也有过技术创业的背景,经历过从0到1,从1从100的技术发展历程,尤其在AI、大数据、机器学习、深度学习等方面有很强的理论基础和实战经验。《分布式机器学习实战》包含了目前主流互联网公司所采用的大数据、AI方面的系统架构、中间件、工具、机器学习/深度学习算法等,内容由浅入深,全面详实,强烈推荐给读者!
                                                                                                                        ——陈兴茂 (猎聘CTO)

我读了这本书,有三点深切的体会,一、系统全面:本书把分布式机器学习的关键环节进行了系统化梳理,介绍了主流的技术和工具平台,同时对大数据技术也做了详细讲解,对内容的梳理全面丰富,是入门、参考、提高的有益工具书!二、深入浅出:通过大量的系统化讲课,配合丰富的素材、案例和实际操作场景介绍,可以说是不但授人以渔也同时授人以鱼!开卷有益!现学现用!活学活用!三、讲解清晰,思路明确:可以看出作者是有深厚的功底,是经过长期实践的经验总结,又融合了大量的最新结果,连同职业路径规划都详细做好,有此一书,是难得佳作!

        ——梅一多 博士(上海市青年拔尖人才获得者,阿里云最有价值技术专家,中基凌云科技有限公司联合创始人兼CTO)

《分布式机器学习实战》这本书非常贴近实战,含盖了目前各类应用场景的算法系统,对每个场景都有理论基础、源代码、算法解度等,深入浅出的讲解对于读者具有很强的实用性,做为大数据及人工智能领域的从业人员是必选的工具类参考书。

       ——杨正洪 博士(中央财经大学财税大数据实验室首席科学家)

此书的作者非常贴近实战,不“高来高去”讲一些宏观的概念,书中的每一个算法,每一个场景都是来自于当前的商业应用,对于读者来讲这是一本难得的实用宝典。

       ——刘冬冬(知名市场战略、生态系统和企业数字化转型专家,首席数据官联盟创始人,曾先后服务过统一集团、联想集团、百度、美国D&B集团、华为技术、海航科技集团等)

陈敬雷写的这本书理论联系实践,深入浅出,覆盖技术面广,并且有工业级的系统案例,包含目前比较热门的推荐算法系统、人脸识别、对话机器人等项目,对常见的大数据算法系统架构也做了详细讲解,是一本机器学习方面的佳作。本书不管是初学者、架构师、还是资深人士,都会开卷有益、有所收获。

                        ——龙旭东(北京掌游智慧科技有限公司董事长,曾任海航科技集团CTO和文思海辉董事,北京大学计算机系学士+硕士)

五、公司机构品牌介绍:

充电了么app是专注上班族职业培训充电学习的在线教育平台。

学习牛人的实际工作经验,专注职业技能提升,提高工作效率,带来经济效益!今天你充电了么?

功能特色如下:

【全行业职位】 - 专注上班族职业技能提升

覆盖所有行业和职位,不管你是上班族,高管,还是创业都有你要学习的免费视频和文章。其中大数据人工智能AI、区块链、深度学习是互联网一线工业级的实战经验。
除了专业技能学习,还有通用职场技能,比如企业管理、股权激励和设计、职业生涯规划、社交礼仪、沟通技巧、演讲技巧、开会技巧、发邮件技巧、工作压力如何放松、人脉关系等等,全方位提高你的专业水平和整体素质。

【牛人课堂】 - 学习牛人的工作经验

1.智能个性化推荐引擎:
海量免费视频课程,覆盖所有行业、所有职位,通过不同行业职位的技能词偏好挖掘分析,智能推荐匹配你目前职位最感兴趣的技能学习课程。
2.听课全网搜索
输入关键词搜索海量视频课程,应有尽有,总有适合你的免费课程。
3.听课播放详情
视频播放详情,除了播放当前视频,更有相关视频课程和文章阅读推荐,对某个技能知识点强化,让你轻松成为某个领域的资深专家。

【精品阅读】 - 技能文章兴趣阅读

1.个性化阅读推荐引擎:
千万级免费文章阅读,覆盖所有行业、所有职位,通过不同行业职位的技能词偏好挖掘分析,智能推荐匹配你目前职位最感兴趣的技能学习文章。
2.阅读全网搜索
输入关键词搜索海量文章阅读,应有尽有,总有你感兴趣的技能学习文章。

【机器人老师】 - 个人提升趣味学习

基于搜索引擎和人工智能深度学习训练,为您打造更懂你的机器人老师,用自然语言和机器人老师聊天学习,寓教于乐,高效学习,快乐人生。

【精短课程】 - 高效学习知识

海量精短牛人课程,满足你的时间碎片化学习,快速提高某个技能知识点。




 
-->

站点声明:一个联盟广告计划,旨在为网站提供一种通过广告和链接到Amazon.com.赚取广告费的手段。

Copyright © 2010-2011 ICP备案号:豫ICP备16025789号-3