官方服务微信:dat818 购买与出租对接

电商搜索系统业务及召回分析,页面展示依据你知道吗?

4万

主题

2

回帖

12万

积分

管理员

积分
125064
发表于 5 小时前 | 显示全部楼层 |阅读模式
    01 排序的场景模型

    前文探讨了电商搜索系统的业务逻辑以及召回分析器和模型的运作机制,举例来说,当用户在淘宝应用中输入“2021年新款花式促销女士连衣裙”作为搜索词时,系统会借助分析工具和各类模型来把握用户的搜索目的,从而实现商品检索功能,这个系统的原型将在后续的“电商搜索系统深度解析三部曲”中提供给读者。

    那么,要探究一个问题,当用户输入“2021年新款花式促销女士连衣裙”进行检索时,网页呈现了怎样的内容,又为何会以这种方式呈现?其背后的依据是什么,请参考下图所示。

    这个就是我们今天要去讲的内容,往下看:

    在分析这块的内容之前,同样,我依然举现实生活中的场景模型:

    该公司产品主管A正在寻找经验丰富的教育平台领域产品专家,于是在BOSS直聘的职位说明中特别添加了关于教育平台领域经验的任职条件,因此吸引了一批应聘者前来参加面试

    此刻,假如你担任这家企业的产品主管,你会做出怎样的决定?请先不要翻阅后续内容,先自行琢磨。

    这个问题的解答其实并不复杂,你肯定是根据该职位的条件来挑选的,那么究竟什么样的条件才算合格,又该以什么作为标准?身为产品总监,你具体会如何考察这四位应聘者呢?

    当前部分企业已引进网络招聘平台,人力资源部门与产品主管将四位应聘者的面试情况通过书面形式直接存入该平台,系统会生成一个推荐评分,此评分供产品主管和人力资源人员用于决策参考,即便没有网络招聘平台也无需担忧,最基础的做法就是采用人工方式,填写面试考核表格,人工进行评分,但这种方式的结果往往更具主观性。

    因此,需要对每位应聘者进行评分,然后依据分数高低对B、C、D、E四位应聘者进行排名,确定第一至第四的位置,最终从中选拔出合适人选。

    好的,先谈谈选拔人才的流程,再琢磨一下,我们每年选拔大学入学生的过程,是不是也运用了类似的方法来挑选最优秀者,相同的模式,我们试着转移到网络平台,运用在商品推荐排序上,然后继续探讨:

    那个情况就产生了疑问,相同的场景模型部署到线上,就会牵涉到对筛选出的商品如何评定分数的问题,这是关键,人脑能够进行主观评估,但机器既无视觉器官也无感知系统,无法像人类那样进行思考,因此我们的任务就是向其提供一系列的评分准则,机器便可以评定分数,能够对筛选出的商品进行排列,借此达成我们的目的,下面我们探讨排序的方法。

    02 排序策略

    记得浙江卫视曾有个名为中国好声音的节目,电视上展示的歌唱者都需先经历初步筛选,再经多轮选拔才能登上电视舞台表演,对吧。倘若没有初选环节,所有报名者都能直接在电视上献唱一段,那一定会让浙江卫视的员工不堪重负吧。因此参赛者必须通过初选,接着逐级比拼,每过一关都需成功晋级,最终选拔出百名表现突出的选手参与电视歌唱赛事。

    我们运用相同的策略,首先筛选出召回的商品,因为这个数量级相当庞大,然后进行二次筛选,业内很多人把第一次筛选叫做初步筛选,因此召回的商品需要先经过初步筛选,通过初步筛选把可能符合用户需求且质量较好的商品(比如有一万个)全部挑选出来,接着对这些商品进行优化,即对一万个召回商品进行精选排序,最后将选出的前1000个商品(仅为举例)进行排序并展示给用户。

    搜索引擎对检索效率有很高标准,因此必须运用两个步骤的排序机制:初步筛选和最终排序。初步筛选相当于前面提到的广泛选择,能从搜索数据中迅速识别出优质物品,挑选出排名靠前的N个对象,然后借助最终排序进行评分,最后向用户呈现最佳选项。通常在检索系统中,初步筛选对运作效率影响显著,深度排序对最终结果作用突出,所以,初步筛选需力求精简高效,仅从数据表中选取核心要素(属性)即可,核心环节在于评分机制如何实施,接下来将阐述常见的计分方法

    我们首先引入一个新的概念—-表达式计算法

    所谓表达式计算法,就是用各种计算方式来测算被检索到的物品和用户需求之间的关联程度,这种关联程度在某种程度上就是评定的分数,业内通常把这个步骤叫做关联评分,常用的计算方式有基础运算,例如加减乘除、大小比较、真假判断、二进制操作、特定条件判断,还有数学函数和排序指标等。

    基本运算:

    数学函数:

    这两个函数十分基础,属于高等数学范畴,因此不作详述,接下来将探讨先前提及的粗排常用函数(以天猫搜索为例):

    关键词相似文本分Text功能,旨在衡量用户输入的词语与检索到的商品之间的关联程度,数值越高,表明关联性越强。

    计算商品被召回后与当前时间的间隔,这个函数的输出通常介于零和一,数值越高,说明商品距离当前时间越短,越有可能在用户界面上获得更多展示机会

    分类估算方法:旨在衡量顾客提供的词语和商品分门的相似程度,对于分类估算部分必须详尽阐述:

    所谓商品归类,就是借助机器的计算方法,对搜索的用语和售卖的物品进行预判,分析它们之间的关联性,从而得出相应的结论,这个过程就叫做类目预测,通过这种方式能够更好地匹配用户的需求和商品的特性,提高搜索的精准度,让用户能够更快地找到想要的商品,同时也帮助商家更好地推广自己的产品,增加销售的机会,整个过程是自动完成的,不需要人工干预,依靠的是算法的强大功能,能够快速地处理大量的数据,找出其中的规律,从而进行预测,这种预测的结果是非常准确的,能够帮助用户和商家都获得更好的体验,所以说类目预测是一个非常重要的技术,值得深入研究和应用。

    商品分类的关联性,我们可以通过一个案例来说明,比如当顾客在淘宝软件的查找区域键入“苹果”这个字词,系统就会评估物品的归类和输入的苹果字词之间的紧密程度,物品归类和字词的紧密程度越强,该物品就能得到越大的排名权重,也就是前文提及的关联评分就会越高,因此这个物品就会展示在更靠前的位置,通过后边展示的这两个画面,就能更加明白这个道理:

    第一张图:检索词为“苹果”,既包含手机等物品,也涉及食物等物品,左侧图像展示了未应用分类预测模型评分的情况,导致食物类苹果被错误检索并置于前列,右侧图像则呈现了应用分类预测模型后的评分排序结果

    用户输入“苹果”,系统检索到一系列商品,其中部分属于“手机类”,另一些属于“食物类”。通过分析海量用户的搜索习惯,发现搜索“苹果”时,选择“手机类”商品的用户比例显著高于选择“食物类”商品的用户比例。基于此,系统会判定“手机类”与“苹果”的关联性强于“食物类”与“苹果”的关联性。在评估商品匹配度时,“手机类”商品的得分会高于“食物类”商品。因此,“手机类”商品将获得更靠前的展示位置,从而提升了搜索体验的整体效果。

    因此制作产品模型时,要思考搜索词与商品分类的匹配度,必须在模型构建中,融入品类预判的机制设计。

    回头审视,先前所述,排序首先需执行广泛筛选,即初步排序,然后针对初步排序后的商品信息实施细致调整,关于广泛筛选已阐述,细致调整如何实施?

    运用特定的方法来衡量搜索词语和商品之间的关联程度,惯用的方法包括:

    文本相关度函数:

    地理位置相关性:

    时效性:

    算法相关性:

    功能性:

    这个函数无需深入探讨具体内容,只需阅读其说明文字即可,这样有助于大家掌握和吸收,明白精准排名的评分方式是怎样计算的,以及从哪些方面进行统计,要是还有不清楚的地方,可以和我一起探讨。

    现在大家肯定想知道,为什么商品热度没被提及,别急别急,下面,我们将探讨搜索热度高的商品通常如何排列,并引入一个新方法——人气模型。

    那个先前提到的分类预测模型需要即时运算,而人气模型则适合在非实时状态下处理数据,通常称作非实时处理模型,此类模型也是淘宝和天猫搜索最核心的排序算法基础。

    模型能够评估每件物品的基础特性及受关注水平,这个数值称作物品热度指数,该模型最初应用于淘宝的检索功能,但同样适用于其他检索环境,在非商品检索情境下,该模型也能判定索引内容的受关注程度,例如某个社区,借助模型可对讨论量大的主题进行排序,优先向用户呈现这些主题的内容

    一个商品的热度究竟如何确定,这个人气模型的具体运作方式是什么呢,毕竟系统运用这个模型来衡量商品受关注程度,然后进行评分和排列,这是它的主要任务,没错吧

    一般情况下,人气模型从四个维度去计算分值,具体如下:

    第一个维度:实体维度;

    比如:商品、品牌、商家、类目等。

    第二个维度:时间维度;

    比如:1天、3天、7天、14天、30天等。

    第三个维度:行为维度;
您需要登录后才可以回帖 登录 | 立即注册

Archiver|手机版|小黑屋|关于我们

Copyright © 2001-2025, Tencent Cloud.    Powered by Discuz! X3.5    京ICP备20013102号-30

违法和不良信息举报电话:86-13718795856 举报邮箱:hwtx2020@163.com

GMT+8, 2025-9-2 14:40 , Processed in 0.097247 second(s), 17 queries .