背景

在所有有真实联络方式的线索中,合理的线索只占少数(感兴趣不等于一定会买),而真正能转化为交易的线索客户更是少之又少(就算我要买,也不一定非你不可),这时,如何从销售线索中取优就显得很有必要了。

销售线索的质量有高低之分是毋庸置疑的,但要比较准确的把好的销售线索筛选出来,随着大数据和人工智能的兴起,以数据为驱动的线索质量评级正变得越来越流行。不管是人工来给线索质量评级还是用机器来评级,高质量的销售线索总有一些常见特征,如下:

1、线索中的联系人对产品感兴趣或者有明确的购买意向

2、线索中的联系人对购买产品有决策权

3、线索包含的数据维度有助于帮助销售人员做后续的跟进和转化

4、线索转化成销售订单的成功率比较高

在这里插入图片描述

销售线索智能评分

销售线索智能评分主要依赖以下数据:

1、企业基本信息:企业的基本信息能初步判断客户的匹配度。主要包括企业规模、企业实力、企业成立时长、注册资金、公司性质、是否4A、信用等级、公司是否存在、企业邮箱是否正常、服务电话是否为空、人员规模等;

2、联系人画像:B2B通常是多人决策,小型公司的决策人数平均6-8人,大公司的购买决策高达20人以上。联系人在企业中的角色对销售线索转化十分重要 ,除了联系人的职务信息和关键操作行为(官网查看、自动化邮件点击、文档下载、营销内容查看、转发或退订等),还包括联系人在决策中的角色,联系人角色分为发起人、决策者、买方(管理采购过程人员)、影响者、使用者、门卫(负责公司信息流)等;

3、企业历史行为:基于历史成交画像动态评分持续判断客户的匹配度。主要包括企业近期的采购成交,如企业是否接触友商或者同类产品、最近是否购买了具有竞争力的解决方案、是否曾经购买我们的产品等

Read more »

汽车金融,是指以汽车厂商为核心,依附汽车产业上下游及终端客户环节所衍生的
各类针对各类信贷主体,如个人、公司和汽车经销商等的金融类产品。汽车金融作为一
种金融服务,主要服务提供者为商业银行、汽车金融公司和融资租赁公司等,服务参与
者还包括保险公司和第三方评估机构等。汽车金融产品,一般包括消费类汽车贷款、批
发类汽车贷款、经销商建店融资、经销商库存融资和附加品贷款(如保险、购置税及车
辆装潢等)。

信贷风险,是指借款人或交易对手无法按照事先订立的信贷协议履行还款等义务而
造成损失的可能性。对于消费信贷而言,借款人或因个人状态变化,如工作变更、收入
变动或健康状况等而导致其无法履行还款约定而造成贷款方损失。对于批发信贷而言,
企业或因人事变动、市场环境变更或经营情况改变等状况致使企业资金流动性出现问题
而无法履行还款约定而造成贷款方损失。

信贷风险又称违约风险,是指由于债务人或市场交易对手未能履行借贷
合同中的义务而给债权人造成经济损失的风险,即借款人不能如期履行还款付息的义务
而使汽车金融公司的实际收益与预期收益发生偏离的可能性,是汽车金融风险中的主要
类型。

![image-20210426163708036](/Users/tonywang/Library/Application Support/typora-user-images/image-20210426163708036.png)

![image-20210426163728825](/Users/tonywang/Library/Application Support/typora-user-images/image-20210426163728825.png)

基本信息模块中,主要包含人口统计信息变量和社会统计信息变量,包括客户自身属性状态和社会工作状态等一系列变量。

贷款信息模块中,主要包含贷款属性变量。

人行征信模块中,主要包含由银行版第一代人民银行征信报告所衍生的一系列变量,包括还款表现变量,信贷查询变量,公共缴费信息变量等。

第三方信息模块中,主要包含 A 汽车金融公司接入的一系列第三方征信公司外部数据,包括多方借贷数据变量,通讯工具信息变量和各类黑名单库。

尽管在实际建立风控模型的过程中,并不会将所有的特征变量一并纳入,但可供选择的特征变量越多,模型的表现性能会因变量选取的不同而得到提升。

Read more »

激活函数定义

在多层神经网络中,上层节点的输出和下层节点的输入之间具有一个函数关系,这个函数称为激活函数Activation Function(又称激励函数)。激活函数是一种添加到人工神经网络中的函数,旨在帮助网络学习数据中的复杂模式

在这里插入图片描述

激活函数是来向神经网络中引入非线性因素的,通过激活函数,神经网络就可以拟合各种曲线。如果不用激励函数,每一层输出都是上层输入的线性函数,无论神经网络有多少层,输出都是输入的线性组合。如果使用的话,激活函数给神经元引入了非线性因素,使得神经网络可以任意逼近任何非线性函数,这样神经网络就可以应用到众多的非线性模型中。

常见激活函数

Sigmoid

sigmoid非线性函数的数学公式是:

在这里插入图片描述

函数图像如下图所示。它输入实数值并将其“挤压”到0到1范围内,适合输出为概率的情况

在这里插入图片描述

Read more »

简介

最优化问题(英语:Optimization problem)在数学与计算机科学领域中,是从所有可行解中寻找最优良的解的问题。根据变数是连续的或离散的,最优化问题可分为两类:连续最优化问题与组合优化。

最优化方法的目的在于针对所研究的系统,求得一个合理运用人力、物力和财力的最佳方案,发挥和提高系统的效能及效益,最终达到系统的最优目标。

在机器学习领域有个普遍的观点:所有机器学习的问题最后都转换为了最优化问题

最优化问题举例:

在这里插入图片描述

作为一个经典的最优化问题,三个基本要素分别为:

  • 目标函数:最大化操场面积S, S = x * y

  • 参数值: 长x、宽y

  • 约束条件: x + 2y = 60

高中碰到过类似问题的话,应该记得当初的主要思路是:

  1. 把 y 表示成 x 的格式:面积 S = x*(60-x)/2
  2. 最大化S,相当于对x求导,求导数等于0的点
  3. 得到x= 30 , y = (60-x)/2 = 15, 最大的面积是450
Read more »

算法流程

Salesforce Einstein智能产品,主要包括两个方面,一方面是深度集成在Salfesforce产品中,开箱即用的AI应用,也就是作为销售云、服务云或商业云产品的一个模块。 另一个则是提供AI平台能力,包含了语音、图片、NLP、视频分析等,企业角色或开发者可以结合业务场景定制AI应用。上层的AI产品是高度依赖平台能力的。

从算法角度来看,Einstein平台对回归问题和分类问题均提供了解决方案,并将能力应用到产品中:

1、回归问题:销售预测、回款额预测、成单量预测、商机金额预测、账单预测等

2、分类问题:销售建议、接触客户渠道建议、时间点建议等

不论是回归问题还是分类问题,智能产品的目的都是为了将算法流程进行产品化,尽可能减少人工干预,通过简单的人机交互让普通业务人员能够很好地使用产品。当然了,在高级版本中,也可以支持数据专家或者业务算法人员自定义使用,下图是算法流程图:

在这里插入图片描述

算法数据依赖

业务数据大多分别存储在不同的数据仓库或逻辑表,算法需要构建特征宽表,因此数据侧需要支持多源数据关联整合,支持可视化数据分析最佳,类似Tableau功能。

算法框架

普通的机器学习算法采用一般采用Keras实现,对于深度学习算法模型大多在Tensorflow和PyTorch中二选一,如果需要简化部署流程,首选TensorFlow:

Read more »

QPS:Queries Per Second意思是“每秒查询率”,是一台服务器每秒能够相应的查询次数,是对一个特定的查询服务器在规定时间内所处理流量多少的衡量标准;

并发数是指系统同时能处理的请求数量,这个也是反应了系统的负载能力;

通过一个实例来把上面几个概念串起来理解。按二八定律来看,如果每天 80% 的访问集中在 20% 的时间里,这 20% 时间就叫做峰值时间。

  • 公式:( 总PV数 * 80% ) / ( 每天秒数 * 20% ) = 峰值时间每秒请求数(QPS)
  • 机器:峰值时间每秒QPS / 单台机器的QPS = 需要的机器数

1、每天300w PV 的在单台机器上,这台机器需要多少QPS?
( 3000000 * 0.8 ) / (86400 * 0.2 ) = 139 (QPS)

2、如果一台机器的QPS是58,需要几台机器来支持?
139 / 58 = 3

Read more »

推荐位效果的指标:

1、累计推荐次数:总计请求推荐展示次数

2、点击率:推荐位点击总数除以推荐展示量

点击率简单理解为点击次数/曝光量,转化率理解为转化人数/总人数。

点击率 = (productDetailView次数)/(累计[recommendResponse中recommend_items个数])

productDetailView事件中,origin_id和super_id不为空

3、加购率:加购人数/总推荐人数

加购率 = (productCartBuy次数,加购人数,按super_id去重)/(总推荐人数,按super_id去重)

4、收藏率:收藏人数/总推荐人数

收藏率 = (collection次数,收藏人数,按super_id去重)/(总推荐人数,按super_id去重)

Read more »

“猜你喜欢”、”看了又看”、”买了又买”等常见的推荐需求是推荐系统的标配,类似的还有”喜欢了A的还喜欢了”或”关注了这个还关注了”类似场景,文案不一样但本质是一样的,最经典的解决方案就是协同过滤算法。

有人说,如果做推荐系统不知道”协同过滤”,那等同于做程序员不懂得冒泡排序。
下图是推荐系统常见的算法,目前项目落地的有基于关联规则的FP-Growth算法,大厂主流排序算法都是基于模型的,但召回也会依赖于协同过滤算法。电商场景有例可循,Amazon 的物品的协同过滤推荐系统帮助他们提升了 35% 的销售额,天猫的个性化推荐提升的销售额也占到 30+%。

在这里插入图片描述

协同过滤算法主要分为基于物品的协同过滤和基于用户的协同过滤:

  1. 基于物品的协同过滤:给用户推荐那些和他们之前喜欢的物品相似的物品,基于物品的协同过滤首先计算相似物品,然后再根据用户消费过、或者正在消费的物品为其推荐相似的;
  2. 基于用户的协同过滤:根据所有用户对物品或者信息的偏好,发现与当前用户口味和偏好相似的”邻居”用户群,在一般的应用中是采用计算”K-邻居”的算法。然后,基于这K个邻居的历史偏好信息,为当前用户进行推荐。

协同过滤算法和基于关联规则算法对比:

  1. 协同过滤: 间接推荐,即先找到相似的人(user based),然后再根据品味相似的人的偏好进行推荐。适用于重个性化并且item非常多的场景。
  2. 关联规则: 直接的推荐,从整体的数据中挖掘潜在关联,与单个人的偏好无关,适用于item不多,并且非重度个性化的场景,如超市购物,汽车导购,交通规划等。

协同过滤的核心在于用户的喜好,它的数据集中一定有偏好的体现

关联规则最主要的就是频繁项的挖掘,然后从频繁集中生成关联规则,最后匹配待推荐项。

如果拿电商来举例,使用关联规则的数据集的特征就是购物车的消费组合,每一个用户得到的推荐就是整个系统的所有用户的消费组合中,包含该用户消费组合的出现次数最多的消费组合。

Read more »

追踪线上问题,看了一下推荐系统后台实现逻辑,发现几个问题。

RecallModel对应算法模型或者人工规则,doRecall根据模型类型按权重(LevelScore)对商品id进行赋值。

问题1:算法提供的商品排序权重丢失,包括相似算法、相关算法、复购算法、热榜算法等。

在这里插入图片描述

问题2:热榜数据作为保底推荐,跑了两次,商品排序权重再次被热榜覆盖。

在这里插入图片描述

问题3:不同模型如何保证重复商品的排序权重问题。

在这里插入图片描述

问题4:重排算法应该独立出去,移除随机排序。

在这里插入图片描述

Read more »

算法模块

数据智能项目工商信息推荐主要涉及两个算法模块:

1、单个工商企业相似企业推荐

2、多个种子工商企业相似企业推荐

工商信息跨多个租户,采用基于内容的多源信息相似度算法实现,考虑到工商实体的数量过亿,需要利用海量数据相似度计算算法,本方案采用了Annoy算法,也可选择其他tonK算法,如SimHash、Faiss算法、HNSW算法等。

解决方案

工商信息主要存储在业务方MySql中,需要定时同步企业的工商信息,涉及17个工商信息数据表格,采用COS文件按日期存储数据,算法端下载离线数据,将相似企业结果数据回传至COS,业务方定时同步结果至Mysql相似表格,后端OpenAPI实时查询结果,并根据规则或者策略进行重排。实际落地中,工商信息数据量较大,且大多数据字段与推荐业务场景无关,业务方会对数据做筛选,对脏数据和异常数据进行初步剔除,将有效数据合并上传。

在这里插入图片描述

相似算法实现

算法框架实现如下图所示,从COS获取工商信息数据,对数据进行清理、优化和格式化操作,对部分字段进行补全。特征主要包括连续特征、离散特征和文本特征三类:

连续特征:人员规模、注册资金、实收注册资金等

离散特征:公司类型、企业状态、省份区域等

文本特征:公司经营范围、抽查检查、工商公示等

Read more »