目前AI实验室产品推荐系统仅面向好孩子电商场景,只是AI场景中的一小部分。要打造行业解决方案,可以参考4paradigm产品行业解决方案:

1、智慧银行:助力银行实现数智化银行战略转型发展,拓展全业务领域、全渠道、全流程的AI规模化应用。

(1)精准营销。通过人工智能模型应用,在线上、线下各业务渠道对客户开展有针对性的精准化营销,提升营销成功率,减少对客户的打扰。

(2)实时反欺诈。依托于业内领先的机器学习、自然语言处理、图关系、知识图谱等技术构建AI智能反欺诈大脑,全面覆盖欺诈和信用风险业务场景。

(3)智能反洗钱。通过AI反洗钱技术大幅降低反洗钱合规领域的人力成本,识别可疑案件,辅助分析和报送,解决反洗钱机构“漏报”和“多报”问题。

(4)运营优化。结合机器学习、知识图谱、自然语言处理等技术,实现对公业务运营优化管理,服务营销商机挖掘、企业授信、风险传导预警等业务场景。

2、智能保险:实现从营销、投保、理赔到保全的全流程管理。

(1)保险客户在线化智能运营。帮助保险公司与经纪代理公司完成线上化营销转型。同时辅助代理人获取更个性化的产品推荐信息。

(2)智能核保/核赔。依托机器学习平台的强大算力,提供核保/核赔阶段风险分类模型,对高风险进件快速审核和分类。

(3)智能化健康管理方案。提供从医疗单证识别、慢性病知识库到健康管理产品的全流程健康管理方案。

(4)车险智能定损。利用 CV技术,完成车辆损坏部位自动识别与定位。并依靠机器学习模型完成定损与理赔风控管理。

3、智慧零售:帮助企业提升“人货场”全面智慧化管理水平,达到新零售降本增效的目的。

(1)精准营销。通过智慧零售AI技术的运用,精准的建立360度客户画像,对消费者的需求进行预测,并提供“千人千面”的个性化商品推荐,促进销售转化、提升新零售销售业绩。

(2)智能运营。从门店选址、智能选品、智能定价等各个运营环节的智慧化入手,助力企业提高运营效率,降低对高成本人才的依赖性,实现既标准又智能的智慧零售运营管理。

(3)智慧供应链。以消费者需求洞察为导向,结合AI技术预测销量,新零售实现灵活生产、分发、补货配货、降低库存损耗,降低企业成本。

(4)智能客服。高效、高质量地满足消费者商品咨询、自助购物等需求,大幅提高消费者满意度、提升店铺询单转化率、节省客服人力成本。

4、智慧医疗:实现医疗医药企业全链路的智能化转型。

(1)慢病风险预测。基于领先的AI技术和全球最大最新的代谢性疾病样本库,建立中国慢性病高精准筛查系列产品,可同时对心脑血管、心血管、脑卒中、糖尿病和高血压5种常见高发慢性疾病进行风险评估。

(2)疫情推演系统。利用强化学习、环境学习等决策类AI技术构建数据驱动的省市区县级新型冠状病毒传播数字孪生系统,推演不同管控方案对疫情趋势的影响,为制定科学有效的复工复产方案提供有效参考。

(3)新生儿体重预测。利用自动机器学习技术训练出大规模机器学习预测模型,用以辅助无ML基础的医师进行新生儿体重预测,对指导生产方式等方面提供重要参考。

(4)胰腺癌术后生存分析。利用自动GBDT算法调参等技术训练出大规模机器学习预测模型,预测精度提高12%,为手术决策提供有利参考。

5、智慧制造:智慧制造从实时生产的每个零件中学习,从产线运转的每台机器中洞察,人工智能帮助未来工厂从数字化到智能化。

Read more »

AI 智能预测

运营给出活动商品,预测推荐转化率高的人群,这类商品找人的算法是运营类推送的一个衍生类型(算是一半人工一半算法),通常是人工选取要推送的商品或活动,算法帮忙计算推送的人群。相对于人工圈选的人群更加精准,从而push的点击率通常也较高。人工通常是使用单维度去圈选人群,例如近期浏览过某一品类的人,或是最近有加购某品类行为的用户,算法则通过多维度,例如近期浏览、加购、搜索等,每一类行为都赋予了不同的权重,因此选取的用户和商品匹配度更高。

业界方案

业界相关方案主要与程序化广告中人群定向相关,方法基本都是Look-alike人群扩散,具体有以下几种:

1)标签扩散:根据已有目标用户画像,给用户打各种标签,再利用标签找到机会人群;

2)基于标签的协同过滤:在标签扩散的基础上,采用基于用户的协同过滤算法,找到与种子人群相似的机会人群;

3)基于社交关系的扩散:以具有相似社交关系的人也有相似的兴趣爱好/价值观为前提假设,利用社交网络关系进行人群扩散;

4)基于聚类的扩散:根据用户画像或标签,采用层次聚类算法(如BIRCH或CURE算法)对人群进行聚类,再从中找出与种子人群相似的机会人群;

5)目标人群分类方法:以种子人群为正样本,候选对象为负样本,训练分类模型,然后用模型对所有候选对象进行筛选。

结合现有的数据资源与产品实现难度,基于标签扩散的方法可以解决现有问题,后续如果能够拿到社交关系的数据或其他补充数据,可以在标签扩散基础上继续优化,采用聚类或者半监督学习(只有正类和无标记数据)的方式对比优化效果。

Read more »

RFM是用于分析客户价值的方法,通常用于数据库营销和直销。RFM模型通过客户的近期购买行为、购买的总体频率以及花了多少钱三项指标来分层客户,运用各类运营手段提高不同类型的客户在产品中的活跃度、留存率和付费率,提升用户忠诚度和复购率,促进营收增长。

RFM的含义

R(Recency)最近一次消费时间:表示用户最近一次消费距离现在的时间。消费时间越近的客户价值越大。1年前消费过的用户肯定没有1周前消费过的用户价值大

F(Frequency)消费频率:消费频率是指用户在统计周期内购买商品的次数,经常购买的用户也就是熟客,价值肯定比偶尔来一次的客户价值大

M(Monetary)消费金额:消费金额是指用户在统计周期内消费的总金额,体现了消费者为店铺创利的多少,自然是消费越多的用户价值越大

针对电商行业,我们也可以将R、F、M细分人群,辅以不同的推广策略:
在这里插入图片描述

RFM最终的目的就是帮助提高运营效率和产出价值。基于RFM的得分评估所有会员的价值度价值,并可以做价值度排名。同时,该得分还可以作为输入维度跟其他维度一起作为其他数据分析和挖掘模型的输入变量,为分析建模提供基础。

落地方案:

1、数据准备:以电商为例,获取客户注册日期,最后购买日期以及购买消费总金额

2、生成RFM特征数据:

​ R 客户最近一次成交距离当前的天数

​ F 客户月平均购买次数

​ M 客户月平均消费额

3、训练K-Means模型:K-Means算法是无监督的聚类算法,聚类效果较优,原理简单收敛速度快

Read more »

AI+CRM解決的仍然是以信息技术为手段,有效提高企业收益、客户满意度和员工效率。集成到 CRM 工具中的主要 AI 场景有:

1、潜在客户挖掘:通过聊天机器人和电子邮件机器人来了解潜在客户的需求,并通知销售团队,通过机器人获得新的商机;

2、客户情绪分析:了解客户的情绪对于建立销售信任至关重要。通过电话数据分析进而评估客户情绪、呼叫有效性、

关键响应点,有助于提高销售效率。

3、内容页优化:通过自然语言处理,获取客户兴趣,自动生成个性化的电子邮件、评论和客户报告。用于销售人员准备特定产品、社交媒体帖子和新闻描述等。

4、推荐系统:CRM系统能够更好地管理客户数据,推荐系统则可以根据客户需求提供个性化的推荐,根据客户的性别、年龄、地区、历史足迹等特征推荐产品,提升销售额。

5、行为预测:根据现有数据,预测用户未来行为,提供有关销售的见解,便于企业制定销售计划。

6、客户评分:潜在客户评分,分析客户属性、历史数据、行为等对客户转化意向进行评估。

7、流失预测:通过客户数据分析特定模式,并确定客户流失的原因和流失概率,便于采取具体行动来有效减少客户流失。

Read more »

算法建模

SCRM项目智能话术推荐当前版本主要涉及以下两个算法模块:

1、相似问题推荐:

输入:什么时候发货?

输出:啥时候发货、亲几时发货、亲什么时候发货、什么时候发货啊、什么时候给我发货、这个什么时候能发货

2、句子相似度计算:

输入1:给我推荐几款热销产品

输入2:发货周期多久、推荐几款产品、有没有推荐的

输出:[推荐几款产品, 0.895]、[有没有推荐的, 0.848]、[推荐几款产品, 0.583]

解决方案

主要有三种解决方案:

1、基于简单算法计算相似问题:两次翻译、同义词替换、交互语法树等;

2、预训练模型和微调的方式:Bert、SimBERT、SimBERTv2、GAN网络等;

3、微信对话开放平台:OpenAPI调用;

方案1:开发成本和维护成本相对较低,主要缺点是效果有一定限制;

Read more »

基于商品的重排算法主流方案包括基于特征工程的CTR算法和用户标签的画像算法,结合好孩子当前的业务和算法平台建设条件,优先采用基于用户标签的智能重排算法。主要的思路如下:

用户对不同标签的商品操作代表用户对该标签的偏好度,即标签的权重。比如购买的权重大于购物车的权重,每个用户的兴趣偏好就可以表示为一个向量,向量的维数是所有标签的数量。向量中某个非零分量代表用户对这个标签的兴趣,而分量的大小代表的是用户的兴趣偏好大小。

1、生成所有的标签维度,从MySQL商品表中获取,如标签集为[三轮车,内衣,卫浴类,哺育,外出服]等;

2、读取ClickHouse事件(三个月),根据配置权重,生成标签向量,如 userA [10,11,20,25,8] userB [20,11,10,24,98];

3、将用户标签向量数据存储至Redis;

4、线上请求格式为(userA,Set(item)),根据userA检索Redis获取标签向量,标签ID转换,得到商品标签权重,排序后返回商品集。

注意点:

1、好孩子数据字段映射关系需要关注,style_num_id为商品的唯一标识,商品标签维度参考表mdms_p_catelog_pty1中的pty1_name;

2、不同的事件权重具有差异性,且需要考虑时间维度,即用户一周内的购买大于一月内的购买,要区分用户近期的兴趣;

3、线上服务部署需要考虑性能,根据数据量大小选择具体的线上方案;

4、用户标签向量更新任务和线上任务分离,后续考虑增量更新用户标签或者实时更新用户标签。

Read more »

Salesforce-Einstein

Einstein 通过统计建模和机器学习来识别、展现和可视化对业务数据的见解,从而增强业务智能。

场景一:Einstein得分

Einstein 得分帮助销售确定潜在客户和业务机会的优先级,以便重点关注最有可能转换并完结的内容。主要包括潜在客户得分和业务机会得分:

Einstein潜在客户得分:使用 AI 为潜在客户打分,可让销售团队通过潜在客户得分确定潜在客户的优先级。

Einstein业务机会得分:系统会为每个业务机会评分,从 1 到 99,并适用于业务机会记录和列表视图。业务机会得分也可在预测功能中使用,也可以在BI种作为字段使用。

场景二:Einstein见解

通过有关客户和业务机会的智能信息,使销售具有优势。包括业务机会见解和客户见解:

Einstein 业务机会见解:获取有关业务机会的相关更新,以便可以赢得更多交易。业务机会见解包含最有可能赢得哪个交易的预测、跟进提醒,以及交易出现重大时刻的通知。

Einstein 客户见解:可让人工智能帮助您保持与客户的关系。通过 Einstein 客户见解,团队可以随时了解影响与客户关系的关键业务发展。

Zoho-Zia

Zia是一个基于AI的数据分析产品,Zoho Sheet 提供由AI人工智能技术驱动的数据助理 Zia,可帮助进行智能数据分析。人工智能助手Zia 可推荐图表,或根据您的数据进行汇总,以便您能够通过简单的拖放操作添加到电子表格中。

Read more »

背景

发表在《自然》杂志上的封面文章报告称,AI 在赛车对战游戏 Gran Turismo(GT赛车)中战胜了世界冠军级人类玩家。这款游戏收录了超过 50 条赛道,超过 1000 款车型,可谓汽车博物馆

这个 AI 程序名为“Gran Turismo(GT)Sophy”,是一种神经网络驱动程序,它在遵守赛车规则的同时,展现出了超凡的行驶速度、操控能力和驾驶策略。

赛车人工智能对来自不同汽车、赛道、驾驶员、天气和对手的无数变量提出了更复杂的推理需求。作为最逼真的驾驶模拟器之一, GT Sport 使用真实的赛车和赛道尺寸,通过考虑空气阻力和轮胎摩擦等因素再现比赛环境。

据报道, GT Sophy 在短短几个小时内就学会了绕道而行。在大约两天的时间里,它可以击败大约 95% 的人类玩家。给它 10 到 12 天,大约 45 , 00 个驾驶小时, GT Sophy 就等于或超过了世界顶级车手。

研究人员认为,此项成果或让赛车游戏变得更有意思,并能提供用来训练职业赛车手和发现新赛车技巧的高水平比赛。这种方法还有望应用在真实世界的系统中,比如机器人、无人机和自动驾驶汽车等。

场景

1、计时赛:最短的时间到达终点

2、竞技场:挑战对手,击败对手

在这里插入图片描述

Read more »

多模态匹配

两个商品的名称各异(如iPhone 和苹果), 但是它们的图像往往是相同或相似的,为此考虑引入商品的图像信息来进行辅助聚合。以计算商品相似度为例:

在这里插入图片描述

将商品的名称和图像分别通过文本编码器和图像编码器得到对应的向量表示后,再进行拼接作为最终的商品向量,最后使用余弦相似度来衡量商品之间的相似度。

文本编码器:使用文本预训练模型 BERT作为文本编码器,将输出平均池化后作为文本的向量表示

图像编码器:使用图像预训练模型 EfficientNet作为图像编码器,提取网络最后一层输出作为图像的向量表示

EfficientNet模型

EfficientNet是一种先进的卷积神经网络,由谷歌在2019年的论文“efficient entnet: Rethinking Model Scaling for convolutional neural Networks”中训练并发布。EfficientNet有8种可选实现(B0到B7),甚至最简单的EfficientNet B0也是非常出色的。通过530万个参数,实现了77.1%的最高精度性能。

EfficientNet作者希望找到一个可以同时兼顾速度精度的模型放缩方法,而提高模型性能基本从下面三个维度考虑:网络深度网络宽度图像分辨率。如 ResNet-18 到 ResNet-152 是通过增加网络深度的方法来提高准确率,通过深度增加来提取更多复杂的特征,提取的信息更为丰富。GoogLeNet的Inception结构则是通过增加宽度来提高准确率。作者认为深度、宽度、分辨率这三个维度是互相影响的,三者需要达到一个平衡,要探索出三者之间最好的组合,最后提出了EfficientNet,它是第一个量化三个维度之间关系的网络。

网络深度——神经网络的层数
网络宽度——每层的通道数
网络分辨率——是指网络中特征图的分辨率(如224×224)

EfficientNet模型的调参示意图:

Read more »

简介

MADlib 是一个基于 SQL 的数据库内置的开源机器学习库,具有良好的并行度和可扩展性,有高度的预测精准度。MADlib 1.14 可以与 PostgreSQL、Greenplum 和 HAWQ 等数据库系统无缝集成。

通常 SQL 查询能发现数据最明显的模式和趋势,但要想获取数据中最为有用的信息,需要的其实是完全不同的一套技术,一套牢固扎根于数学和应用数学的技能(机器学习)。将 SQL 的简单易用与数据挖掘的复杂算法结合起来,充分利用两者的优势和特点,对于广大传统数据库应用技术人员来说,就可将他们 长期积累的数据库操作技能复用到机器学习领域。

MADlib 提供了可在 SQL 查询语句中调用的函数,即可以用 select + function name 的方式来调用这个库。这就意味着,所有的数据调用和计算都在数据库内完成而不需要数据的导入导出

MADlib 是 SQL 中的机器学习库,就注定它不关心数据可视化,本身不带数据的图形化表示功能。MADlib 作为工具,并不是传统意义上的机器学习系统软件,而只是一套可在 SQL 中调用的函数库,其出发点是让数据库技术人员用 SQL 快速完成简单的机器学习工作,比较适合做一些简单的、特征相对明显的机器学习。

设计思想

MADlib 架构的关键设计思想体现在以下方面:

操作数据库内的本地数据,避免在多个运行时环境之间不必要地移动数据。

充分利用数据库引擎功能,但将机器学习逻辑从数据库特定的实现细节中分离出来。

利用 MPP 无共享技术提供的并行性和可扩展性,如 Greenplum 或 HAWQ 数据库系统。

开放实施,保持与 Apache 社区的积极联系和持续的学术研究。

MADlib 库表现为数据库内置的函数。当函数在 SQL 语句中执行时,可以充分利用数据库引擎提供的功能。在客户端,可以使用Jupyter、 Zeppelin、psql 等工具连接数据库并调用 MADlib Function。MADlib 预处理后根据具体算法生成多个查询传入数据库服务器,之后数据库服务器执行查询并返回 String(一般是一个或多个存放结果的表), MADlib 函数调用过程的执行流程如下:

在这里插入图片描述

Read more »