Flink推荐系统热度榜实现

Posted on 2022-12-11 Edited on 2023-09-14 In 大数据技术

Flink简介

Apache Flink 是一个框架和分布式处理引擎，用于对无界和有界数据流进行有状态计算。Flink 被设计在所有常见的集群环境中运行，以内存执行速度和任意规模来执行计算。

Flink 的重要特点

1、事件驱动型(Event-driven)

事件驱动型应用是一类具有状态的应用，它从一个或多个事件流提取数据，并
根据到来的事件触发计算、状态更新或其他外部动作。比较典型的就是以 kafka 为
代表的消息队列几乎都是事件驱动型应用。

与之不同的就是 SparkStreaming 微批次，如图：

事件驱动型：

生成对抗网络在推荐系统中落地Generative Adversarial Networks

Posted on 2022-12-03 Edited on 2023-09-14 In 推荐算法

GAN思想

生成对抗网络 – GAN 是最近2年很热门的一种无监督算法，它能生成出非常逼真的照片，图像甚至视频。深度学习最特别最厉害的地方就是能够自己学习特征提取。

生成对抗网络（GAN）由2个重要的部分构成：

生成器(Generator)：通过机器生成数据（大部分情况下是图像），目的是“骗过”判别器

判别器(Discriminator)：判断这张图像是真实的还是机器生成的，目的是找出生成器做的“假数据”

训练过程：

第一阶段：固定「判别器D」，训练「生成器G」

第二阶段：固定「生成器G」，训练「判别器D」

第三阶段：循环阶段一和阶段二

通过不断的循环，「生成器G」和「判别器D」的能力都越来越强。

最终我们得到了一个效果非常好的「生成器G」，我们就可以用它来生成我们想要的图片了。

GAN全称对抗生成网络，顾名思义是生成模型的一种，而它的训练则是处于一种对抗博弈状态中的。

强化学习在推荐系统中落地

Posted on 2022-12-03 Edited on 2023-09-14 In 推荐算法

背景

传统的大多数推荐系统应用存在两个问题：

1、无法建模用户兴趣的动态变化

2、最大化立即收益，忽略了长期受益

强化学习

1、Q-Learning，Q-Learning 是一个强化学习中一个很经典的算法，其出发点很简单，就是用一张表存储在各个状态下执行各种动作能够带来的 reward，如下表表示了有两个状态 s1,s2s1,s2，每个状态下有两个动作 a1,a2a1,a2, 表格里面的值表示 reward

这个表示实际上就叫做 Q-Table，里面的每个值定义为 Q(s,a)Q(s,a), 表示在状态 ss 下执行动作 aa 所获取的reward，那么选择的时候可以采用一个贪婪的做法，即选择价值最大的那个动作去执行。 Q-Table 要如何获取？答案是随机初始化，然后通过不断执行动作获取环境的反馈并通过算法更新 Q-Table。

γ 的值一般设置为 0 到 1 之间，设为0时表示只关心即时回报，设为 1 时表示未来的期望回报跟即时回报一样重要。

强化学习算法在自动驾驶系统中落地-以DDPG算法为例

Posted on 2022-12-03 Edited on 2023-09-14 In 自动驾驶

背景

全球汽车行业有两个公认的汽车自动驾驶技术分级标准，二者的定级差异不大：

L0级：自动驾驶仅能提供警告和瞬时辅助。值得注意的是，主动刹车、盲点监测、车道偏离预警和车身稳定系统都属于L0级别的自动驾驶

L1级：辅助驾驶，能够帮助驾驶员完成某些驾驶任务，且只能帮助完成一项驾驶操作。驾驶员需要监控驾驶环境并准备随时接管。代表性技术应用有：车道保持系统，定速巡航系统。

L2级：部分自动化，可以同时自动进行加减速和转向的操作，也意味着自适应巡航功能和车道保持辅助系统可以同时工作。目前很多豪华车辆搭载的就为这一级别自动驾驶。但驾驶员仍需要将双手双脚预备在方向盘及制动踏板上随时待命。

L3级：条件自动化，车辆在特定环境中可以实现自动加减速和转向，不需要驾驶者的操作。驾驶员可以不监控车身周边环境，但要随时准备接管车辆，以应对自动驾驶处理不了的路况情况。这一代奥迪A8L就搭载了L3级别的自动驾驶技术，驾驶感受很是优异。不过在其之前，沃尔沃和特斯拉就已经实现了L3级别自动驾驶技术。

L4级：高度自动化，可以实现驾驶全程不需要驾驶员，但是会有限制条件，例如限制车辆车速不能超过一定值，且驾驶区域相对固定，实现L4级别自动驾驶后，已经可以不需要安装刹车和油门踏板了。

L5级：完全自动化，完全自适应驾驶，适应任何驾驶场景。但是涉及到法律、高科技突破等限制，目前还需要进一步深入研发，对应的产品目前还没有实现。

奔驰L3级自动驾驶系统，美国获批使用了。在众多汽车主机厂中，奔驰是美国史上第一个、而且还是仅此一家。有了这套系统，司机可以脱手驾驶，一边开车一边开小差纵情网上冲浪，出了事故也是奔驰的责任。

而且需要注意的是，你可以把头和眼睛侧向一边，但Drive Pilot必须要能够通过摄像头监测到你的脸。一旦你的脸被其他物体遮挡了，系统就会自动退出。

除此之外，奔驰官方甚至将Drive Pilot自动泊车功能直接上升到L4级别，据称可以实现完全无人场景下的自动泊车，包括自动寻找车位、规划路线、主动断电等功能，都已经在量产车上实现。

特斯拉想要的是L4-L5级自动驾驶，L3级是留给蠢蛋的

Mysql性能优化

Posted on 2022-11-25 Edited on 2023-09-14 In 大数据技术

慢SQL获取方式

1、开启慢查询

实时获取有性能问题的SQL，数据库参数设定如下：

2、慢日志解析

（需提前安装PT工具）：

pt-query-digest slow.log –since ‘2020-06-09 10:43:00’ –until’2020-06-09 10:45:00’> tmp/slow.log

处理原则：优先优化高并发SQL，频率低的大SQL次之。

3、慢SQL详细信息

深度学习常见优化器

Posted on 2022-11-17 Edited on 2026-06-11 In 深度学习

优化器定义

流行的深度学习库（如 PyTorch 或 TensorFLow）提供了多种优化器选择，它们各有优缺点。选择不合适的优化器可能会对机器学习项目产生很大的负面影响。这使得选择优化器成为构建、测试和部署机器学习模型过程中的关键一环。

优化器或者优化算法，是通过训练优化参数，来最小化（最大化）损失函数。损失函数是用来计算测试集中目标值Y的真实值和预测值的偏差程度。为了使模型输出逼近或达到最优值，我们需要用各种优化策略和算法，来更新和计算影响模型训练和模型输出的网络参数。

常见的优化器

1、批量梯度下降BGD（Batch Gradient Descent）：采用整个训练集的数据来计算损失函数对参数的梯度，计算速度慢

2、随机梯度下降SGD(Stochastic Gradient Descent)：更新时对每个样本进行梯度更新，速度快，更新频繁，损失函数可能有严重的震荡

3、小批量梯度下降法MBGD(Min-Batch Gradient Descent)：每一次利用一小批样本更新，折中方案，如果学习率很小，收敛速度会很慢，学习率太大，会在极小值附近震荡甚至偏离

4、带动量的SGD（Momentum Stochastic Gradient Descent）：为了抑制震荡现象，加入动量控制梯度变化。使得梯度方向不变的维度上速度变快，梯度方向有所改变的维度上的更新速度变慢，就可以加快收敛并减小震荡。核心思想：将一个小球从山上滚下来时，没有阻力的话，它的动量会越来越大，但是如果遇到了阻力，速度就会变小

5、AdaGrad：自适应学习率，基于平方梯度之和的倒数的平方根来缩放每个参数的学习率，假如某个参数的梯度很大，那么他的梯度和也很大。梯度之和跟之前的梯度加在一起，求个sqrt作为分母，就会让这个参数的梯度变小。梯度大的参数的步长小，梯度小的步长大，实现每个参数比较均匀的更新。缺点：对梯度求的是平方和，迭代次数增加，步长越来越小，训练速度太慢。（步长等价于学习率，也就是说学习率会越来越小，最后趋近于0）

Kafka 分布式消息系统

Posted on 2022-11-14 Edited on 2023-09-14 In 大数据技术

一、概述

　Kakfa起初是由LinkedIn公司开发的一个分布式的消息系统，后成为Apache的一部分，它使用Scala编写，以可水平扩展和高吞吐率而被广泛使用。目前越来越多的开源分布式处理系统如Cloudera、Apache Storm、Spark等都支持与Kafka集成。 Kafka凭借着自身的优势，越来越受到互联网企业的青睐，唯品会也采用Kafka作为其内部核心消息引擎之一。Kafka作为一个商业级消息中间件，消息可靠性的重要性可想而知。

二、Kafka的使用场景

1、日志收集：一个公司可以用Kafka可以收集各种服务的log，通过kafka以统一接口服务的方式开放给各种consumer，例如Hadoop、Hbase、Solr等；

2、消息系统：解耦和生产者和消费者、缓存消息等；

3、用户活动跟踪：Kafka经常被用来记录web用户或者app用户的各种活动，如浏览网页、搜索、点击等活动，这些活动信息被各个服务器发布到kafka的topic中，然后订阅者通过订阅这些topic来做实时的监控分析，或者装载到Hadoop、数据仓库中做离线分析和挖掘；

4、运营指标：Kafka也经常用来记录运营监控数据。包括收集各种分布式应用的数据，生产各种操作的集中反馈，比如报警和报告；

5、流式处理：比如spark streaming、storm、flink；

6、事件源；

三、定义

Kafka 是一个分布式的基于发布/订阅模式的消息队列(Message Queue)，主要应用与大数据实时处理领域。

消息队列

Kafka 本质上是一个 MQ(Message Queue)，使用消息队列的好处

解耦：允许我们独立的扩展或修改队列两边的处理过程。

可恢复性：即使一个处理消息的进程挂掉，加入队列中的消息仍然可以在系统恢复后被处理。

缓冲：有助于解决生产消息和消费消息的处理速度不一致的情况。

灵活性&峰值处理能力：不会因为突发的超负荷的请求而完全崩溃，消息队列能够使关键组件顶住突发的访问压力。

异步通信：消息队列允许用户把消息放入队列但不立即处理它。

发布/订阅模式

Flink推荐系统热度榜实现

Flink简介

Flink 的重要特点

推荐算法之FM（Factorization Machines）算法

特征组合

推荐系统A/B Test功能相关问题整理

推荐系统之线上学习优化方法Follow-the-regularized-Leader

在线学习

优化方法

生成对抗网络在推荐系统中落地Generative Adversarial Networks

GAN思想

强化学习在推荐系统中落地

背景

强化学习

强化学习算法在自动驾驶系统中落地-以DDPG算法为例

背景

Mysql性能优化

慢SQL获取方式

1、开启慢查询

2、慢日志解析

3、慢SQL详细信息

深度学习常见优化器

优化器定义

常见的优化器

Kafka 分布式消息系统

一、概述

二、Kafka的使用场景

三、定义

消息队列

发布/订阅模式