大数据--广告--模型测试

模型是程序化广告的灵魂,决定着广告的点击和转化,直接影响收入;而模型由于复杂度高,标签/数据量大,是广告测试的难点,一般意义上,测试是不负责模型质量的,仅对模型中的一些定向/过滤逻辑做覆盖,模型有效性测试,模型工程师一般是通过灰度/ab测试来实现自测的,这种自我监督的实现方式有着明显缺陷,故本次对过往模型测试方面的记录,做下总结

大纲

1
2
常规测试方案
调研测试方案

常规测试方案

模型由于数据量大,且计算的复杂度极高,一般测试不参与测试;大数据研发测试模型质量的常用方式,主要有离线指标分析,灰度流量评估的方式;这两种方式的有效性都比较低。其中离线指标分析,一般是单条数据或者指标的分析,覆盖的场景较少;而灰度流量评估的方式也存在数据量小,场景单一,且不同场景无法横向对比的问题,且评估效果太主观,无法量化和追溯。

调研测试方案

本次调研了testerhome上面同业们的处理方式;思路,主要是对模型处理的各环节进行监控,然后对各环节的处理逻辑进行复盘,对中间数据进行分析,设置阈值,记录数据及异常值,同时通过流量回放的方式来横向评估效果;难点不少,首先模型的因子众多,需要监控的指标极多,同时模型训练时,样本数据极多,需要时间和机器成本,如果规模较小,收益会比较低。

广告模型链路

基于链路分析,设计监控指标,进行对比

1
2
3
4
5
6
数据来源
特征提取
离线训练
模型构建
发布上线
效果评估

参考监控指标

监控指标需要根据具体情况实现
alt text

效果横向对比

模型的效果通过流量回放的方式来触发,通过横向多维度对比来评估效果,监控的效果类的指标如下

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
机器学习相关
AUC
COPC
LOGLOSS
PCTR
准确率
召回率
ROC 曲线
业务相关
实时收入
CTR
CVR
CPM
特征效果相关
IV
WOE
特征变现变化

效果数据横向对比
不同阶段的对比
阶段一致性对比
时间维度
版本对比
分桶
分adx

模型发布依赖监控

模型发布依赖环节的监控,是全流程监控的一部分
alt text

360模型监控平台的其他功能

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
查询
自定义场景查询
配套表格数据
线上部署记录查询
对比
同环比数据
不同模型对比
不同版本对比
在线配置
基础属性配置
特征项管理
报警阈值配置
监控信号阈值配置
交互友好
更新记录可查
前端性能

示例页面
alt text

欢迎关注我的其它发布渠道