模型是程序化广告的灵魂，决定着广告的点击和转化，直接影响收入；而模型由于复杂度高，标签/数据量大，是广告测试的难点，一般意义上，测试是不负责模型质量的，仅对模型中的一些定向/过滤逻辑做覆盖，模型有效性测试，模型工程师一般是通过灰度/ab测试来实现自测的，这种自我监督的实现方式有着明显缺陷，故本次对过往模型测试方面的记录，做下总结

大纲

1 2	常规测试方案调研测试方案

常规测试方案

模型由于数据量大，且计算的复杂度极高，一般测试不参与测试；大数据研发测试模型质量的常用方式，主要有离线指标分析，灰度流量评估的方式；这两种方式的有效性都比较低。其中离线指标分析，一般是单条数据或者指标的分析，覆盖的场景较少；而灰度流量评估的方式也存在数据量小，场景单一，且不同场景无法横向对比的问题，且评估效果太主观，无法量化和追溯。

调研测试方案

本次调研了testerhome上面同业们的处理方式；思路，主要是对模型处理的各环节进行监控，然后对各环节的处理逻辑进行复盘，对中间数据进行分析，设置阈值，记录数据及异常值，同时通过流量回放的方式来横向评估效果；难点不少，首先模型的因子众多，需要监控的指标极多，同时模型训练时，样本数据极多，需要时间和机器成本，如果规模较小，收益会比较低。

广告模型链路

基于链路分析，设计监控指标，进行对比

数据来源
特征提取
离线训练
模型构建
发布上线
效果评估

参考监控指标

监控指标需要根据具体情况实现

效果横向对比

模型的效果通过流量回放的方式来触发，通过横向多维度对比来评估效果，监控的效果类的指标如下

机器学习相关
	AUC
	COPC
	LOGLOSS
	PCTR
	准确率
	召回率
	ROC 曲线
业务相关
	实时收入
	CTR
	CVR
	CPM
特征效果相关
	IV
	WOE
	特征变现变化

效果数据横向对比
	不同阶段的对比
	阶段一致性对比
	时间维度
	版本对比
	分桶
	分adx

模型发布依赖监控

模型发布依赖环节的监控，是全流程监控的一部分

360模型监控平台的其他功能

查询
	自定义场景查询
	配套表格数据
	线上部署记录查询
对比
	同环比数据
	不同模型对比
	不同版本对比
在线配置
	基础属性配置
	特征项管理
	报警阈值配置
	监控信号阈值配置
交互友好
	更新记录可查
	前端性能

示例页面

Bu Jia Ban

大数据--广告--模型测试

大纲