模型是程序化广告的灵魂,决定着广告的点击和转化,直接影响收入;而模型由于复杂度高,标签/数据量大,是广告测试的难点,一般意义上,测试是不负责模型质量的,仅对模型中的一些定向/过滤逻辑做覆盖,模型有效性测试,模型工程师一般是通过灰度/ab测试来实现自测的,这种自我监督的实现方式有着明显缺陷,故本次对过往模型测试方面的记录,做下总结
大纲
1 | 常规测试方案 |
常规测试方案
模型由于数据量大,且计算的复杂度极高,一般测试不参与测试;大数据研发测试模型质量的常用方式,主要有离线指标分析,灰度流量评估的方式;这两种方式的有效性都比较低。其中离线指标分析,一般是单条数据或者指标的分析,覆盖的场景较少;而灰度流量评估的方式也存在数据量小,场景单一,且不同场景无法横向对比的问题,且评估效果太主观,无法量化和追溯。
调研测试方案
本次调研了testerhome上面同业们的处理方式;思路,主要是对模型处理的各环节进行监控,然后对各环节的处理逻辑进行复盘,对中间数据进行分析,设置阈值,记录数据及异常值,同时通过流量回放的方式来横向评估效果;难点不少,首先模型的因子众多,需要监控的指标极多,同时模型训练时,样本数据极多,需要时间和机器成本,如果规模较小,收益会比较低。
广告模型链路
基于链路分析,设计监控指标,进行对比
1 | 数据来源 |
参考监控指标
监控指标需要根据具体情况实现
效果横向对比
模型的效果通过流量回放的方式来触发,通过横向多维度对比来评估效果,监控的效果类的指标如下
1 | 机器学习相关 |
模型发布依赖监控
模型发布依赖环节的监控,是全流程监控的一部分
360模型监控平台的其他功能
1 | 查询 |
示例页面