音视频评测，主要涉及到编解码，网络传输，原生资源的前后置处理；传输流程如下：

音频

先确定音频的质量评测维度（由于是流媒体，网络是决定因素，因此需要覆盖不同网络下的这些指标）：
- 性能、码率、抗性、时延、音质、响度、连麦通话、音效：（由 SDK 服务保障并提供技术指标）
- 卡顿（流畅度）：手机终端测试，通过卡顿率来评估，为卡顿率 = sum (>200ms 卡顿时间) / 通话时间；
  - 流畅度评估原理（安卓）：通过获取 gfxinfo 中的帧信息，统计帧耗时和卡顿率
- 除以上的常规维度外，还有音频专属的：绝对等级评分(MOS)、失真等级评分(DCR)、相对等级评分（CCR）等维度;通过以下算法评估：
  - python-pesq（PESQ）
  - 分段信噪比（SegSNR）
  - 对数似然比测度（LLR）
  - 对数谱距离（LSD）
  - 可短时客观可懂（STOI）
  - 加权谱倾斜测度（WSS）
  - 感知客观语音质量评估（POLQA）
然后确定合规的质量标准
分析评测数据，对比质量标准，得出评测结果
ps:音频的格式分为有损格式、无损格式、私有格式，部分有损格式如下：wav、MP3、oog、aac、ac3；原始文件格式为pcm

视频

先确定音频的质量评测维度（由于是流媒体，网络是决定因素，因此需要覆盖不同网络下的这些指标:）
- 性能、码率、抗性、时延、音画同步：（由 SDK 服务保障并提供技术指标）
- 卡顿（流畅度）：手机终端测试，通过卡顿率来评估，为卡顿率 = sum (>200ms 卡顿时间) / 通话时间；
  - 流畅度评估原理（安卓）：通过获取 gfxinfo 中的帧信息，统计帧耗时和卡顿率
- 视频质量：分为主观评测(人工)和客观评测,通过开源算法进行评估；
  - 主观评测：依赖人眼观看并打分
  - 客观评测：客观评测算法，主要分为全参考、无参考、部分参考算法，参考的是源资源，算法如下
    - PLCC指标：Pearson 线性相关系数，代表模型的线性相关性。
    - SROCC指标：Spearman 秩序相关系数，用来衡量秩序的相关性的，代表模型的非线性相关性。假设有两组序列 X 和 Y，其秩序为 R(X)和 R(Y)，则 SROCC(X, Y) = PLCC(R(X), R(Y))。
    - 全参考算法：netflix VMAF、腾讯的DVQA
    - netflix VMAF测试的指标：视觉信息逼真度(VIF)+视觉信息逼真度(VIF)+Motion
    - DVQA:https://github.com/Tencent/DVQA
然后确定合规的质量标准
分析评测数据，对比质量标准，得出评测结果
MP4、FLV（在线视频格式）、AVI、MOV、ASF、WMV、RM、RMVB等
音视频评测辅助评测和定位问题使用的工具:
- 弱网测试工具：QNET
- 弱网测试工具：network emulator，微软开源，可实现带宽、丢包、延时、抖动、综合网络等弱网参数的限制。
- 音视频处理工具 FFmpeg：统计码率、

参考文章

Bu Jia Ban

专项--音视频质量评测

音频

视频