DB41/T 2898-2025 医学影像数据人工智能分析方法评估指南
- 文件大小:1011.86 KB
- 标准类型:地方标准规范
- 标准语言:中文版
- 文件类型:PDF文档
- 更新时间:2025-09-17
- 下载次数:
- 标签:
资料介绍
ICS
11.040.99
CCS
C 30/49 41
河南省地方标准
DB41/T 2898—2025
医学影像数据人工智能分析方法评估指南
2025 - 08 - 08发布
2025 - 11 - 07实施
河南省市场监督管理局 发布
DB41/T 2898—2025
I
目次
前言 ................................................................................. II
1 范围 ............................................................................... 1
2 规范性引用文件 ..................................................................... 1
3 术语和定义 ......................................................................... 1
4 缩略语 ............................................................................. 1
5 评估数据 ........................................................................... 2
6 评估指标 ........................................................................... 4
7 评估方法 .......................................................................... 11
参考文献 ............................................................................. 14
DB41/T 2898—2025
II
前言
本文件按照GB/T 1.1—2020《标准化工作导则 第1部分:标准化文件的结构和起草规则》的规定起草。
请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别专利的责任。
本文件由河南省卫生健康委员会提出。
本文件由河南省卫生健康标准化技术委员会(HN/TC 24)归口。
本文件起草单位:河南省人民医院、郑州大学、昌平国家实验室、北京医院、江苏省人民医院、宁夏医科大学总医院、山西医科大学第一医院、福建医科大学附属第一医院、首都医科大学附属北京天坛医院、上海交通大学医学院附属瑞金医院、复旦大学附属中山医院、华中科技大学同济医学院附属同济医院。
本文件主要起草人:王梅云、吴亚平、李晓栋、魏巍、申雨、林予松、程天明、余璇、孟楠、李莉、吴法、刘河生、陈敏、吴飞云、朱力、张辉、曹代荣、白岩、赵哲、李英豪、艾林、曾蒙苏、严福华、夏黎明。
DB41/T 2898—2025
1
医学影像数据人工智能分析方法评估指南
1 范围
本文件提供了医学影像数据人工智能分析的评估数据、评估指标及评估方法等方面的指导。
本文件适用于医学影像数据人工智能分析方法评估。
2 规范性引用文件
下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。
GB/T 5271.1—2000 信息技术 词汇 第1部分:基本术语
GB/T 11457—2006 信息技术 软件工程术语
YY/T 0310—2015 X射线计算机体层摄影设备通用技术条件
YY/T 0482—2022 医用磁共振成像设备 主要图像质量参数的测定
3 术语和定义
GB/T 5271.1—2000和GB/T 11457—2006中界定的以及下列术语和定义适用于本文件。
医学影像数据
为医疗或医学研究以非侵入方式对人体或人体某部分获取的组织影像相关数据。
人工智能
表现出与人类智能(如推理和学习)相关的各种功能的功能单元的能力。
[来源:GB/T 5271.28—2001,28.01.02]
4 缩略语
下列缩略语适用于本文件。
ASD:平均表面距离(Average Surface Distance)
CT:计算机体层成像(Computer Tomography)
DR:数字X线成像(Digital Radiography)
FN:假阴性(False Negative)
FP:假阳性(False Positive)
FPR:假阳性率(False Positive Rate)
HD:Hausdorff距离(Hausdorff Distance)
IoU:交并比(Intersection Over Union)
mAP:平均精确率均值(Mean Average Precision)
MI:互信息(Mutual Information)
DB41/T 2898—2025
2
MIoU:平均交并比(Mean Intersection over Union)
MRI:磁共振成像(Magnetic Resonance Imaging)
MSE:均方差(Mean Square Error)
NCC:归一化互相关系数(Normalized Cross Correlation)
NMI:标准互信息(Normalized Mutual Information)
PET:正电子发射体层显像(Positron Emission Tomography)
PSNR:峰值信噪比(Peak signal-to-noise ratio)
ROI:感兴趣区域(Region of Interest)
SNR:信噪比(Signal-to-Noise Ratio)
SSIM:结构相似性(Structural Similarity)
TN:真阴性(True Negative)
TP:真阳性(True Positive)
TPR:真阳性率(True Positive Rate)
TRE:目标配准误差(Target Registration Error)
5 评估数据 样本量
5.1.1 优劣性试验样本量
优劣性试验样本量计算方法参见公式(1)和公式(2)。
????=(??+??)22?(1−?)(?1−?0)2 ································································· (1)
?=?1+?02∗100% ······································································ (2)
式中:
???? ——优劣性试验样本量;
?? ——?所对应的?值(分位数),?值通常取0.05;
?? ——?所对应的?值(分位数),1-?一般不低于80%;
? ——预计达到性能和原有性能的均值;
?1 ——预计达到性能;
?0 ——原有性能。
5.1.2 等效性试验样本量
等效性试验样本量计算方法参见公式(3)和公式(4)。
????=2?×(100−?)×?(?,?)/?2 ····················································· (3)
式中:
???? ——样本量;
? ——预期的性能指标;
?(?,?) ——标准正态分布分位数的组合函数;
? ——弃真错误,又称检验水准;
? ——取伪错误,1−?又称检验效能;
Δ ——代表两种方式可接受的差异。
?(?,?)=(?1−?/2+?1−?)2 ····························································· (4)
式中:
DB41/T 2898—2025
3
?——置信水平对应的Z值,?值通常取0.05,1−?一般不低于80%。
5.1.3 指定灵敏度和特异度的样本量
当评估需达到具体灵敏度和特异度要求时,宜按照公式(5)计算基于灵敏度的样本量、公式(6)计算基于特异度的样本量、公式(7)计算总样本量。
????=?1−?/22×???̂×(1−???̂)?2×? ································································ (5)
式中:
???? ——基于灵敏度的样本量;
? ——置信水平对应的Z值,?值通常取0.05;
? ——弃真错误,又称检验水准;
???̂ ——预期敏感度;
? ——容许误差;
? ——患病率,%。
????=?1−?/22×???̂×(1−???̂)?2×(1−?) ································································ (6)
式中:
???? ——基于特异度的样本量;
???̂ ——预期特异度。
?总=Max(????,????)×2 ······························································· (7)
式中:
?总 ——总样本量;
???——取最大值函数。 数据质量
5.2.1 信噪比
信噪比计算见6.29。
5.2.2 图像均匀性
MRI图像宜按照YY/T 0482—2022中4.3的方法检测,CT图像按照YY/T 0310—2015中6.2.2的方法检测,图像的均匀程度需高于90%。
5.2.3 层厚
图像层剖面的半高宽,宜按照 YY/T 0482—2022中4.4的方法检测。
5.2.4 空间分辨率
对MRI图像,矩阵为128×128时,空间分辨率需高于2.5 lp/cm;矩阵为256×256时,空间分辨率需高于5.0 lp/cm;矩阵为512×512时,空间分辨率需高于10.0 lp/cm。CT空间分辨率需高于10 lp/cm。
5.2.5 几何畸变率
对MRI图像,视野>250 mm时,几何畸变率≤2.0%;视野≤250 mm时,几何畸变率≤5.0%。宜按照 YY/T 0482—2022中4.5的方法进行检测。
DB41/T 2898—2025
4
5.2.6 数据多样性
评估数据集的数据宜来源于不同医疗机构,宜覆盖不同品牌或型号成像设备,各设备成像参数符合实际情况。 数据标注
5.3.1 标注方法
分类标签从病理报告、临床认可的检查、医生主观评价等获取;影像中病灶位置、掩膜等标签建议由两名以上有经验的医生共同完成。标注过程宜保留历史标注修改记录及人员明细等信息。
5.3.2 标注工具
标注工具宜易于获得,分类标签管理软件宜具有统计功能,病灶勾画软件宜支持多种数据格式读取和保存、支持多种标注任务、支持自定义特征属性、集成机器学习的半自动标注等。
5.3.3 标注结果
标注结果宜采用通用性强的保存形式,以便于兼容不同运行环境;分类标签建议以表格形式组织,便于进行查阅、编辑及分析;病灶位置及掩膜宜根据不同场景保存为坐标文本或图像、视频等形式,建议根据影像特点保存为公开格式,减小数据不兼容造成的使用障碍。
6 评估指标 混淆矩阵
统计模型分类正确和错误的个数,将统计结果组织在混淆矩阵中,二分类混淆矩阵见表1,多分类混淆矩阵见表2,多分类转化为二分类混淆矩阵见表3。
表
1 二分类混淆矩阵
混淆矩阵
真实值
正样本
负样本
预测值
正样本
TP
FP
负样本
FN
TN
表
2 多分类混淆矩阵
混淆矩阵
真实值
类别1
类别2
...
类别n
预测值
类别1
N1,1
N1,2
...
N1,n
类别2
N2,1
N2,2
...
N2,n
DB41/T 2898—2025
5
表2 多分类混淆矩阵(续)
混淆矩阵
真实值
类别1
类别2
...
类别n
预测值
…
...
...
...
...
类别n
Nn,1
Nn,2
...
Nn,n
注:
Ni,j(?=1~?,?=1~?)为预测结果为?类且真实分类为?类的个数。
表
3 多分类转化为二分类混淆矩阵
混淆矩阵
真实值
正样本
负样本
预测值
正样本
??=Σ??,???=1
??=Σ??,???=1,?≠?
负样本
??=Σ??,???=1,?≠?
??=ΣΣ??,?? ?=1,?≠???=1,?≠? 准确率
模型预测正确的结果占所有分类结果的比例,宜按照公式(8)进行计算。
???=??+????+??+??+?? ···································································· (8)
式中:
??? ——准确率,%;
?? ——真阳性;
?? ——真阴性;
?? ——假阳性;
?? ——假阴性。 精确率
模型预测为正的正样本(真正例)占预测样本为正的样本的比例,宜按照公式(9)进行计算。
???=????+?? ··········································································· (9)
式中:
??? ——精确率,%;
?? ——真阳性;
?? ——假阳性。 召回率
模型预测为正的正样本(真正例)占实际正样本的比例,宜按照公式(10)进行计算。
??????=????+?? ······································································ (10)
式中:
?????? ——召回率,%;
?? ——真阳性;
DB41/T 2898—2025
6
?? ——假阴性。 精确率-召回率曲线
根据样本被判定为正例的概率对所有样本进行排序;将每个样本对应的概率依次作为划分阈值,排在该样本之前(含该样本)的归为正例,排在其后的归为负例。以每个样本概率作为划分阈值,分别使用公式(9)计算精确率、公式(10)计算召回率,以精确率为纵轴、召回率为横轴绘制出精确率-召回率曲线。 平均精确率
通过求和精确率-召回率曲线下各部分面积得到平均精确率。 平均精确率均值
各类别平均精确率的均值,宜按照公式(11)进行计算。
???=Σ?????=1?? ······································································ (11)
式中:
???——平均精确率均值;
??? ——第?类样本的平均精确率;
?? ——样本的总类别数。 灵敏度
模型预测为正的正样本(真正例)占实际正样本的比例,宜按照公式(12)进行计算。
???=????+?? ········································································ (12)
式中:
??? ——灵敏度,%;
?? ——真阳性;
?? ——假阴性。 特异度
模型预测为负的负样本(真负例)占实际负样本的比例,宜按照公式(13)进行计算。
???=????+?? ········································································ (13)
式中:
??? ——特异度,%;
?? ——真阴性;
?? ——假阳性。 F1值
对精确率和召回率进行加权调和平均,宜按照公式(14)进行计算。
?1 ?????=(?2+1)×???×???????2×(???+??????) ·························································· (14)
式中:
DB41/T 2898—2025
7
?1 ?????——F1值;
? ——调和因子;
??? ——精确率,%;
?????? ——召回率,%。 接受者操作特性曲线
根据预测结果对样例进行排序,按顺序逐个把样例作为正例进行预测,宜按照公式(15)计算FPR、公式(16)计算TPR,以TPR为纵轴、FPR为横轴作ROC。
???=????+?? ········································································ (15)
???=????+?? ········································································ (16)
式中:
??? ——假阳率,%;
?? ——假阳性;
?? ——真阴性;
??? ——真阳率,%
?? ——真阳性;
?? ——假阴性。 ROC曲线下面积
通过求和ROC曲线下各部分面积得到AUC。 交并比
目标检测中,产生的候选框与原标记框的交叠率,宜按照公式(17)进行计算。
???=????(?)∩????(?)????(?)∪????(?) ································································· (17)
式中:
??? ——交并比;
????(?) ——候选框区域面积;
????(?) ——原标记框区域面积。 平均交并比
计算交并比的平均值,宜按照公式(18)进行计算。
????=1?+1Σ ????(??)∩????(??)????(??)∪????(??)??=0 ······················································ (18)
式中:
???? ——平均交并比;
? ——类别数目;
????(??)——第?类候选框区域面积;
????(??)——第?类原标记框区域面积。 均方差
DB41/T 2898—2025
8
模型输出值与真值之差的平方的期望值,宜按照公式(19)进行计算。
???=Σ(?(???,?)−?(????,?))2???? ····························································· (19)
式中:
??? ——均方差;
?(???,?) ——模型输出的第?个点的值;
?(????,?)——真实的第?个点的值;
?? ——点的总数。 峰值信噪比
原图与被处理图像之间的均方差相对于最大像素值平方的对数值,宜按照公式(20)进行计算。
????=20·???10(????√???) ····························································· (20)
式中:
????——峰值信噪比;
????——图像强度的最大数值;
??? ——原图与被处理图像之间的均方差。 结构相似性
从亮度、对比度、结构方面对图像质量进行评估,宜按照公式(21)进行计算。
????=(2????+?1)(??S+?2)(??2+??2+?1)(??2+??2+?2) ·························································· (21)
式中:
????——结构相似性;
?? ——模型输出图像的均值;
?? ——真实图像的均值;
?1 ——常数;
??S ——模型输出图像与真实图像的协方差;
?2 ——常数;
?? ——模型输出图像的标准差;
?? ——真实图像的标准差。 模型处理速度
目标模型每秒处理图像的数量。 Dice系数
集合相似度度量函数,取值范围为[0,1],宜按照公式(22)进行计算。
????=2|?∩?||?|+|?| ······································································· (22)
式中:
???? ——Dice系数;
|?∩?| ——真实图像与模型预测图像的交集元素数量;
|?| ——真实图像元素总数;
DB41/T 2898—2025
9
|?| ——模型预测图像元素总数。 像素级别准确率
模型预测正确的像素占总像素的比例。 类别像素准确率
每个类模型预测正确的数目占该类别总像素数目的比例。 归一化互相关系数
研究变量之间线性相关程度的度量,宜按照公式(23)进行计算。
???=1?????(?,?)√???(?)???(?) ································································ (23)
式中:
??? ——归一化互相关系数;
???(?,?)——真实图像与模型预测图像的协方差;
? ——真实图像;
? ——模型预测图像;
?? ——图像块的数目;
???(?) ——真实图像的方差;
???(?) ——模型预测图像的方差。 互信息
评价两个图像之间的依赖程度,宜按照公式(24)进行计算。
??(?,?)=∫?(?,?)????(?,?)?(?)?(?)???? ··················································· (24)
式中:
??(?,?)——互信息;
? ——真实图像;
? ——模型预测图像;
?(?,?) ——X,Y的联合分布;
?(?) ——真实图像像素值的边缘分布;
?(?) ——模型预测图像像素值的边缘分布。 标准互信息
消除变量自身熵的影响,更客观的反映变量间的依赖关系,宜按照公式(25)进行计算。
???(?,?)=2??(?,?)?(?)+?(?) ······························································ (25)
式中:
???——标准互信息;
? ——真实图像;
? ——模型预测图像;
?? ——?,?之间的互信息;
?(?)——真实图像?的信息熵;
DB41/T 2898—2025
10
?(?)——模型预测图像?的信息熵。 目标配准误差
配准后的目标点的实际位置与理论位置之间的误差,宜按照公式(26)进行计算。
???=√(?+?(?)−?′)2+(?+?(?)−?′)2+(?+?(?)−?′)2] ····················· (26)
式中:
??? ——目标配准误差;
(? ,? ,?) ——目标点的原始坐标;
(?′,?′,?′) ——目标点的理论坐标;
?(?),?(?),?(?) ——模型的位移场。 雅可比行列式
采用雅可比矩阵评估配准算法图像形变场的拓扑特性,宜按照公式(27)进行计算。
???(?(?,?,?))=||????????????????????????????????????|| ·························································· (27)
式中:
???(?(?,?,?)) ——雅可比行列式;
(?,?,?) ——为配准产生的形变场上的点。 HD距离
评价模型分割结果与真实结果的相似程度,宜按照公式(28)进行计算。
ℎ(?,?)=max?∈?{min?∈?‖?−?‖} ·························································· (28)
式中:
ℎ(?,?)——HD距离;
? ——模型分割边缘的点集;
? ——真实分割边缘的点集。 ASD距离
衡量模型分割结果与真实结果的平均表面距离差异,宜按照公式(29)进行计算。
???=1?(?)+?(?)(Σ?(??,?(?))??∈?(?)+Σ?(??,?(?))??∈?(?)) ························· (29)
式中:
??? ——ASD距离;
?(?) ——集合中的表面体素;
?(??,?(?))——任意体素??到?(?)的最短距离。 信噪比
ROI的平均信号强度与噪声的比值,宜按照公式(30)计算。
DB41/T 2898—2025
11
???=?̅−??̅̅̅̅?? ········································································· (30)
式中:
??? ——信噪比;
?̅ ——ROI的像素强度平均值;
??̅̅̅ ——背景像素强度平均值;
?? ——ROI内像素强度的标准偏差。
7 评估方法 检测算法评估
检测算法从医学影像数据中识别出器官或可疑病变,评估步骤如下:
a)
向待评估方法输入评估数据集,输出检测结果。检测结果保存格式宜与5.3标注结果兼容;
b)
计算以下各个性能指标(若病例只有一个检测目标,则计算该目标对应指标;如果包含多个检测目标,计算各个检测目标指标,取平均值作为该病例性能指标):
1)
混淆矩阵计算见6.1;
2)
精确率计算见6.3;
3)
召回率计算见6.4;
4)
精确率-召回率曲线计算见6.5
5)
平均精确率计算见6.6;
6)
平均精确率均值计算见6.7;
7)
灵敏度计算见6.8;
8)
交并比计算见6.13;
9)
平均交并比计算见6.14;
10)
模型处理速度计算见6.18;
c)
以评估数据集计算结果的平均值作为最终结果。 分割算法评估
分割算法提取医学图像中人体主要器官、重要的解剖结构、肿瘤等病变组织,主要应用场景有疾病诊断、手术规划、预后评估与随访等。评估步骤如下:
a)
向待评估方法输入评估数据集,输出分割结果。分割结果保存格式宜与5.3标注结果兼容;
b)
依据分割算法输出的目标区域与评估数据参考区域计算以下各个性能指标(如分割算法评估合并检测算法,仅对检测算法输出结果为TP的数据进行指标计算):
1)
交并比计算见6.13;
2)
平均交并比计算见6.14;
3)
模型处理速度计算见6.18;
4)
Dice系数计算见6.19;
5)
像素级别准确率计算见6.20;
6)
类别像素准确率计算见6.21;
7)
HD距离计算见6.27;
8)
ASD距离计算见6.28;
c)
以评估数据集计算结果的平均值作为最终结果。 分类算法评估
DB41/T 2898—2025
12
将数据划分为不同类别,主要应用场景有对疾病的识别、良恶性判断、疗效评估等。评估步骤如下:
a)
向待评估方法输入评估数据集,输出分类结果;
b)
比较算法输出的分类和参考分类,计算以下性能指标:
1)
混淆矩阵计算见6.1;
2)
准确率计算见6.2;
3)
精确率计算见6.3;
4)
召回率计算见6.4;
5)
精确率-召回率曲线计算见6.5;
6)
平均精确率计算见6.6;
7)
平均精确率均值计算见6.7;
8)
灵敏度计算见6.8;
9)
特异度计算见6.9;
10)
F1值计算见6.10;
11)
ROC曲线计算见6.11;
12)
AUC计算见6.12;
13)
模型处理速度计算见6.18;
c)
以评估数据集计算结果的平均值作为最终结果。 配准算法评估
将同一患者两个或多个影像数据对齐到同一个坐标系统。主要应用场景有多时间点影像对比、多模态影像融合分析、术前术后对比分析等。评估步骤如下:
a)
向待评估方法输入评估数据集,输出配准结果;
b)
性能指标计算方法如下:
1)
均方差计算见6.15;
2)
峰值信噪比计算见6.16;
3)
结构相似性计算见6.17;
4)
模型处理速度计算见6.18;
5)
归一化相关系数计算见6.22;
6)
互信息计算见6.23;
7)
标准互信息计算见6.24;
8)
目标配准误差计算见6.25;
9)
雅可比行列式计算见6.26;
c)
以评估数据集计算结果的平均值作为最终结果。 映射算法评估
将输入数据变换到目标数据,主要应用场景有DR、CT、MRI和PET等影像模态的智能成像。评估步骤如下:
a)
向待评估方法输入评估数据集,输出映射结果;
b)
性能指标计算方法如下:
1)
均方差计算见6.15;
2)
峰值信噪比计算见6.16;
3)
结构相似性计算见6.17;
4)
模型处理速度计算见6.18;
DB41/T 2898—2025
13
5)
归一化相关系数计算见6.22;
6)
互信息计算见6.23;
7)
标准互信息计算见6.24;
8)
信噪比计算见6.29;
c)
以评估数据集计算结果的平均值作为最终结果。
DB41/T 2898—2025
14
参考文献
[1] GB/T 5271.28—2001 信息技术 词汇 第28部分:人工智能 基本概念与专家系统
