T/CPRA 200.2-2024 文化资源数据与数字内容标注技术要求 第2部分:纹样标注
- 文件大小:1.27 MB
- 标准类型:综合团体标准
- 标准语言:中文版
- 文件类型:PDF文档
- 更新时间:2025-03-07
- 下载次数:
- 标签:
资料介绍
ICS 35.240.01
CCS L 70
团体标准
T/CPRA 200.2—2024
文化资源数据与数字内容标注技术要求 第2部分:纹样标注
Technical requirements for cultural resources data and digitalcontent annotationPart 2: Pattern annotation
2024-12-13 发布2024-12-13 实施
中国公共关系协会文化大数据产业委员会发布
目次
前言............................................................................... II
1 范围............................................................................... 1
2 规范性引用文件..................................................................... 1
3 术语和定义......................................................................... 1
3.1 文化元素...................................................................... 1
3.2 文化数字内容.................................................................. 1
3.3 文化资源数据.................................................................. 2
3.4 纹样.......................................................................... 2
3.5 标注.......................................................................... 2
3.6 纹样标注...................................................................... 2
4 纹样分类........................................................................... 2
5 纹样标注流程....................................................................... 3
6 标注预处理......................................................................... 4
6.1 预处理输入数据要求............................................................ 4
6.2 预处理方法.................................................................... 4
7 纹样数据标注....................................................................... 4
7.1 纹样数据标注算法要求.......................................................... 5
7.2 纹样数据标注功能要求.......................................................... 5
8 标注结果评价....................................................................... 5
8.1 纹样标注结果质量要求.......................................................... 5
8.2 主观评价方法.................................................................. 5
8.3 客观评价方法.................................................................. 6
T/CPRA 200.2-2024
II
前言
本文件按照GB/T 1.1—2020《标准化工作导则第1 部分:标准化文件的结构和起草规则》的
规定起草。
请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别专利的责任。
本文件由中国公共关系协会文化大数据产业委员会提出并归口。
本文件起草单位:北京邮电大学、北京玖扬科技有限公司、伏羲云(北京)文化科技有限公
司。
本文件主要起草人:徐坤、高凯、赵海英、薛晓鹏、侯小刚、尹晖、周月、徐鹏举、王梓舟、
于振明、崔义娜、陈磊、刘志军、李媛媛。
T/CPRA 200.2-2024
1
文化资源数据与数字内容标注技术要求
第2 部分:纹样标注
1 范围
本文件规定了国家文化大数据体系中文化资源数据与数字内容纹样标注的技术要求,包括纹
样分类、纹样标注流程、标注预处理、纹样数据标注和标注结果评价等技术要求。
本文件适用于国家文化大数据体系中文化资源数据与数字内容纹样标注工具的设计和研发。
2 规范性引用文件
下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引
用文件,仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修
改单)适用于本文件。
GB/T 1.1—2020 标准化工作导则第1 部分:标准化文件的结构和起草规则
T/CPRA 1—2021 国家文化大数据标准体系
T/CPRA 300—2023 文化数字内容分类与代码
T/CPRA 301—2023 文化资源数据分类与代码
3 术语和定义
下列术语和定义适用于本文件。
3.1 文化元素cultural element
是组成文化的最小功能单元,具有独特的文化内涵,例如,一只茶杯、一张弓、一个动作和
一个符号等都是文化元素。由于最小功能单元的确定是相对的,故文化元素亦有可组合性、多样
性、不确定性等特征。在国家文化大数据体系下,文化元素特指文化资源数据和文化数字内容等
的最小数字化功能单元,体现了数字文化作品中组成内容的独特性,一般采用技法将文字、线稿、
色彩、形态、声音等文化要素进行组合的方式存在,且意蕴深远,具有极强的符号性特征,它们
不仅是传统文化的象征,也是文化精神的凝聚。文化元素不仅能体现文化本体价值,更能展现文
化元素发展演化规律。通过对文化数据重构,可提取这些凝结在文化中共性的、具有很强识别性
的、能引起目标群体感知和想象的视觉符号。各种文化元素之间经过关联、标注、重构等加工,
可进一步提升文化元素价值。
[来源: T/CPRA 3100.1—2022 定义3.1.1]
3.2 文化数字内容cultural digital content
以数字形式存在的文化产品,一般以文字、图片、音频、视频、多媒体和其他形式表现。通
常包括传统文化产品的数字化以及以数字形式存在的文化产品。国家文化大数据体系下文化数字
T/CPRA 200.2-2024
2
内容主要涵盖中华优秀传统文化、革命文化和社会主义先进文化等。
文化数字内容作为数字化文化生产线的产出,由文化大数据服务平台管理与分发,并通过文
化体验设施和设备消费。通常情况下,文化数字内容又称为文化数字产品、文化数字内容产品等。
[来源:T/CPRA 300—2023 定义3.1.1]
3.3 文化资源数据cultural resources data
对人类文化中传承下来并可以传播利用的文化(包括物质的和非物质的)进行数字化采集后,
所得到的用于识别和展现文化的图像、文字、声音、动画、影片、三维全景、三维模型等数据。
国家文化大数据体系下文化资源数据主要包括中国文化遗产标本库、中华民族文化基因库、中华
文化素材库中的数据。
[来源:T/CPRA 301—2023 定义3.1.1]
3.4 纹样pattern
纹样是文化元素的子类,指主要被用作服饰、建筑、器皿等物体的装饰,并具有语义、寓意、
历史发展轨迹、地域特点、民族特色的花纹、形状等。
[来源:T/CPRA 3101.1—2022 定义3.1.4]
3.5 标注annotation
对不同文化元素、文化要素标示注记,不仅仅包括纹样、色彩、构型、风格的标注,还包括
深层次的语义信息的打标。在国家文化大数据标准体系中,标注将实现数据底层的工作,并与采
集、关联、解构、重构等关键技术共同服务于上层应用。
3.6 纹样标注pattern annotation
是对文化元素中的纹样元素、纹样要素或纹样基因进行标注的过程。结合现代科技,克服手
动标注的弊端,实现纹样标签的自动标注,不仅仅实现对纹样本身的标注,也要对其语义等信息
进行打标。
4 纹样分类
纹样分类如下表所示:
表1 纹样分类表
序号类名描述
1 动物纹
是一种以各种动物形象为基础,经过艺术加工和变形而形成的
装饰性纹样,常被运用在陶瓷、织物、雕刻等传统艺术形式中,
反映了人们对动物的观察与想象,以及对美好生活的向往和寄
托。
2 人物纹
以人物的形象和活动为主题,运用细腻且传神的线条刻画人物
的姿态、神情与动作。
T/CPRA 200.2-2024
3
3 几何纹
几何纹样是一种以点、线、面等几何元素为基本构成单位,通
过有规律或富有创意的组合、排列、变化而形成的装饰性图案。
4 植物纹
是一种以各类植物的形态、花朵、枝叶等为创作素材,经过艺
术提炼和设计,展现出植物的自然美与象征意义,广泛用于传
统装饰艺术彰显生机与美好的纹样。
5 叙事纹
是一种以叙述故事、情节或事件为主要内容,通过生动的图案
和形象组合展现完整叙事过程,常传递特定文化内涵和价值观
念,常见于传统装饰艺术承载历史与文化记忆的纹样。
6 自然纹
是一种取材于自然界中的各种元素,如山石、水流、日月星辰、
风云雷电等,经过艺术加工和构思,展现大自然的神奇与魅力,
常出现在传统装饰艺术中体现对自然敬畏与热爱的纹样。
7 器物纹
是一种以各类传统器物的形态和特征为灵感来源,经过艺术加
工和变形,展现独特美感和文化内涵,广泛应用于传统装饰艺
术领域的纹样。
5 纹样标注流程
如图1 所示,纹样标注流程包括标注预处理、纹样数据标注、标注结果评价3 个环节。各环
节具体要求及相互关系如下:
图1 纹样标注流程
a) 标注预处理:该环节针对输入图像使用数字化、几何变换、归一化、平滑、复原、增强
等方法,消除图像中无关的信息,恢复有用的真实信息,增强有关信息的可检测性,最
大限度地简化数据,增强标注的可靠性。
b) 数据标注:对处理后的数据,选择适当的标注方法进行标注,输出带有标注信息的纹样
图像。
c) 纹样标注结果评价:对已标注的纹样图像结果,采用主观评价、客观评价方法对其质量
T/CPRA 200.2-2024
4
进行定性、定量分析,根据评价结果优化标注方法。
6 标注预处理
6.1 预处理输入数据要求
输入纹样图像数据应满足以下要求:
a) 宜使用TIF、JPG 或PNG 格式图片;
b) 图像分辨率应大于256*256;
c) 应使用RGB 色彩模式存储的数据;
d) 应大于8 位或16 位色彩存储;
e) 图像应完整记录纹样完整面貌、造型、结构;
f) 图像清晰,色彩均衡,文化元素透视无畸变;
g) 应具备基本的元数据;
h) 应保持原纹样的完整性。
6.2 预处理方法
6.2.1 二维图像噪声去除
二维图像噪声去除的主要功能包括:
a) 分析二维图像噪声源并进行噪声去除;
b) 支持各种类型图像的噪声去除,并且尽可能不对原始图像内容做改变;
c) 去除噪声后二维图像可以还原成原图像。
6.2.2 二维图像光照平衡
二维图像光照平衡应符合以下技术要求:
a) 支持各种类型图像的缩放,并且尽可能不对原始图像内容做改变;
b) 尽可能从原图中消除光照不均匀的影响;
c) 光照均衡后的图像能够满足各类测评指标。
6.2.3 预处理结果数据要求
预处理结果应符合以下技术要求:
a) 光照平衡,宜采用能自适应多种类别图像的算法进行处理;
b) 图像清晰,宜采用图像自适应超分算法进行预处理;
c) 信噪比SNR > 20;
d) 峰值信噪比PSNR > 30;
e) 均方误差MSE < 400。
7 纹样数据标注
T/CPRA 200.2-2024
5
7.1 纹样数据标注算法要求
纹样数据标注算法具体应符合以下技术要求:
a) 宜准确地对每一个图像纹样元素名称进行标注;
b) 宜进一步对纹样的文本特征(如纹样周围文本内容)以及深层次的语义信息(如寓意)
等进行标注;
c) 对于需要定位区域的标注方法,定位区域应在合理的位置,标注内容无冗余、无重叠;
d) 对于手工标注数据,专业人士标注每张图像所需时间应≤5min;
e) 对于自动标注数据,每张图像所需时间应≤100ms;
f) 对于不属于原始数据集类别的纹样种类或者非纹样数据,宜给出相应的提示信息;
g) 标注词应不少于5 个;
h) 标注类别应不少于3 类;
i) 对于训练数据集不足的情况,宜采用数据增强的方法。
7.2 纹样数据标注功能要求
纹样数据标注工具应符合以下功能要求:
a) 标注应具有可视化界面;
b) 应支持自动标注、半自动标注,宜对标注结果进行人工评判,并且能对自动标注结果与
人工参与部分进行区分;
c) 宜具有数据统计功能,支持对未标注和已标注数据的统计结果进行图表显示,包括柱状
图显示、饼图显示等;
d) 标注工具宜具有日志记录功能;
e) 应具备安全功能,譬如加密存储数据、对用户标识并进行相应的访问控制。
8 标注结果评价
8.1 纹样标注结果质量要求
纹样标注后的结果应满足以下要求:
a) 纹样标注的内容应与实际内容相一致;
b) 同一个算法对同一张纹样图像执行相同操作之后得到的结果应一致;
c) 图像若发生变化,输出的结果应与未变化时保持一致。图像内容发生实质变化的情况除
外;
d) 对于单标签图像的纹样标注,准确率(Accuracy)应>= 90%;
e) 对于多标签图像的纹样标注,平均准确率(Average Precision)应>= 75%。
8.2 主观评价方法
以人的主观感知来评价二维图像标注结果,宜采用以下指标:
a) 内容准确性:以人的主观判断来感知纹样标注内容正确与否,为简单起见,仅关注所标
注纹样的名称是否正确;
T/CPRA 200.2-2024
6
b) 方法稳定性:同一张纹样图像经过同一种标注方法前后两次所得到的结果应一致,不能
出现两次标注结果不同的情况。譬如文件名称发生变化等,输出的结果不应发生变化。
纹样图像发生实质性变化(如某个纹样被剔除、增加了某种纹样等)的情况除外;
c) 交互体验性:用户的体验对于系统的设计和开发至关重要,一个纹样标注系统除了依托
标注算法实现最基本的功能以外,必须考虑用户在使用过程中的体验感受。以纹样数据
标注算法和标注功能要求为主,考察系统的交互体验性,进行分级量化打分;
d) 系统持久性:经过标注算法标注的纹样数据应持久化的保存,标注之后的结果应契合持
久化的需求。持久化模块可作为标注系统的重要组成部分,在主观评价中可作为加分项。
主观评价方法采用人工打分表的方式,对一幅图像标注的结果进行打分,打分后,首先依据
表2 计算加权值,去掉最低分和最高分,最后按照平均值排序(权重根据标注需求取值0-1 之间)。
表2 纹样标注效果指标表
描述词占比
内容准确性30
方法稳定性30
交互体验性20
系统持久性20
8.3 客观评价方法
客观评估使用数学模型给出纹样标注质量的量化值。客观评价作为评判标注模型性能的主要
工具,其中很多指标并非人眼能够直接的观察得到,在这里通过量化指标来计算出算法的优劣,
并作为反馈,用于进一步优化算法模型。
对于单标签的纹样标注,宜采用准确率(Accuracy)、精确率(Precision)、召回率(Recall)、
F1 分数(F1 score)等作为评价方法;对于多标签的纹样标注,采用基于样本的排序指标:平均
精度(Average Precision)、1-错误率(One-Error)、覆盖率(Coverage)、排序损失(Ranking Loss)
等作为评价方法。具体指标计算要求如下:
a) 准确率(Accuracy):正确分类的样本个数占总样本个数,值越大越好。
?��?�� =
? + ?
? + ? + ? + ?
# 1
其中,TP(True Positive)代表被判定为正样本,事实上也是正样本的数量;TN(True Negative)
代表被判定为负样本,事实上也是负样本的数量;FP(False Positive)代表被判定为正样本,但
事实上是负样本的数量;FN(False Negative)代表被判定为负样本,但事实上是正样本的数量。
b) 精确率(Precision):预测正确的正样本占预测为正样本的比例,值越大越好。
��???� =
?
? + ?
# 2
c) 召回率(Recall):预测为正确的正样本占实际为正样本的比例,值越大越好。
�?��� =
?
? + ?
# 3
T/CPRA 200.2-2024
7
d) F1分数(F1 score):同时兼顾了精确率和召回率,可以看作是两者的一种调和
平均。
�1 ����� = 2 ∗
��???� ∗ �?���
��???� + �?���
# 4
e) 平均精度(Average Precision):表示排名高于特定标签的相关标签的平均分数,值越大
越好。
��?�? � =
1
�
�=1
�
1
��
CCS L 70
团体标准
T/CPRA 200.2—2024
文化资源数据与数字内容标注技术要求 第2部分:纹样标注
Technical requirements for cultural resources data and digitalcontent annotationPart 2: Pattern annotation
2024-12-13 发布2024-12-13 实施
中国公共关系协会文化大数据产业委员会发布
目次
前言............................................................................... II
1 范围............................................................................... 1
2 规范性引用文件..................................................................... 1
3 术语和定义......................................................................... 1
3.1 文化元素...................................................................... 1
3.2 文化数字内容.................................................................. 1
3.3 文化资源数据.................................................................. 2
3.4 纹样.......................................................................... 2
3.5 标注.......................................................................... 2
3.6 纹样标注...................................................................... 2
4 纹样分类........................................................................... 2
5 纹样标注流程....................................................................... 3
6 标注预处理......................................................................... 4
6.1 预处理输入数据要求............................................................ 4
6.2 预处理方法.................................................................... 4
7 纹样数据标注....................................................................... 4
7.1 纹样数据标注算法要求.......................................................... 5
7.2 纹样数据标注功能要求.......................................................... 5
8 标注结果评价....................................................................... 5
8.1 纹样标注结果质量要求.......................................................... 5
8.2 主观评价方法.................................................................. 5
8.3 客观评价方法.................................................................. 6
T/CPRA 200.2-2024
II
前言
本文件按照GB/T 1.1—2020《标准化工作导则第1 部分:标准化文件的结构和起草规则》的
规定起草。
请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别专利的责任。
本文件由中国公共关系协会文化大数据产业委员会提出并归口。
本文件起草单位:北京邮电大学、北京玖扬科技有限公司、伏羲云(北京)文化科技有限公
司。
本文件主要起草人:徐坤、高凯、赵海英、薛晓鹏、侯小刚、尹晖、周月、徐鹏举、王梓舟、
于振明、崔义娜、陈磊、刘志军、李媛媛。
T/CPRA 200.2-2024
1
文化资源数据与数字内容标注技术要求
第2 部分:纹样标注
1 范围
本文件规定了国家文化大数据体系中文化资源数据与数字内容纹样标注的技术要求,包括纹
样分类、纹样标注流程、标注预处理、纹样数据标注和标注结果评价等技术要求。
本文件适用于国家文化大数据体系中文化资源数据与数字内容纹样标注工具的设计和研发。
2 规范性引用文件
下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引
用文件,仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修
改单)适用于本文件。
GB/T 1.1—2020 标准化工作导则第1 部分:标准化文件的结构和起草规则
T/CPRA 1—2021 国家文化大数据标准体系
T/CPRA 300—2023 文化数字内容分类与代码
T/CPRA 301—2023 文化资源数据分类与代码
3 术语和定义
下列术语和定义适用于本文件。
3.1 文化元素cultural element
是组成文化的最小功能单元,具有独特的文化内涵,例如,一只茶杯、一张弓、一个动作和
一个符号等都是文化元素。由于最小功能单元的确定是相对的,故文化元素亦有可组合性、多样
性、不确定性等特征。在国家文化大数据体系下,文化元素特指文化资源数据和文化数字内容等
的最小数字化功能单元,体现了数字文化作品中组成内容的独特性,一般采用技法将文字、线稿、
色彩、形态、声音等文化要素进行组合的方式存在,且意蕴深远,具有极强的符号性特征,它们
不仅是传统文化的象征,也是文化精神的凝聚。文化元素不仅能体现文化本体价值,更能展现文
化元素发展演化规律。通过对文化数据重构,可提取这些凝结在文化中共性的、具有很强识别性
的、能引起目标群体感知和想象的视觉符号。各种文化元素之间经过关联、标注、重构等加工,
可进一步提升文化元素价值。
[来源: T/CPRA 3100.1—2022 定义3.1.1]
3.2 文化数字内容cultural digital content
以数字形式存在的文化产品,一般以文字、图片、音频、视频、多媒体和其他形式表现。通
常包括传统文化产品的数字化以及以数字形式存在的文化产品。国家文化大数据体系下文化数字
T/CPRA 200.2-2024
2
内容主要涵盖中华优秀传统文化、革命文化和社会主义先进文化等。
文化数字内容作为数字化文化生产线的产出,由文化大数据服务平台管理与分发,并通过文
化体验设施和设备消费。通常情况下,文化数字内容又称为文化数字产品、文化数字内容产品等。
[来源:T/CPRA 300—2023 定义3.1.1]
3.3 文化资源数据cultural resources data
对人类文化中传承下来并可以传播利用的文化(包括物质的和非物质的)进行数字化采集后,
所得到的用于识别和展现文化的图像、文字、声音、动画、影片、三维全景、三维模型等数据。
国家文化大数据体系下文化资源数据主要包括中国文化遗产标本库、中华民族文化基因库、中华
文化素材库中的数据。
[来源:T/CPRA 301—2023 定义3.1.1]
3.4 纹样pattern
纹样是文化元素的子类,指主要被用作服饰、建筑、器皿等物体的装饰,并具有语义、寓意、
历史发展轨迹、地域特点、民族特色的花纹、形状等。
[来源:T/CPRA 3101.1—2022 定义3.1.4]
3.5 标注annotation
对不同文化元素、文化要素标示注记,不仅仅包括纹样、色彩、构型、风格的标注,还包括
深层次的语义信息的打标。在国家文化大数据标准体系中,标注将实现数据底层的工作,并与采
集、关联、解构、重构等关键技术共同服务于上层应用。
3.6 纹样标注pattern annotation
是对文化元素中的纹样元素、纹样要素或纹样基因进行标注的过程。结合现代科技,克服手
动标注的弊端,实现纹样标签的自动标注,不仅仅实现对纹样本身的标注,也要对其语义等信息
进行打标。
4 纹样分类
纹样分类如下表所示:
表1 纹样分类表
序号类名描述
1 动物纹
是一种以各种动物形象为基础,经过艺术加工和变形而形成的
装饰性纹样,常被运用在陶瓷、织物、雕刻等传统艺术形式中,
反映了人们对动物的观察与想象,以及对美好生活的向往和寄
托。
2 人物纹
以人物的形象和活动为主题,运用细腻且传神的线条刻画人物
的姿态、神情与动作。
T/CPRA 200.2-2024
3
3 几何纹
几何纹样是一种以点、线、面等几何元素为基本构成单位,通
过有规律或富有创意的组合、排列、变化而形成的装饰性图案。
4 植物纹
是一种以各类植物的形态、花朵、枝叶等为创作素材,经过艺
术提炼和设计,展现出植物的自然美与象征意义,广泛用于传
统装饰艺术彰显生机与美好的纹样。
5 叙事纹
是一种以叙述故事、情节或事件为主要内容,通过生动的图案
和形象组合展现完整叙事过程,常传递特定文化内涵和价值观
念,常见于传统装饰艺术承载历史与文化记忆的纹样。
6 自然纹
是一种取材于自然界中的各种元素,如山石、水流、日月星辰、
风云雷电等,经过艺术加工和构思,展现大自然的神奇与魅力,
常出现在传统装饰艺术中体现对自然敬畏与热爱的纹样。
7 器物纹
是一种以各类传统器物的形态和特征为灵感来源,经过艺术加
工和变形,展现独特美感和文化内涵,广泛应用于传统装饰艺
术领域的纹样。
5 纹样标注流程
如图1 所示,纹样标注流程包括标注预处理、纹样数据标注、标注结果评价3 个环节。各环
节具体要求及相互关系如下:
图1 纹样标注流程
a) 标注预处理:该环节针对输入图像使用数字化、几何变换、归一化、平滑、复原、增强
等方法,消除图像中无关的信息,恢复有用的真实信息,增强有关信息的可检测性,最
大限度地简化数据,增强标注的可靠性。
b) 数据标注:对处理后的数据,选择适当的标注方法进行标注,输出带有标注信息的纹样
图像。
c) 纹样标注结果评价:对已标注的纹样图像结果,采用主观评价、客观评价方法对其质量
T/CPRA 200.2-2024
4
进行定性、定量分析,根据评价结果优化标注方法。
6 标注预处理
6.1 预处理输入数据要求
输入纹样图像数据应满足以下要求:
a) 宜使用TIF、JPG 或PNG 格式图片;
b) 图像分辨率应大于256*256;
c) 应使用RGB 色彩模式存储的数据;
d) 应大于8 位或16 位色彩存储;
e) 图像应完整记录纹样完整面貌、造型、结构;
f) 图像清晰,色彩均衡,文化元素透视无畸变;
g) 应具备基本的元数据;
h) 应保持原纹样的完整性。
6.2 预处理方法
6.2.1 二维图像噪声去除
二维图像噪声去除的主要功能包括:
a) 分析二维图像噪声源并进行噪声去除;
b) 支持各种类型图像的噪声去除,并且尽可能不对原始图像内容做改变;
c) 去除噪声后二维图像可以还原成原图像。
6.2.2 二维图像光照平衡
二维图像光照平衡应符合以下技术要求:
a) 支持各种类型图像的缩放,并且尽可能不对原始图像内容做改变;
b) 尽可能从原图中消除光照不均匀的影响;
c) 光照均衡后的图像能够满足各类测评指标。
6.2.3 预处理结果数据要求
预处理结果应符合以下技术要求:
a) 光照平衡,宜采用能自适应多种类别图像的算法进行处理;
b) 图像清晰,宜采用图像自适应超分算法进行预处理;
c) 信噪比SNR > 20;
d) 峰值信噪比PSNR > 30;
e) 均方误差MSE < 400。
7 纹样数据标注
T/CPRA 200.2-2024
5
7.1 纹样数据标注算法要求
纹样数据标注算法具体应符合以下技术要求:
a) 宜准确地对每一个图像纹样元素名称进行标注;
b) 宜进一步对纹样的文本特征(如纹样周围文本内容)以及深层次的语义信息(如寓意)
等进行标注;
c) 对于需要定位区域的标注方法,定位区域应在合理的位置,标注内容无冗余、无重叠;
d) 对于手工标注数据,专业人士标注每张图像所需时间应≤5min;
e) 对于自动标注数据,每张图像所需时间应≤100ms;
f) 对于不属于原始数据集类别的纹样种类或者非纹样数据,宜给出相应的提示信息;
g) 标注词应不少于5 个;
h) 标注类别应不少于3 类;
i) 对于训练数据集不足的情况,宜采用数据增强的方法。
7.2 纹样数据标注功能要求
纹样数据标注工具应符合以下功能要求:
a) 标注应具有可视化界面;
b) 应支持自动标注、半自动标注,宜对标注结果进行人工评判,并且能对自动标注结果与
人工参与部分进行区分;
c) 宜具有数据统计功能,支持对未标注和已标注数据的统计结果进行图表显示,包括柱状
图显示、饼图显示等;
d) 标注工具宜具有日志记录功能;
e) 应具备安全功能,譬如加密存储数据、对用户标识并进行相应的访问控制。
8 标注结果评价
8.1 纹样标注结果质量要求
纹样标注后的结果应满足以下要求:
a) 纹样标注的内容应与实际内容相一致;
b) 同一个算法对同一张纹样图像执行相同操作之后得到的结果应一致;
c) 图像若发生变化,输出的结果应与未变化时保持一致。图像内容发生实质变化的情况除
外;
d) 对于单标签图像的纹样标注,准确率(Accuracy)应>= 90%;
e) 对于多标签图像的纹样标注,平均准确率(Average Precision)应>= 75%。
8.2 主观评价方法
以人的主观感知来评价二维图像标注结果,宜采用以下指标:
a) 内容准确性:以人的主观判断来感知纹样标注内容正确与否,为简单起见,仅关注所标
注纹样的名称是否正确;
T/CPRA 200.2-2024
6
b) 方法稳定性:同一张纹样图像经过同一种标注方法前后两次所得到的结果应一致,不能
出现两次标注结果不同的情况。譬如文件名称发生变化等,输出的结果不应发生变化。
纹样图像发生实质性变化(如某个纹样被剔除、增加了某种纹样等)的情况除外;
c) 交互体验性:用户的体验对于系统的设计和开发至关重要,一个纹样标注系统除了依托
标注算法实现最基本的功能以外,必须考虑用户在使用过程中的体验感受。以纹样数据
标注算法和标注功能要求为主,考察系统的交互体验性,进行分级量化打分;
d) 系统持久性:经过标注算法标注的纹样数据应持久化的保存,标注之后的结果应契合持
久化的需求。持久化模块可作为标注系统的重要组成部分,在主观评价中可作为加分项。
主观评价方法采用人工打分表的方式,对一幅图像标注的结果进行打分,打分后,首先依据
表2 计算加权值,去掉最低分和最高分,最后按照平均值排序(权重根据标注需求取值0-1 之间)。
表2 纹样标注效果指标表
描述词占比
内容准确性30
方法稳定性30
交互体验性20
系统持久性20
8.3 客观评价方法
客观评估使用数学模型给出纹样标注质量的量化值。客观评价作为评判标注模型性能的主要
工具,其中很多指标并非人眼能够直接的观察得到,在这里通过量化指标来计算出算法的优劣,
并作为反馈,用于进一步优化算法模型。
对于单标签的纹样标注,宜采用准确率(Accuracy)、精确率(Precision)、召回率(Recall)、
F1 分数(F1 score)等作为评价方法;对于多标签的纹样标注,采用基于样本的排序指标:平均
精度(Average Precision)、1-错误率(One-Error)、覆盖率(Coverage)、排序损失(Ranking Loss)
等作为评价方法。具体指标计算要求如下:
a) 准确率(Accuracy):正确分类的样本个数占总样本个数,值越大越好。
?��?�� =
? + ?
? + ? + ? + ?
# 1
其中,TP(True Positive)代表被判定为正样本,事实上也是正样本的数量;TN(True Negative)
代表被判定为负样本,事实上也是负样本的数量;FP(False Positive)代表被判定为正样本,但
事实上是负样本的数量;FN(False Negative)代表被判定为负样本,但事实上是正样本的数量。
b) 精确率(Precision):预测正确的正样本占预测为正样本的比例,值越大越好。
��???� =
?
? + ?
# 2
c) 召回率(Recall):预测为正确的正样本占实际为正样本的比例,值越大越好。
�?��� =
?
? + ?
# 3
T/CPRA 200.2-2024
7
d) F1分数(F1 score):同时兼顾了精确率和召回率,可以看作是两者的一种调和
平均。
�1 ����� = 2 ∗
��???� ∗ �?���
��???� + �?���
# 4
e) 平均精度(Average Precision):表示排名高于特定标签的相关标签的平均分数,值越大
越好。
��?�? � =
1
�
�=1
�
1
��
