网站地图 | Tags | 热门标准 | 最新标准 | 订阅
您当前的位置:首页 > 行业标准 > 团体标准

T/CIATCM 100-2023 中医药文本挖掘数据集构建规范

  • 文件大小:236.86 KB
  • 标准类型:医药卫生
  • 标准语言:中文版
  • 文件类型:PDF文档
  • 更新时间:2025-02-22
  • 下载次数
  • 标签

资料介绍

ICS 35.240.80
团体标准
T/CIATCM 100—2023中医药文本挖掘数据集构建规范
Specification for the construction of Traditional Chinese Medicine text miningdatasets
2023 - 07 - 15 发布2023 - 08 - 01 实施
中国中医药信息学会发布

目次
前言...................................................................................................................................................................... II
1 范围.................................................................................................................................................................... 1
2 规范性引用文件................................................................................................................................................ 1
3 术语和定义........................................................................................................................................................ 1
4 构建原则............................................................................................................................................................ 1
4.1 目标明确.................................................................................................................................................... 1
4.2 确定标准.................................................................................................................................................... 1
4.3 迭代改进.................................................................................................................................................... 1
4.4 评估性强.................................................................................................................................................... 1
5 构建一般步骤.................................................................................................................................................... 2
6 构建主要方法.................................................................................................................................................... 2
6.1 明确建模需求............................................................................................................................................2
6.2 数据标注加工............................................................................................................................................2
6.3 数据审核评估............................................................................................................................................2
6.4 数据修订完善............................................................................................................................................2
附录A (资料性) 文本数据常见标注加工模式...................................................................................... 3
A.1 需求方标注..............................................................................................................................................3
A.2 第三方标注..............................................................................................................................................3
A.3 众包标注..................................................................................................................................................3
附录B (资料性) 面向信息抽取的文本数据常见标注方法.................................................................. 4
B.1 命名实体识别数据集标注方法...............................................................................................................4
B.2 关系抽取数据集标注方法.......................................................................................................................4
T/CIATCM 100—2023
II
前言
本文件按照GB/T 1.1—2020《标准化工作导则第1部分:标准化文件的结构和起草规则》的规定
起草。
请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别专利的责任。
本文件由中国中医药信息学会提出并归口。
本文件起草单位:北京交通大学、中国中医科学院中医药数据中心、湖北中医药大学、湖北省中医
院、河南中医药大学。
本文件主要起草人:周雪忠、刘保延、常凯、夏佳楠、杨扩、肖勇、鄢灯莹、舒梓心、田昊宇、李
晓东、周亚娜、余海滨、孙海龙、花睿。
T/CIATCM 100—2023
1
中医药文本挖掘数据集构建规范
1 范围
本文件规定了中医药临床病历、古籍、文献等适用于机器学习领域文本挖掘数据集构建的基本
原则和要求。
本文件适用于中医医疗、科研、教学、信息化建设等领域数据处理、交换与共享。
2 规范性引用文件
下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注明日期的引
用文件,仅该日期对应的版本适用于本文件;未注明日期的引用文件,其最新版本(包括所有的修
改单)适用于本文件。
GB/T 20000.1—2014 标准化工作指南第1部分:标准化和相关活动的通用术语
T/CIATCM 058—2019 中医药信息标准编制通则
3 术语和定义
下列术语和定义适用于本文件。
3.1
基准数据集benchmark dataset
用于机器学习模型训练的,符合一定规范要求的数据集。
3.2
文本挖掘数据集dataset for text mining
适用于文本挖掘任务,如命名实体识别、关系抽取、文本分类等模型训练与测试要求的数据集。
4 构建原则
4.1 目标明确
明确数据集所要解决的实际问题,确定数据标注的深度与广度。
4.2 确定标准
数据集自身采用的标签与特征应达到行业共识,确保数据集的规范性和可靠性。
4.3 迭代改进
构建最小必要数据集完整闭环,能快速形成数量级的迭代提升和改进,形成更大规模数据集。
4.4 评估性强
针对命名实体识别、关系抽取、事件抽取、文本分类等不同任务,在评价指标上能取得较好的
效果,可持续估计并不断完善。
T/CIATCM 100—2023
2
5 构建一般步骤
a)明确建模需求,明确数据集预期支撑的建模任务;
b)数据标注加工,按照预定目标及要求进行人工标注;
c)数据审核评估,对数据集进行规范性与完整性审核与评估;
d)数据修订完善,根据评估结果对数据集不断迭代加工与修改完善。
6 构建主要方法
6.1 明确建模需求
在此阶段,应当明确数据集构建的模型服务目标和任务,根据模型的需求确定数据标注的形式
与内容。
a)数据预处理:包括文本分段、去除停用词、词干提取、词形还原、词袋模型、词嵌入等;
b)明确建模类型:明确支撑哪类模型的构建,如命名实体识别、关系抽取、事件抽取和文本分
类等;
c)明确标签类别与数量:根据任务明确支撑模型构建所需要的标签类别与数量。例如,命名实
体识别中的实体类别及数量,关系抽取中的关系类别及数量、文本分类中的类别标签及数量等。
6.2 数据标注加工
在此阶段,可借助相应的软件系统,完成中医药文本数据的标注与加工,形成模型可用的数据
集,标注过程需要遵循预定的标注规则和目标。
a)手动标注:由专业人员进行人工标注;
b)半自动标注:利用规则或模型进行初步标注,然后由专业人员进行修正;
c)自动标注:使用训练好的模型进行标注。
文本数据常见标注加工模式见附录A,面向信息抽取的文本数据常见标注方法见附录B。
6.3 数据审核评估
此阶段是对数据集的规范性、完整性等进行审核,并对相应训练后的模型性能进行评估。
a)性能指标:如标注错误率,模型的准确率、召回率、F1值、ROC曲线、AUC值等;
b)人工审核:对比分析模型在哪些类型的数据上表现不好,同时进行人工审核,以便于优化。
6.4 数据修订完善
此阶段是在数据审核评估后对数据集在质量和数量方面开展进一步的修订和完善,最终形成能
够支撑较好性能的文本挖掘模型的基准数据集。
a)标注错误修正:根据审核结果与模型评估结果对特定样本中存在的错误进行标注修正;
b)样本数量补充:根据经典模型的训练与测试评估,适度增加标注样本的数量,以提升模型的
性能与可用性。
T/CIATCM 100—2023
3
附录A
(资料性)
文本数据常见标注加工模式
A.1 需求方标注
由需求方自主完成数据标注任务,通常自主研发标注平台或购买其他标注平台。适用于数据保
密性强,需要及时沟通协调的任务。
a)需要有专业的人员或团队进行标注,对任务领域有深入的理解;
b)需要有能够支持标注任务的标注工具或平台,能够存储、管理和查看标注数据;
c)需要有明确的标注规则,标注人员应该按照相同的规则进行标注;
d)有质量控制机制,定期进行标注质量的检查和评估;
e)有数据保护和备份的机制,确保数据的安全性。
A.2 第三方标注
由需求方委托第三方完成数据标注任务,需求方负责数据的质量控制和审核检验。适用于自身
标注能力有限,且对业务流程要求不高的任务。
a)第三方需要有专业的标注团队和成熟的标注工具;
b)第三方需要有数据保密和安全的保障措施;
c)第三方需要有高效的标注流程和管理机制;
d)需要有明确的委托协议,包括交付期限,数据的使用、保护、所有权等问题;
e)需求方需要定期进行质量审核,确保标注质量达标。
A.3 众包标注
完全依托第三方平台完成数据标注任务,通过平台的众包功能进行标注,适用于时间紧、标注
数据量大、数据保密和隐私性要求不高的任务。
a)需要有大量的众包标注者,并开展培训以理解标注任务;
b)需要有支持大规模并行标注的平台和工具;
c)需要有明确的标注规则,以及对标注质量的评估机制;
d)需要有激励机制,鼓励标注者提供高质量的标注。
T/CIATCM 100—2023
4
附录B
(资料性)
面向信息抽取的文本数据常见标注方法
B.1 命名实体识别数据集标注方法
在命名实体识别任务中,对字符级别实体的标注主要有BIO标记法和BIOES标记法。序列标注常
用标签列表如下:
B-Entity:即Begin,表示实体中的第一个字符;
I-Entity:即Intermediate,表示实体中间的字符;
O:即Other,表示非识别实体;
E-Entity:即End,表示实体中的最后一个字符;
S-Entity:即Single,表示一个单独字符构成的实体。
如:临床病历文本“主诉:呼吸困难2天。”,BIOES标注如表B.1所示。
表B.1 命名实体识别标注示例
主诉: 呼吸困难2 天。
O O O
B-阳性
症状
I-阳性症

I-阳性症

E-阳性
症状
B-持续
时间
E-持续
时间
O
B.2 关系抽取数据集标注方法
结合命名实体识别数据集中抽取的主要实体,设计得到实体间关系的定义。
如“桂枝汤主治头痛发热,汗出恶风”。首先,找出句子中包含的实体类别,分别为“方名”
和“阳性症状”,存在的关系为“方症关系”。然后,将所有实体两两配对,得到所有实体的组合
对,再添加原始的文本数据。最后,按照“关系名实体1 实体2 原始数据”的格式生成标注后的关
系数据集。其中各部分之间使用空格符号进行分隔。标注完成后的数据如表B.2所示。
表B.2 关系抽取标注示例
序号关系数据(关系名实体1 实体2 原始数据)
1 方症关系桂枝汤头痛桂枝汤主治头痛发热,汗出恶风
2 方症关系桂枝汤发热桂枝汤主治头痛发热,汗出恶风
3 方症关系桂枝汤汗出桂枝汤主治头痛发热,汗出恶风
4 方症关系桂枝汤恶风桂枝汤主治头痛发热,汗出恶风
_________________________________

下载说明

关于本站 | 联系我们 | 下载帮助 | 下载声明 | 信息反馈 | 网站地图