网站地图 | Tags | 热门标准 | 最新标准 | 订阅
您当前的位置:首页 > 行业标准 > 团体标准

T/UNP 257-2024 语音校对专家系统技术规范

  • 文件大小:679.87 KB
  • 标准类型:综合团体标准
  • 标准语言:中文版
  • 文件类型:PDF文档
  • 更新时间:2025-02-26
  • 下载次数
  • 标签

资料介绍

ICS 35.240.01
UNSPSC 43.23.15
CCS L 77
团体标准
T/UNP 257—2024
语音校对专家系统技术规范
Technical specification for speech proofreading expert system
2024 - 11 - 14 发布 2024 - 11 - 14 实施
中国联合国采购促进会 发布

目次
前言............................................................................... III
引言................................................................................ IV
1 范围 .............................................................................. 1
2 规范性引用文件 .................................................................... 1
3 术语、定义和缩略语 ................................................................ 1
术语和定义 .................................................................... 1
缩略语 ........................................................................ 1
4 系统架构 .......................................................................... 2
5 功能要求 .......................................................................... 2
系统登录 ...................................................................... 2
分机设置 ...................................................................... 3
人员设置 ...................................................................... 3
语音信息采集 .................................................................. 3
文本语音校对 .................................................................. 3
语音输出 ...................................................................... 3
6 性能要求 .......................................................................... 3
准确性 ........................................................................ 4
适应性 ........................................................................ 4
兼容性 ........................................................................ 4
稳定性 ........................................................................ 4
7 接口要求 .......................................................................... 4
数据交换格式 .................................................................. 4
编码要求 ...................................................................... 5
API 接口 ...................................................................... 5
语音识别服务接口 .............................................................. 5
语音合成服务接口 .............................................................. 5
接口返回值 .................................................................... 5
8 数据要求 .......................................................................... 5
音频数据 ...................................................................... 5
文本数据 ...................................................................... 5
数据管理 ...................................................................... 5
数据存储 ...................................................................... 5
9 安全要求 .......................................................................... 5
访问控制 ...................................................................... 5
隐私保护 ...................................................................... 5
系统安全 ...................................................................... 6
应用安全 ...................................................................... 6
T/UNP 257—2024
II
10 运维要求 .........................................................................6
监控和报警 ....................................................................6
备份和恢复 ....................................................................6
更新维护......................................................................6
文档管理......................................................................6
故障处理......................................................................6
11 评价改进 .........................................................................7
参考文献 .............................................................................8
T/UNP 257—2024
III
前言
本文件按照GB/T 1.1—2020《标准化工作导则 第1部分:标准化文件的结构和起草规则》的规定
起草。
请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别专利的责任。
本文件由武汉铃声科技有限公司提出。
本文件由中国联合国采购促进会归口。
本文件起草单位:武汉铃声科技有限公司、武汉励为企业管理咨询有限公司、湖北达慕星客商贸有
限责任公司、湖北国威时代信息技术有限公司、武汉锐佳讯科技有限公司。
本文件主要起草人:郑伟莲、卢蹁跹、余汉汉、李嘉茵、胡彬。
T/UNP 257—2024
IV
引言
为助力中国企业参与国际贸易,推动企业高质量发展,中国联合国采购促进会依托联合国采购体系,
制定服务于国际贸易的系列标准,这些标准在国际贸易过程中发挥了越来越重要的作用,对促进贸易效
率提升,减少交易成本和不确定性,确保产品质量与安全,增强消费者信心具有重要的意义。
联合国标准产品与服务分类代码(UNSPSC,United Nations Standard Products and Services
Code)是联合国制定的标准,用于高效、准确地对产品和服务进行分类。在全球国际化采购中发挥着至
关重要的作用,它为采购商和供应商提供了一个共同的语言和平台,促进了全球贸易的高效、有序发展。
围绕UNSPSC进行相关产品、技术和服务团体标准的制定,对助力企业融入国际采购,提升国际竞争
力具有十分重要的作用和意义。
本文件采用UNSPSC分类代码由6位组成,对应原分类中的大类、中类和小类并用小数点分割。
本文件UNSPSC代码为“43.23.15”,由3段组成。其中:第1段为大类,“43”表示“信息技术广播
和电信”,第2段为中类,“23”表示“软件”,第3段为小类,“15”表示“特定于业务功能的软件”。
T/UNP 257—2024
1
语音校对专家系统技术规范
1 范围
本文件规定了语音校对专家系统的系统架构、功能要求、性能要求、接口要求、数据要求、安全要
求、运维要求和评价改进。
本文件适用于语音校对专家系统的开发和应用。
2 规范性引用文件
下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,
仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本
文件。
GB/T 11460 信息技术 汉字字型要求和检测方法
GB 18030 信息技术 中文编码字符集
GB/T 21024 中文语音合成系统通用技术规范
GB/T 34083 中文语音识别互联网服务接口规范
GB/T 34145 中文语音合成互联网服务接口规范
3 术语、定义和缩略语
术语和定义
下列术语和定义适用于本文件。
3.1.1
语音校对专家系统 speech proofreading expert system
利用人工智能技术,对语音识别结果进行校对和修正的系统。
3.1.2
语音识别 speech recognition
将人类的声音信号转化为文字或指令的过程。
[来源:GB/T 21023—2007,3.1]
3.1.3
语音合成 speech synthesis
通过机械的、电子的方法合成人类语言的过程。
注: 该过程所产生的语音称为合成语音,和人的发音器官产生自然语音相区别,有时也叫人工语音(artificial
speech)。
[来源:GB/T 21024—2007,3.1]
3.1.4
语音处理 speech precessing
对语音信号所作的处理(如语音分析、语音压缩、语音识别及语音合成)。
3.1.5
语音交互 speech interaction
人类和功能单元之间通过语音进行的信息传递和交流活动。
[来源:GB/T 36464.2—2018,3.1]
缩略语
下列缩略语适用于本文件。
WAV:波形音频文件格式(Waveform Audio File Format)
T/UNP 257—2024
2
JSON:JavaScript对象表示法(JavaScript Object Notation)
XML:可扩展标记语言(Extensible Markup Language)
CSV:逗号分隔值(Comma-Separated Values)
UTF-8:通用转换格式-8位(Unicode Transformation Format-8 bits)
RESTful:表述性状态转移式(Representational State Transfer)
API:应用程序编程接口(Application Programming Interface)
URL:统一资源定位符(Uniform Resource Locator)
SQL:结构化查询语言(Structured Query Language)
4 系统架构
语音校对专家系统设计遵循分层架构原则,系统架构图见图1,具体包括:
a) 应用层:负责实现主要业务功能,包括系统登录、分机设置、人员设置、语音信息采集、文本
语音校对、语音输出等模块;
b) 运营层:负责系统的日常监控、故障处理与性能优化,确保系统的高效稳定运行;
c) 支撑层:为系统提供操作系统、数据库及中间件等基础服务,支持应用层的正常运行;
d) 网络层:保障系统各模块之间的高效通信和数据的安全传输;
e) 硬件层:提供服务器和存储设备等硬件资源,确保系统的计算能力和数据存储需求;
f) 安全层:通过权限管理、数据加密及安全审计等措施,确保系统和数据的安全;
g) 接口层:提供标准化接口,支持与外部系统的数据交互与协同工作。
图1 语音校对专家系统架构图
5 功能要求
系统登录
5.1.1 用户认证
5.1.1.1 应支持用户名和密码的组合认证。
5.1.1.2 提供多因素认证作为增强安全性的选项,包括但不限于:
a) 短信验证码;
b) 邮箱验证码;
c) 生物识别。
5.1.1.3 对于敏感操作,如修改密码或账户信息,应要求用户重新认证。
5.1.2 密码设置
T/UNP 257—2024
3
5.1.2.1 密码应有最小长度要求,不少于8 个字符。
5.1.2.2 密码应包含大小写字母、数字和特殊字符的组合。
5.1.2.3 密码输入错误达到3 次后,应暂时锁定账户,防止暴力破解。
5.1.3 会话管理
5.1.3.1 登录后应生成唯一的会话标识符,并在服务器端进行管理。
5.1.3.2 会话标识符应在用户登出或超时后失效。
5.1.3.3 应支持跨设备登录状态同步。
分机设置
5.2.1 应支持基本的语音输入和输出功能。
5.2.2 应支持语音识别和文本转换,以及文本到语音的转换。
人员设置
5.3.1 应支持角色权限配置,管理员可调整各人员的访问权限和操作范围。
5.3.2 应支持基本信息的管理,包括但不限于:
a) 人员姓名;
b) 员工号;
c) 密码;
d) 部门;
e) 组号;
f) 分机号。
语音信息采集
5.4.1 应支持WAV、MP3 等多种语音格式。
5.4.2 应支持增加、删除和编辑语音信息。
5.4.3 应支持批量上传语音文件。
文本语音校对
5.5.1 文本语音转换
5.5.1.1 应将文本内容准确地转换为自然、流畅的语音输出。
5.5.1.2 转换过程中宜考虑语调、语速和情感表达,提高语音的自然度和可理解性。
5.5.1.3 应支持多种语言和方言的转换,满足不同用户的需求。
5.5.2 语音校对和优化
5.5.2.1 应能识别并修正转换过程中的错误,如发音错误、语调不自然等。
5.5.2.2 应提供语音优化选项,用户根据个人偏好调整语音的音色、语速和音量等。
5.5.3 实时反馈
5.5.3.1 系统应提供实时的语音反馈,用户能即时听到转换结果,并进行调整。
5.5.3.2 应支持用户对特定文本段落进行重复播放和编辑。
语音输出
5.6.1 应支持语音与文本同步功能,在播放语音的同时显示对应的文本内容。
5.6.2 应能将校对后的文本转化为自然流畅的语音。
5.6.3 应支持语音识别反馈,用户可对输出的语音进行及时校对和调整。
5.6.4 界面应直观易用,方便用户选择文本、启动语音输出等操作。
6 性能要求
T/UNP 257—2024
4
准确性
6.1.1 语音识别准确率
6.1.1.1 在安静环境下,语音识别准确率应不低于95%。
6.1.1.2 在嘈杂环境下,语音识别准确率应不低于85%。
6.1.2 文本校对准确率
系统对识别出的文本进行校对时,应符合以下要求:
a) 政治校对平均准确率达到95%以上;
b) 拼写错误检测准确率不低于90%;
c) 语法错误检测准确率不低于90%;
d) 对用词不当、句子结构混乱等不合理表述的检测准确率不低于90%;
e) 对于专有名词、数字、日期等特殊格式的文本校对准确率不低于99%。
适应性
6.2.1 应具备情境理解能力,在不同的文本类型中保持6.1.2 规定的校对准确率,包括但不限于:
a) 新闻稿;
b) 学术论文;
c) 小说。
6.2.2 应能识别带有地方特色的发音或口音,并进行动态调整。
兼容性
6.3.1 多平台兼容性
应能兼容不同的操作系统平台,包括但不限于:
a) Windows;
b) macOS;
c) Linux。
6.3.2 浏览器兼容性
应能兼容不同的浏览器,包括但不限于:
a) Chrome;
b) Firefox;
c) Safari。
6.3.3 文本编辑软件兼容性
应能兼容各种文本编辑软件,包括但不限于:
a) Microsoft Word;
b) Apple Pages。
稳定性
6.4.1 系统应能连续运行30 天不会出现崩溃或需要重启的情况。
6.4.2 应能在遇到异常情况时自动恢复,并记录详细的错误日志。
7 接口要求
数据交换格式
应支持使用标准化的数据交换格式,包括但不限于;
a) JSON;
b) XML;
T/UNP 257—2024
5
c) CSV。
编码要求
所有数据交换应使用UTF-8编码。
API 接口
7.3.1 系统应提供RESTful API 接口,支持HTTP/HTTPS 协议进行数据传输。
7.3.2 应提供详细的API 文档,包括每个接口的请求方法、URL、请求参数、响应格式。
7.3.3 API 应支持版本控制,在不影响现有客户端的情况下进行更新。
语音识别服务接口
应符合GB/T 34083的规定。
语音合成服务接口
应符合GB/T 34145的规定。
接口返回值
被正确执行的接口返回值应为0,否则应返回非0值,不同的非0值应对应不同的错误原因。
8 数据要求
音频数据
音频数据应符合以下要求:
a) 语音识别的输入音频数据格式符合GB/T 34083—2017 中表1 的规定;
b) 语音合成的输出音频数据格式符合GB/T 34145—2017 中表2 的规定。
文本数据
文本数据符合以下要求:
a) 中文编码字符应符合GB 18030 的要求,并依据GB/T 11460 的规定进行检测;
b) 中文语音合成数据交换格式应符合GB/T 21024 的规定。
数据管理
数据管理应符合以下要求:
a) 实施数据访问控制策略,确保只有授权用户才能访问数据;
b) 支持数据分类和标签化,方便快速定位和检索。
数据存储
8.4.1 应定期备份用户数据。
8.4.2 应实现数据隔离,将用户数据与系统日志、操作数据等进行分离存储。
8.4.3 存储的敏感数据应使用强加密算法进行加密存储,如AES 高级加密标准。
9 安全要求
访问控制
9.1.1 应具备异常访问检测功能,发现异常访问行为时能进行拦截并报警。
9.1.2 应记录所有访问和修改活动。
隐私保护
9.2.1 系统应明确告知用户其个人信息的使用目的、范围和方式,并获得用户同意。
9.2.2 用户有权查询、更正和删除个人信息。
T/UNP 257—2024
6
系统安全
9.3.1 应定期更新系统软件和应用,及时安装安全补丁。
9.3.2 应部署有效的防病毒和恶意软件防护措施。
9.3.3 应定期进行安全审计和漏洞扫描,及时发现并修复安全问题。
应用安全
9.4.1 应定期进行代码审查,及时处理代码安全漏洞。
9.4.2 应定期进行安全测试,包括静态应用安全测试、动态应用安全测试和渗透测试。
9.4.3 应对所有用户输入进行验证,防止SQL 注入、跨站脚本等攻击。
10 运维要求
监控和报警
10.1.1 应实施系统全面监控,包括但不限于:
a) 服务器状态:
1) CPU 使用率;
2) 内存占用;
3) 磁盘I/O。
b) 网络流量:
1) 入站/出站速度;
2) 流量峰值。
c) 应用性能:
1) 响应时间;
2) 并发处理能力;
3) 功能模块执行效率。
10.1.2 应设置报警机制,当检测到异常或性能下降时,通过短信、邮件、即时通讯工具等通知运维团
队,并在报警信息中注明异常发生时间、指标数值、影响范围等。
备份和恢复
10.2.1 应提供语音数据恢复功能,配备专业恢复工具,在系统故障(如硬件损坏、软件崩溃、数据丢
失/损坏)时能快速恢复数据。
10.2.2 应采用数据校验、日志记录等手段,控制备份时的数据读写,确保数据恢复到任意时间点时能
正常运行。
更新维护
10.3.1 应定期进行性能评估和优化,包括数据库优化、代码优化和资源配置调整等。
10.3.2 应定期进行操作系统和软件更新,包括安全补丁和功能升级等。
文档管理
10.4.1 应建立运维文档体系,包括系统架构、操作手册、故障处理指南、配置文档等。
10.4.2 应安排专人定期更新文档,记录文档版本更新内容和时间,方便运维人员查阅使用。
故障处理
10.5.1 应建立故障响应机制,明确故障级别及其对应的响应时间。
10.5.2 当出现故障时,运维团队应通过查看系统日志、监控数据、用户反馈等定位故障原因,依据运
维文档体系采取针对性措施修复,复杂问题应组织专家会诊,处理过程中及时与用户沟通进度。
10.5.3 应使用问题跟踪工具记录已知的问题及其解决进度。
10.5.4 应定期审查问题列表,及时处理遗留未解决的问题。
T/UNP 257—2024
7
11
评价改进
依据第5章~10章规定的要求,定期开展对话流开发平台系统的功能、性能、接口、数据、安全和运维方面的评价,审查不合格项,并有针对性地采取纠偏措施并持续改进。
T/UNP 257—2024
8
参考文献
[1] GB/T 21023—2007 中文语音识别系统通用技术规范
[2] GB/T 36464.2—2018 信息技术智能语音交互系统 第2部分:智能家居

下载说明

关于本站 | 联系我们 | 下载帮助 | 下载声明 | 信息反馈 | 网站地图