T/GLAC 20-2024 导航应用软件 智能语音交互与引导技术要求
- 文件大小:830.45 KB
- 标准类型:综合团体标准
- 标准语言:中文版
- 文件类型:PDF文档
- 更新时间:2025-03-07
- 下载次数:
- 标签:
资料介绍
ICS 07.040
CCS A75
中国卫星导航定位协会团体标准
T/GLAC 20—2024
导航应用软件 智能语音交互与引导技术要求
Technical requirements for intelligent voice interaction and guidance of navigation application software
2024 - 07 - 12发布2024 - 07 - 12实施
中国卫星导航定位协会 发布
目次
前言 .................................................................................III
1 范围 ................................................................................1
2 规范性引用文件 ......................................................................1
3 术语和定义 ..........................................................................1
4 总体要求 ............................................................................3
4.1 基本能力 ........................................................................3
4.2 语音交互成功率 ..................................................................3
4.3 语音交互响应时间 ................................................................3
4.4 硬件设备适用性 ..................................................................3
4.5 用户隐私保护 ....................................................................3
5 系统框架 ............................................................................3
6 语音交互界面 ........................................................................4
6.1 语音采集 ........................................................................4
6.2 语音应答 ........................................................................4
6.3 语音播报 ........................................................................5
6.4 输入输出 ........................................................................5
6.5 环境噪声适应能力 ................................................................5
7 数据资源 ............................................................................5
7.1 音频数据 ........................................................................5
7.2 文本数据 ........................................................................5
7.3 地图数据 ........................................................................5
8 前端处理 ............................................................................5
8.1 语音唤醒 ........................................................................5
8.2 语音增强 ........................................................................6
9 语音处理 ............................................................................6
9.1 语音识别 ........................................................................6
9.2 语义理解 ........................................................................6
9.3 多轮交互 ........................................................................6
9.4 语音合成 ........................................................................7
9.5 全双工交互 ......................................................................7
10 地图服务 ...........................................................................7
10.1 语音查询 .......................................................................7
10.2 语音提示 .......................................................................7
10.3 语音引导 .......................................................................7
11 导航业务应用 .......................................................................8
11.1 查找目的地 .....................................................................8
T/GLAC 20—2024
II
11.2 引导信息播报 ...................................................................8
11.3 结束导航 .......................................................................9
11.4 驾车场景 .......................................................................9
11.5 步行场景 ......................................................................10
11.6 骑行场景 ......................................................................11
11.7 公交场景 ......................................................................11
11.8 地铁场景 ......................................................................12
参考文献 ..............................................................................13
T/GLAC 20—2024
III
前言
本文件按照GB/T 1.1—2020《标准化工作导则 第1部分:标准化文件的结构和起草规则》的规定起草。
请注意本文件的某些内容可能涉及专利,本文件的发布机构不承担识别这些专利的责任。
本文件由中国卫星导航定位协会提出并归口。
本文件起草单位:北京百度网讯科技有限公司、北京百度智图科技有限公司、清华大学、高德软件有限公司、沈阳美行科技股份有限公司、易图通科技(北京)有限公司、腾讯科技(深圳)有限公司。
本文件主要起草人:黄际洲、夏德国、李宏利、肖飞、孙一博、杨殿阁、莫格彬、李博群、汤咏林、刘小刚、朱洪飞、于迅文、江昆、杨蒙蒙、王少磊、郭成春、万里、俞成臻、迟丽丽、黄志华。
T/GLAC 20—2024
1
导航应用软件
智能语音交互与引导技术要求
1 范围
本文件规定了导航应用软件智能语音交互与引导技术的总体要求,规定了系统框架、语音交互界面、数据资源、前端处理、语音处理、地图服务及导航业务应用要求。
本文件适用于导航应用软件智能语音交互与引导服务相关产品的设计、研发和应用。
2 规范性引用文件
下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。
GB/T 36464.1—2020 信息技术 智能语音交互系统 第1部分:通用规范
GB/T 36464.4—2018 信息技术 智能语音交互系统 第4部分:移动终端
GB/T 36464.5—2018 信息技术 智能语音交互系统 第5部分:车载终端
GB/T 39774—2021 导航应用软件基本功能及技术要求
3 术语和定义
下列术语和定义适用于本文件。
3.1
语音交互系统 speech interaction system
由功能单元(或其组合)、数据资源等组成的能够实现与人类之间进行语音交互的系统。
[来源:GB/T 36464.1—2020,3.2]
3.2
智能语音交互 intelligent speech interaction
基于语音识别、语音合成、自然语言理解等人工智能技术,实现人类和功能单元之间通过语音完成信息传递和交流的活动。
3.3
智能语音引导 intelligent voice guidance
综合应用语音识别、语义理解、语音合成等人工智能技术,使用准确、简洁的语音提供出行导航引导信息。
3.4
功能单元 functional unit
能够完成特定任务的硬件实体,或软件实体,或硬件实体和软件实体。
[来源:GB/T 36464.1—2020,3.5]
3.5
语音合成 speech synthesis
通过机械的、电子的方法合成人类语言的过程。
[来源:GB/T 36464.1—2020,3.6]
3.6
语音识别 speech recognition
将人类的声音信号转化为文字或者指令的过程。
[来源:GB/T 36464.1—2020,3.7]
T/GLAC 20—2024
2
3.7
命令字识别 command word recognition
一种基于语音识别语法的语音识别方式,是在语音识别语法规则限定的范围内,对于给定的语音输入,语音识别引擎给出语音识别语法覆盖范围内的文本或拒识作为识别结果。
[来源:GB/T 36461.1—2020,3.9]
3.8
连续语音识别 continuous speech recognition
识别任意的连续语音,并给出相对应的文本。
[来源:GB/T 36461.1—2020,3.10]
3.9
语音唤醒 speech wakeup; voice trigger
处于音频流监控的语音交互系统,在检测到特定的特征或事件出现后,切换到命令字识别、连续语音识别等其他处理状态的过程。
[来源:GB/T 36461.1—2020,3.17]
3.10
语音增强 speech enhancement
当有效语音信号被其他各种信号干扰甚至淹没时,能抑制、降低噪声干扰并从含有噪声背景的声音信号中提取有效语音信号的技术。
3.11
语音打断 speech interruption
语音交互系统在播放声音的过程中,当语音采集设备检测到有效语音输入时,中断播放声音,转到语音识别等其他处理过程。
[来源:GB/T 36461.1—2020,3.29]
3.12
语义理解 semantic understanding
使功能单元理解人说话的意图。
[来源:GB/T 36464.1—2020,3.11]
3.13
指代消解 coreference resolution
在自然语言处理中,通过分析文本上下文和语义信息,兼顾语境信息和语义相似度,确定代词、名词短语等所指代的具体对象或实体的过程。
3.14
知识推理 knowledge inference
基于已知信息,逻辑思维推导出新的未知信息或结论的过程。
3.15
槽位 slot
语音指令所明确定义的属性信息,功能单元执行操作前需要获取的关键参数。
3.16
大语言模型 large language model
基于大量数据进行预训练的超大型深度学习模型,使其能够理解和生成自然语言和其他类型的内容,以执行各种任务。
3.17
播报元素 broadcasting elements
在导航场景中,构成播报内容的基础性和结构性组件,是导航过程中提供清晰、准确、及时的诱导语音的最小粒度单位。包括动作(如左转、右转等)、辅助动作(进入主路、上高架等)、车道、路牌、设施、安全信息等。
3.18
误唤醒 false wakeup
T/GLAC 20—2024
3
语音唤醒过程中出现的,无音频流或者音频流中没有出现唤醒所需的特征或事件时,语音唤醒系统被唤醒的现象。
[来源:GB/T 36464.4—2018,3.18]
4 总体要求
4.1 基本能力
应通过智能语音交互与引导技术,实现对导航应用软件的指令输入和结果输出的控制,实现驾驶员或出行者依赖听觉器官和发声器官即可获得从出发地到目的地的完整导航服务。
4.2 语音交互成功率
语音交互成功率应符合 GB/T 36464.5—2018 中 5.2.6 的规定,不低于 70 %。
4.3 语音交互响应时间
语音交互响应时间宜符合 GB/T 36464.5—2018 中 5.2.7 的规定,不大于 3 s。
4.4 硬件设备适用性
硬件设备适用性应符合下列要求:
a)
应符合GB/T 39774—2021中4.4的规定;
b)
应符合基本的音频采集的硬件(传声器或麦克风阵列)和基本的音频播放的硬件(喇叭等)的要求;
c)
应符合网络通讯要求,可接收Wi-Fi或者蜂窝移动网络信号,计算设备的CPU 主频2000 MHz以上,内存1 GB以上,内存的计量单位是字节(Byte);
d)
宜适配各种操作系统,至少应适配Android、iOS、Harmony、QNX或Linux等。
4.5 用户隐私保护
用户隐私保护的基本要求如下:
a)
收集到的用户语音数据只能用于改善系统语音识别能力,不能用于其他任何目的;
b)
用户语音数据收集应最小化,明确告知用户数据使用范围;
c)
对用户语音数据进行加密存储和匿名处理,并对数据做到访问权限控制和安全传输。
5 系统框架
导航应用软件智能语音交互与引导系统分为语音交互界面、数据资源、前端处理、语音处理、地图服务、导航业务应用等功能模块,如图1所示,其中:
a)
语音交互界面提供系统与人直接进行语音交互的人机界面,包括语音采集、语音应答、语音播报、语音信号输入输出、环境噪声适应能力;
b)
数据资源包括系统处理的音频数据、文本数据和地图数据;
c)
前端处理包括音频降噪、声纹识别、语音唤醒、语音增强,负责将语音输入转化为语音流,作为语音处理模块的输入;
d)
语音处理包括语音识别、语义理解、多轮交互、语音合成、全双工交互等功能;
e)
地图服务提供基于地图内容的目的地途径地检索、规划路径生成、途中引导信息生成和警告信息提示等接口服务;
f)
导航业务应用主要对语音处理的结果转换为对应的应用指令并反馈业务相应结果,包括对驾车场景、步行场景、骑行场景、公交场景、地铁场景的处理。各场景处理基本要求如下:
1)
驾车场景应提供查找目的地、路径规划结果告知、引导信息播报、交通信息问询等功能;
2)
步行场景应提供查找目的地、路径规划结果告知和引导信息播报等功能;
3)
骑行场景应提供查找目的地、路径规划结果告知和引导信息播报等功能;
4)
公交场景应提供查找目的地、公交换乘线路和到站提醒播报等功能;
5)
地铁场景应提供查找目的地、地铁换乘线路和到站提醒播报等功能。
T/GLAC 20—2024
4
图1
系统框架示意图
6 语音交互界面
6.1 语音采集
语音采集应符合 GB/T 36464.1—2020 中 5.1 的规定。
6.2 语音应答
6.2.1 一般要求
系统应支持针对用户的输入,通过语音答复的能力,即完成操作者与导航应用软件的一问一答、有问有答地人机交互。
6.2.2 声音要求
应答声音应符合以下要求:
a)
声音应清晰,语速适中,宜为每分钟220字左右;
b)
宜支持个性化语音定制功能,用户可设置定制化语音进行应答;
c)
宜支持个性化语速定制功能,用户可设置定制化语速进行应答。
6.2.3 内容要求
应答内容应符合以下要求:
a)
应包含执行成功/执行不成功等基础问答内容;
b)
可包含详情内容和问询内容。导航中业务应用要求见本文件第11章。
T/GLAC 20—2024
5
示例1:
找到颐和园,位于北京市海淀区,距离你x km。
示例2:
去这里可以么?
6.2.4 语言要求
应答语言应符合以下要求:
a)
应支持按照用户自主设置的语言进行语音应答;
b)
应符合GB/T 36464.1—2020中5.3的规定。
6.3 语音播报
6.3.1 一般要求
系统应支持语音播报的主动引导能力。
6.3.2 声音要求
播报声音应符合 6.2.2 的规定。
6.3.3 内容要求
播报内容应符合以下要求:
a)
应在恰当时机主动为用户播报;
示例:
有更快路线推荐是否需要切换?
b)
应包含主动的引导内容。
示例1:
您已超速,请减速。
示例2:
前方电子眼,请谨慎驾驶。
6.3.4 语言要求
播报语言应符合 6.2.4 的规定。
6.4 输入输出
输入输出要求应符合 GB/T 36464.1—2020 中 5.3 的规定。
6.5 环境噪声适应能力
环境噪声适应能力应符合 GB/T 36464.1—2020 中 5.4 规定的要求。
7 数据资源
7.1 音频数据
音频数据应符合 GB/T 36464.1—2020 中 6.1 的规定。
7.2 文本数据
文本数据应符合 GB/T 36464.1—2020 中 6.2 的规定。
7.3 地图数据
导航电子地图数据应符合 GB/T 39774—2021 中 4.3 的规定。
8 前端处理
8.1 语音唤醒
语音唤醒应符合 GB/T 36464.1—2020 中 7.1 的规定。除此之外应符合以下要求:
a)
语音唤醒模型应能够部署运行在满足4.4硬件要求的终端设备上,实现快速响应,应支持在无网络环境下的唤醒能力;
b)
在车内环境下,宜保证准确率达到95 %以上,在车外环境下宜达到90 %以上;
T/GLAC 20—2024
6
c)
宜做到实时语音识别,响应延迟不高于1 s;
d)
当语音识别出现错误时,应有反馈机制,以提高识别精度,无错误时不反馈;
e)
应降低误唤醒情况发生,误唤醒率宜小于1次/h,以免为用户造成困扰。
8.2 语音增强
语音增强应符合 GB/T 36464.1—2020 中 7.4 的规定。除此之外应符合以下要求:
a)
应根据检测到的环境噪声强度自动调整音量的增益控制,以保持输出语音的一致性和稳定性;
b)
可通过调整语音信号频谱特性,提高语音的清晰度。
9 语音处理
9.1 语音识别
语音识别应符合 GB/T 36464.1—2020 中 8.1 的规定。除此之外应符合以下要求:
a)
应能区分真人声音和录音,避免被合成语音攻击;
b)
应支持分离和识别各个通道语音的能力;
c)
应确保在典型应用环境的可用性,噪声环境适应性应符合GB/T 36464.5—2018中5.2.2的规定;
d)
应做到低延迟的语音识别,以保证交互体验的流畅性,延迟时间小于1 s;
e)
应具有持续学习能力,来提高语音识别性能。
9.2 语义理解
9.2.1 概述
语义理解按照实现方式分为传统语义理解和大语言模型语义理解。基于大语言模型的语义理解方案,支持端到端地将用户的问题映射成对应的应用程序编程接口(API)调用。
9.2.2 传统语义理解
传统语义理解应符合 GB/T 36464.1—2020 中 8.2 的规定。除此之外应符合以下要求:
a)
宜能够结合上下文对话历史和环境,准确捕捉用户意图;
b)
宜能够根据用户反馈,持续学习,来不断优化语义理解能力;
c)
宜支持快速处理新增意图和槽位提取的能力;
d)
宜具有基本推理能力;
e)
宜能够针对对话情景的特点和约束,提供针对性的理解和响应。
9.2.3 大语言模型语义理解
基于大语言模型的语义理解方案除符合 9.2.2 要求外,还应符合以下要求:
a)
模型推理过程应透明;
b)
模型应有能力理解和记忆长期对话历史,不少于1年;
c)
应对生成的输出内容和决策结果进行验证,确保信息的准确性;
d)
应确保模型不会无中生有,编造虚假信息;
e)
防止模型运行时产生有害、歧视、色情等不适当的内容;
9.3 多轮交互
9.3.1 一般要求
多轮交互应结合上下文信息,对用户当前文本进行准确语义理解,并且应具备主动开启新一轮对话的能力。除了应具有指代消解、省略槽位自动补齐、意图或槽位澄清、知识推理等功能模块之外,还应具有容错机制、自然交互、对话中断与恢复、可扩展性、个性化交互等功能。
9.3.2 容错机制
系统应具备对语义理解错误的结果进行错误提示和自动校正的机制。
T/GLAC 20—2024
7
9.3.3 对话中断与恢复
用户中断对话或重启对话时,应准确理解和判断是否开启新的对话,还是承接上一个对话。
9.3.4 可扩展性
应支持新的交互需求快速融入。
9.3.5 个性化交互
在保障用户隐私的前提下,获取用户授权后,结合用户偏好和历史行为,宜提供个性化的交互体验。
9.4 语音合成
语音合成要求应符合 GB/T 36464.1—2020 中 8.3 的规定。除此之外还应符合以下要求:
a)
宜支持个性化语音定制功能,通过用户自定义的语调、音色和语速实现语音合成功能;
b)
个性化语音定制时的训练样本语句应在20句话以内,每句话的字数宜在20个字以内。
9.5 全双工交互
全双工交互应符合 GB/T 36464.1—2020 中 8.6 的规定。除此之外还应符合以下要求:
a)
环境噪声适应能力,应符合GB/T 36464.1-2020中5.4的规定;
b)
语音打断的能力,应符合GB/T 36464.5—2018中5.3.2的规定。
10 地图服务
10.1 语音查询
10.1.1 查询对象
查询对象应符合 GB/T 39774—2021 中 5.2.1 的规定,宜给出深度服务信息。
10.1.2 查询结果列表
查询结果列表应符合下列要求:
a)
支持通过语音播报查询结果列表;
b)
优先选择满足用户需求的唯一结果;
c)
当存在多个查询结果时,通过结果相关性顺序播报查询结果列表。
10.1.3 查询效率
用户查询语音指令发出后,查询的响应时间和超时处理应符合下列要求:
a)
在行进中导航场景做到快速响应,查询响应时间应小于2 s;
b)
在行进前复杂决策场景,查询响应时间应小于3 s;
c)
若查询响应时间大于3 s时,应在等待过程中给予用户处理过程的进度反馈;
d)
若查询响应时间超出5 s时,应给出查询超时响应并退出操作。
10.2 语音提示
语音提示应符合 GB/T 39774—2021 中 5.5.2 的规定。
10.3 语音引导
10.3.1 一般要求
语音引导应及时准确,在 GB/T 39774—2021 中 5.4.3 规定的场景下应能全部及时给出语音引导指令。
10.3.2 引导时机
语音引导时机应及时准确,应根据实时车速、所在道路类别和交通场景设置合理的引导时间提前量,为导航应用软件使用者留出预判和执行下一步动作的时间。
T/GLAC 20—2024
8
11 导航业务应用
11.1 查找目的地
查找目的地应支持发起导航前查找目的地、导航过程中更换目的地、途经某地去往目的地三种场景的语音指令交互。交互过程应按如下步骤执行:
a)
通过预先定义的命令字唤醒系统;
b)
用户语音说出使用场景与目的地名称或者途经某地去往目的地;
示例1:
导航去中国美术馆。
示例2:
途经中国美术馆,导航去往朝阳公园南门。
c)
导航前查找目的地:播报目的地详细信息,询问是否发起导航;
示例3:
为您找到中国美术馆,位于东城区五四大街1号,需要导航吗?
d)
导航中更换目的地:播报目的地详细信息,询问是否更换目的地;
示例4:
为您找到中国美术馆,距您1.2 km ,需要更换目的地吗?
e)
途径某地去往目的地:导航前与导航中支持多个途经地点的设置与删除,播报途径地详细信息,询问用户是否确认途经地点。
示例5:
为您找到途经中国美术馆、中国国家博物馆的路线,需要开始导航吗?
11.2 引导信息播报
引导信息播报应符合如下要求:
a)
语音播报内容应根据不同场景和应用方式建立语音模板,在具体位置对特定模板的内容进行填充,最后将组织好的文字通过语音合成技术形成语音适时播报;
b)
导航诱导语音播报模板基础类别和要求如下:
1)
路口转向提示信息
路口转向提示语音模板的基本结构宜为“‘前方’+距离+操作+‘去往’+前方道路名称+附加提示”。“距离”是指从当前位置到转向处的距离。“操作”是指到转向处时,需要做的操作,可分为左转、右转、靠左、靠右等。“附加提示” 是指结合道路实际情况、车道和自然地物(如红绿灯路口、三岔路、上高架)等补充播报信息。
示例1:
前方500 m 请右转,去往西五环路,请注意提前并入最右侧车道。
2)
路段中警示提示信息
路段中警示提示包括实地警示信息提示与针对用户违规行为提示,应符合如下要求:
实地警示信息语音模板基本结构宜为“‘前方’+距离+警示场景+(附加信息)”。“距离”是指从当前位置到现场警示信息的距离。“警示场景”是指隧道、铁道、桥梁、电子监控设备、交通警告设施等。“附加信息”是指当有监控设备时,此段道路的限速值信息,或有交通警告牌的路段对应的驾驶提示信息等。
示例2:
前方300 m 有测速摄像头,限速80 km/h。
应对用户违反法规、或影响用户驾驶安全的行为进行强烈提醒。提醒的优先级应高于一般的警示信息。
注:
用户违反法规、或影响用户驾驶安全的行为包括违规变道、违规转向、违规通行、超速、走应急车道、在规定的时段内占用公交车道等违规行为。
3)
路段中路况提示信息
以实时路况、事故、红绿灯倒计时为主,路段中路况提示语音模板基本结构宜为“‘前方’+距离+前方道路名称+警示场景+(附加信息)”。“警示场景”可根据内容分为拥堵路况提示、路口路况提示、交通事件提示等。
示例3:
前方300 m 黄河北大街严重拥堵,请注意绕行。
示例4:
前方300 m 路口红灯即将变绿,请准备起步。
4)
友情提示信息
友情提示分为与地点相关及与地点无关提示。与地点相关语音模板的基本结构宜为“‘前方’+距离+友情提示”,“友情提示”可根据内容分为出发时提示、抵达目的地提示等。与地点无关友情提示可包含疲劳驾驶、服务区休息、路段积水、横风大雾、红绿灯变灯提醒等驾驶关怀信息。
示例5:
前方100 m到达目的地,石景山游乐园在您的右前方。
T/GLAC 20—2024
9
c)
播报频次要求
导航过程中应根据不同信息的重要程度、以及用户的操作成本和判断成本的不同,给用户进行不同频次的强调。
1)
简单的直行路口在路口前给予用户1—2次提醒;
2)
转向角度大的路口或多方向的复杂路口需要用户提前选择好方向,应给用户2次以上提醒;
3)
多个汇入口、多个相同类型电子眼等距离相近的相同信息,可适当合并播报,降低播报频次。
d)
播报时机要求
播报内容应在合适的时机播报传达给用户,确保用户在听到信息后能及时有效做出反应。
e)
播报优先级要求
道路元素多且复杂,当相同位置存在多个需要提示的信息时,应根据信息的重要程度决策最高优的一个进行提示。优先级从高到低应依次为驾驶安全提示、路口转向提示、直行路口提示、道路安全提示。
f)
播报表达要求
播报表达除了语言足够清晰易懂,还应符合以下要求:
1)
每一句播报的话术长度不宜超过50字或15 s;
2)
播报元素不宜超过5个;
3)
两句播报之间应有间隔,不宜连续不停播报,播报间隔宜大于1 s,小于2 s。
11.3 结束导航
11.3.1 结束方式
结束方式应符合 GB/T 39774—2021 中 5.4.5 中的规定,除此之外,还应满足可通过下列语音交互方式结束导航:
a)
通过预先定义的命令字唤醒系统;
b)
用户语音输入“结束导航”;
c)
语音回复操作结果。
示例:
导航结束下次见。
11.3.2 结束要求
结束导航应符合如下要求:
a)
应在合适的位置结束,用户距离目的地300 m 以上不宜结束导航;
b)
用户在到达目的地后仍在导航,可以通过语音问询是否需要继续导航。
11.4 驾车场景
11.4.1 查找目的地
驾车场景查找目的地,基本要求见11.1。当目的地存在停车场等更加精细的诱导信息时,可通过语音进行二次交互。
示例:
为您找到奎科科技大厦,西门存在停车场,要导航去西门么?
11.4.2 引导信息播报
驾车场景引导信息播报,一般要求见11.2,同时应符合如下要求:
a)
播报内容要求:对于驾车安全的路段中警示信息应覆盖完整;
b)
播报频次要求:转向角度大的路口和多方向的路口需要用户提前选择好车道与方向,操作和选择成本更高,应给用户4~5次以上的预警;
c)
播报时机要求:车道提示应根据道路等级、道路交通状况、用户车速等综合判断提前距离,应保证在听到后仍有足够变道范围,限速电子眼提示应根据道路等级、道路交通状况、用户车速等综合判断提前距离,应保证听到后有足够的减速区间;
T/GLAC 20—2024
10
d)
播报优先级要求:驾车场景下应按照路口转向提示>直行路口提示>限速抓拍、违章抓拍>道路安全提示的信息重要程度排序;
e)
播报表达要求:驾车场景无特殊要求时播报应简明扼要、容易理解、自然亲切,避免干扰用户驾驶及减少听觉疲劳。
11.4.3 交通信息问询
驾车场景下,应符合常用交通信息、不同形式的语音指令交互,应包括限行信息问询、限速信息问询、路况信息问询、交通限制信息问询、服务区信息问询、高速收费金额信息问询等,查询的基本示例如下:
a)
通过预先定义的命令字唤醒系统;
b)
语音问询不附加条件的限行信息;
示例1:
今天限号多少?
c)
播报用户所在地理位置的限行信息;
示例2:
(地理位置在北京)北京市今天限行尾号为5和0。
d)
语音问询指定区域的限行信息;
示例3:
北京市限号多少?
e)
播报指定区域的限行信息;
示例4:
北京市今天限行尾号为5和0。
f)
语音问询指定区域的交通限制信息;
示例5:
青年大街禁止左转时间是多少?
g)
播报指定区域的交通限制信息;
示例6:
青年大街全天禁止左转。
h)
语音问询不附加条件的服务区信息;
示例7:
离服务区多远?
i)
播报用户所在地理位置的服务区信息;
示例8:
前方500 m 到达刘千户服务区。
j)
语音问询指定区域的高速收费金额信息;
示例9:
去沈阳故宫走高速的费用。
k)
播报指定区域的高速收费金额信息。
示例10:
去往沈阳故宫高速费用约为100元。
11.4.4 信息上报
驾车导航过程中,事故、拥堵、施工、封路等场景可通过语音交互上报事件详细信息,交互轮次不宜超过3轮,信息交互应符合如下要求:
a)
通过预先定义的命令字唤醒系统;
b)
用户语音说出上报类型;
c)
语音引导用户提供详细信息。
示例:
用户:G2高速3公里处占道施工,通行缓慢。
软件语音回复:施工在哪侧呢?
用户:内侧。
软件语音回复:大约多长?
用户:约1公里。
软件语音回复:上报成功,谢谢。
11.4.5 结束导航
驾车场景结束导航,一般要求见11.3。
11.5 步行场景
11.5.1 查找目的地
步行场景查找目的地,一般要求见11.1。
T/GLAC 20—2024
11
11.5.2 引导信息播报
11.5.2.1 路途中提前播报
在步行方向变化或变换特殊结构位置时,应优先语音播报步行代价大的天桥、地下通道、隧道、阶梯等信息。应提前进行语音播报提醒用户准备上天桥/下天桥,播报内容应包括,“前方进入天桥,请步行上天桥/下天桥”。
11.5.2.2 到达提醒播报
在到达上天桥/下天桥附近,还有20 m 或5 m 时,应进行语音播报,提醒用户准备上天桥/下天桥,播报内容应区分步行方向变化、离目的地距离、预计到达时间等情况进行播报。
示例1:
(步行方向变化)您已到达 xx 天桥,请直行上天桥。
示例2:
(预计到达时间)离目的地还剩 xx km,预计步行 xx 分钟后到达。
11.5.3 结束导航
步行场景结束导航,一般要求见11.3。
11.6 骑行场景
11.6.1 查找目的地
骑行场景查找目的地,一般要求见11.1。
11.6.2 引导信息播报
11.6.2.1 路途中提前播报
在骑行前进方向变化或变换特殊结构位置时,应优先语音播报天桥、地下通道、隧道、阶梯等骑行代价大的相关信息。提醒用户准备上天桥/下天桥等,播报内容应包括“前方进入天桥,请推行上天桥/下天桥”等。
11.6.2.2 到达提醒播报
到达上天桥/下天桥附近,还有 50 m或 10 m 时,应进行语音播报,提醒用户准备上天桥/下天桥。播报内容应区分骑行方向变化、离目的地距离、预计到达时间等情况进行播报。
示例1:
(骑行方向变化)您已到达 xx 天桥,请右转上天桥。
示例2:
(预计到达时间)离目的地还剩 xx km ,预计骑行 xx 分钟后到达。
11.6.3 结束导航
骑行场景结束导航,一般要求见6.3。
11.7 公交场景
11.7.1 查找目的地
公交场景查找目的地,一般要求见6.1。
11.7.2 到站提醒播报
11.7.2.1 提前2站播报
在车辆到达前2站,应进行语音播报提醒用户准备下车/换乘,播报内容应包括“前方到达X站,1站后请在Y站下车/换乘”。
11.7.2.2 到达站附近提醒
到达下车站/换乘站附近,还有100 m或60 m时,应进行语音播报,提醒用户准备下车/换乘,播报内容应区分同站换乘、异站换乘公交、异站换乘地铁、剩余段步行、剩余段骑行、公交站即终点等情况进行播报。
示例1:
(同站换乘)您已到达xx站,请准备下车,同站换乘xx路。
示例2:
(剩余段步行)您已到达xx站,请准备下车,然后步行至终点。
T/GLAC 20—2024
12
11.8 地铁场景
11.8.1 查找目的地
地铁场景查找目的地,一般要求见6.1。
11.8.2 到站提醒播报
11.8.2.1 提前2站播报
到达倒数第三个站点附近,返回的地铁定位处于倒数第三个站点以100 m为半径的范围圈内时应进行播报。播报内容应包括“请准备在2站后下车/换乘”。
11.8.2.2 到达站附近提醒
到达下车/换乘站附近,当返回的地铁定位处于下车/换乘站附近以100 m为半径的范围圈内时应进行播报提醒,播报内容应区分站内换乘、站外换乘公交、站外换乘地铁、剩余路段步行、剩余路段骑行、地铁站即终点等场景。
示例1:
(站内换乘)您已到达xx站,请准备下车,同站换乘xx号线。
示例2:
(站外换乘地铁)您已到达xx站,请准备下车,然后从A1口出,步行至xx站A2口换乘xx号线。
T/GLAC 20—2024
13
参考文献
[1] GB/T 34145—2017 中文语音合成互联网服务接口规范
[2] GB/T 34083—2017 中文语音识别互联网服务接口规范
[3] GB/T 5271.1—2000 信息技术 词汇 第1部分:基本术语
[4] JT/T 1354-2020 车辆出行语音导航用语播报要求
CCS A75
中国卫星导航定位协会团体标准
T/GLAC 20—2024
导航应用软件 智能语音交互与引导技术要求
Technical requirements for intelligent voice interaction and guidance of navigation application software
2024 - 07 - 12发布2024 - 07 - 12实施
中国卫星导航定位协会 发布
目次
前言 .................................................................................III
1 范围 ................................................................................1
2 规范性引用文件 ......................................................................1
3 术语和定义 ..........................................................................1
4 总体要求 ............................................................................3
4.1 基本能力 ........................................................................3
4.2 语音交互成功率 ..................................................................3
4.3 语音交互响应时间 ................................................................3
4.4 硬件设备适用性 ..................................................................3
4.5 用户隐私保护 ....................................................................3
5 系统框架 ............................................................................3
6 语音交互界面 ........................................................................4
6.1 语音采集 ........................................................................4
6.2 语音应答 ........................................................................4
6.3 语音播报 ........................................................................5
6.4 输入输出 ........................................................................5
6.5 环境噪声适应能力 ................................................................5
7 数据资源 ............................................................................5
7.1 音频数据 ........................................................................5
7.2 文本数据 ........................................................................5
7.3 地图数据 ........................................................................5
8 前端处理 ............................................................................5
8.1 语音唤醒 ........................................................................5
8.2 语音增强 ........................................................................6
9 语音处理 ............................................................................6
9.1 语音识别 ........................................................................6
9.2 语义理解 ........................................................................6
9.3 多轮交互 ........................................................................6
9.4 语音合成 ........................................................................7
9.5 全双工交互 ......................................................................7
10 地图服务 ...........................................................................7
10.1 语音查询 .......................................................................7
10.2 语音提示 .......................................................................7
10.3 语音引导 .......................................................................7
11 导航业务应用 .......................................................................8
11.1 查找目的地 .....................................................................8
T/GLAC 20—2024
II
11.2 引导信息播报 ...................................................................8
11.3 结束导航 .......................................................................9
11.4 驾车场景 .......................................................................9
11.5 步行场景 ......................................................................10
11.6 骑行场景 ......................................................................11
11.7 公交场景 ......................................................................11
11.8 地铁场景 ......................................................................12
参考文献 ..............................................................................13
T/GLAC 20—2024
III
前言
本文件按照GB/T 1.1—2020《标准化工作导则 第1部分:标准化文件的结构和起草规则》的规定起草。
请注意本文件的某些内容可能涉及专利,本文件的发布机构不承担识别这些专利的责任。
本文件由中国卫星导航定位协会提出并归口。
本文件起草单位:北京百度网讯科技有限公司、北京百度智图科技有限公司、清华大学、高德软件有限公司、沈阳美行科技股份有限公司、易图通科技(北京)有限公司、腾讯科技(深圳)有限公司。
本文件主要起草人:黄际洲、夏德国、李宏利、肖飞、孙一博、杨殿阁、莫格彬、李博群、汤咏林、刘小刚、朱洪飞、于迅文、江昆、杨蒙蒙、王少磊、郭成春、万里、俞成臻、迟丽丽、黄志华。
T/GLAC 20—2024
1
导航应用软件
智能语音交互与引导技术要求
1 范围
本文件规定了导航应用软件智能语音交互与引导技术的总体要求,规定了系统框架、语音交互界面、数据资源、前端处理、语音处理、地图服务及导航业务应用要求。
本文件适用于导航应用软件智能语音交互与引导服务相关产品的设计、研发和应用。
2 规范性引用文件
下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。
GB/T 36464.1—2020 信息技术 智能语音交互系统 第1部分:通用规范
GB/T 36464.4—2018 信息技术 智能语音交互系统 第4部分:移动终端
GB/T 36464.5—2018 信息技术 智能语音交互系统 第5部分:车载终端
GB/T 39774—2021 导航应用软件基本功能及技术要求
3 术语和定义
下列术语和定义适用于本文件。
3.1
语音交互系统 speech interaction system
由功能单元(或其组合)、数据资源等组成的能够实现与人类之间进行语音交互的系统。
[来源:GB/T 36464.1—2020,3.2]
3.2
智能语音交互 intelligent speech interaction
基于语音识别、语音合成、自然语言理解等人工智能技术,实现人类和功能单元之间通过语音完成信息传递和交流的活动。
3.3
智能语音引导 intelligent voice guidance
综合应用语音识别、语义理解、语音合成等人工智能技术,使用准确、简洁的语音提供出行导航引导信息。
3.4
功能单元 functional unit
能够完成特定任务的硬件实体,或软件实体,或硬件实体和软件实体。
[来源:GB/T 36464.1—2020,3.5]
3.5
语音合成 speech synthesis
通过机械的、电子的方法合成人类语言的过程。
[来源:GB/T 36464.1—2020,3.6]
3.6
语音识别 speech recognition
将人类的声音信号转化为文字或者指令的过程。
[来源:GB/T 36464.1—2020,3.7]
T/GLAC 20—2024
2
3.7
命令字识别 command word recognition
一种基于语音识别语法的语音识别方式,是在语音识别语法规则限定的范围内,对于给定的语音输入,语音识别引擎给出语音识别语法覆盖范围内的文本或拒识作为识别结果。
[来源:GB/T 36461.1—2020,3.9]
3.8
连续语音识别 continuous speech recognition
识别任意的连续语音,并给出相对应的文本。
[来源:GB/T 36461.1—2020,3.10]
3.9
语音唤醒 speech wakeup; voice trigger
处于音频流监控的语音交互系统,在检测到特定的特征或事件出现后,切换到命令字识别、连续语音识别等其他处理状态的过程。
[来源:GB/T 36461.1—2020,3.17]
3.10
语音增强 speech enhancement
当有效语音信号被其他各种信号干扰甚至淹没时,能抑制、降低噪声干扰并从含有噪声背景的声音信号中提取有效语音信号的技术。
3.11
语音打断 speech interruption
语音交互系统在播放声音的过程中,当语音采集设备检测到有效语音输入时,中断播放声音,转到语音识别等其他处理过程。
[来源:GB/T 36461.1—2020,3.29]
3.12
语义理解 semantic understanding
使功能单元理解人说话的意图。
[来源:GB/T 36464.1—2020,3.11]
3.13
指代消解 coreference resolution
在自然语言处理中,通过分析文本上下文和语义信息,兼顾语境信息和语义相似度,确定代词、名词短语等所指代的具体对象或实体的过程。
3.14
知识推理 knowledge inference
基于已知信息,逻辑思维推导出新的未知信息或结论的过程。
3.15
槽位 slot
语音指令所明确定义的属性信息,功能单元执行操作前需要获取的关键参数。
3.16
大语言模型 large language model
基于大量数据进行预训练的超大型深度学习模型,使其能够理解和生成自然语言和其他类型的内容,以执行各种任务。
3.17
播报元素 broadcasting elements
在导航场景中,构成播报内容的基础性和结构性组件,是导航过程中提供清晰、准确、及时的诱导语音的最小粒度单位。包括动作(如左转、右转等)、辅助动作(进入主路、上高架等)、车道、路牌、设施、安全信息等。
3.18
误唤醒 false wakeup
T/GLAC 20—2024
3
语音唤醒过程中出现的,无音频流或者音频流中没有出现唤醒所需的特征或事件时,语音唤醒系统被唤醒的现象。
[来源:GB/T 36464.4—2018,3.18]
4 总体要求
4.1 基本能力
应通过智能语音交互与引导技术,实现对导航应用软件的指令输入和结果输出的控制,实现驾驶员或出行者依赖听觉器官和发声器官即可获得从出发地到目的地的完整导航服务。
4.2 语音交互成功率
语音交互成功率应符合 GB/T 36464.5—2018 中 5.2.6 的规定,不低于 70 %。
4.3 语音交互响应时间
语音交互响应时间宜符合 GB/T 36464.5—2018 中 5.2.7 的规定,不大于 3 s。
4.4 硬件设备适用性
硬件设备适用性应符合下列要求:
a)
应符合GB/T 39774—2021中4.4的规定;
b)
应符合基本的音频采集的硬件(传声器或麦克风阵列)和基本的音频播放的硬件(喇叭等)的要求;
c)
应符合网络通讯要求,可接收Wi-Fi或者蜂窝移动网络信号,计算设备的CPU 主频2000 MHz以上,内存1 GB以上,内存的计量单位是字节(Byte);
d)
宜适配各种操作系统,至少应适配Android、iOS、Harmony、QNX或Linux等。
4.5 用户隐私保护
用户隐私保护的基本要求如下:
a)
收集到的用户语音数据只能用于改善系统语音识别能力,不能用于其他任何目的;
b)
用户语音数据收集应最小化,明确告知用户数据使用范围;
c)
对用户语音数据进行加密存储和匿名处理,并对数据做到访问权限控制和安全传输。
5 系统框架
导航应用软件智能语音交互与引导系统分为语音交互界面、数据资源、前端处理、语音处理、地图服务、导航业务应用等功能模块,如图1所示,其中:
a)
语音交互界面提供系统与人直接进行语音交互的人机界面,包括语音采集、语音应答、语音播报、语音信号输入输出、环境噪声适应能力;
b)
数据资源包括系统处理的音频数据、文本数据和地图数据;
c)
前端处理包括音频降噪、声纹识别、语音唤醒、语音增强,负责将语音输入转化为语音流,作为语音处理模块的输入;
d)
语音处理包括语音识别、语义理解、多轮交互、语音合成、全双工交互等功能;
e)
地图服务提供基于地图内容的目的地途径地检索、规划路径生成、途中引导信息生成和警告信息提示等接口服务;
f)
导航业务应用主要对语音处理的结果转换为对应的应用指令并反馈业务相应结果,包括对驾车场景、步行场景、骑行场景、公交场景、地铁场景的处理。各场景处理基本要求如下:
1)
驾车场景应提供查找目的地、路径规划结果告知、引导信息播报、交通信息问询等功能;
2)
步行场景应提供查找目的地、路径规划结果告知和引导信息播报等功能;
3)
骑行场景应提供查找目的地、路径规划结果告知和引导信息播报等功能;
4)
公交场景应提供查找目的地、公交换乘线路和到站提醒播报等功能;
5)
地铁场景应提供查找目的地、地铁换乘线路和到站提醒播报等功能。
T/GLAC 20—2024
4
图1
系统框架示意图
6 语音交互界面
6.1 语音采集
语音采集应符合 GB/T 36464.1—2020 中 5.1 的规定。
6.2 语音应答
6.2.1 一般要求
系统应支持针对用户的输入,通过语音答复的能力,即完成操作者与导航应用软件的一问一答、有问有答地人机交互。
6.2.2 声音要求
应答声音应符合以下要求:
a)
声音应清晰,语速适中,宜为每分钟220字左右;
b)
宜支持个性化语音定制功能,用户可设置定制化语音进行应答;
c)
宜支持个性化语速定制功能,用户可设置定制化语速进行应答。
6.2.3 内容要求
应答内容应符合以下要求:
a)
应包含执行成功/执行不成功等基础问答内容;
b)
可包含详情内容和问询内容。导航中业务应用要求见本文件第11章。
T/GLAC 20—2024
5
示例1:
找到颐和园,位于北京市海淀区,距离你x km。
示例2:
去这里可以么?
6.2.4 语言要求
应答语言应符合以下要求:
a)
应支持按照用户自主设置的语言进行语音应答;
b)
应符合GB/T 36464.1—2020中5.3的规定。
6.3 语音播报
6.3.1 一般要求
系统应支持语音播报的主动引导能力。
6.3.2 声音要求
播报声音应符合 6.2.2 的规定。
6.3.3 内容要求
播报内容应符合以下要求:
a)
应在恰当时机主动为用户播报;
示例:
有更快路线推荐是否需要切换?
b)
应包含主动的引导内容。
示例1:
您已超速,请减速。
示例2:
前方电子眼,请谨慎驾驶。
6.3.4 语言要求
播报语言应符合 6.2.4 的规定。
6.4 输入输出
输入输出要求应符合 GB/T 36464.1—2020 中 5.3 的规定。
6.5 环境噪声适应能力
环境噪声适应能力应符合 GB/T 36464.1—2020 中 5.4 规定的要求。
7 数据资源
7.1 音频数据
音频数据应符合 GB/T 36464.1—2020 中 6.1 的规定。
7.2 文本数据
文本数据应符合 GB/T 36464.1—2020 中 6.2 的规定。
7.3 地图数据
导航电子地图数据应符合 GB/T 39774—2021 中 4.3 的规定。
8 前端处理
8.1 语音唤醒
语音唤醒应符合 GB/T 36464.1—2020 中 7.1 的规定。除此之外应符合以下要求:
a)
语音唤醒模型应能够部署运行在满足4.4硬件要求的终端设备上,实现快速响应,应支持在无网络环境下的唤醒能力;
b)
在车内环境下,宜保证准确率达到95 %以上,在车外环境下宜达到90 %以上;
T/GLAC 20—2024
6
c)
宜做到实时语音识别,响应延迟不高于1 s;
d)
当语音识别出现错误时,应有反馈机制,以提高识别精度,无错误时不反馈;
e)
应降低误唤醒情况发生,误唤醒率宜小于1次/h,以免为用户造成困扰。
8.2 语音增强
语音增强应符合 GB/T 36464.1—2020 中 7.4 的规定。除此之外应符合以下要求:
a)
应根据检测到的环境噪声强度自动调整音量的增益控制,以保持输出语音的一致性和稳定性;
b)
可通过调整语音信号频谱特性,提高语音的清晰度。
9 语音处理
9.1 语音识别
语音识别应符合 GB/T 36464.1—2020 中 8.1 的规定。除此之外应符合以下要求:
a)
应能区分真人声音和录音,避免被合成语音攻击;
b)
应支持分离和识别各个通道语音的能力;
c)
应确保在典型应用环境的可用性,噪声环境适应性应符合GB/T 36464.5—2018中5.2.2的规定;
d)
应做到低延迟的语音识别,以保证交互体验的流畅性,延迟时间小于1 s;
e)
应具有持续学习能力,来提高语音识别性能。
9.2 语义理解
9.2.1 概述
语义理解按照实现方式分为传统语义理解和大语言模型语义理解。基于大语言模型的语义理解方案,支持端到端地将用户的问题映射成对应的应用程序编程接口(API)调用。
9.2.2 传统语义理解
传统语义理解应符合 GB/T 36464.1—2020 中 8.2 的规定。除此之外应符合以下要求:
a)
宜能够结合上下文对话历史和环境,准确捕捉用户意图;
b)
宜能够根据用户反馈,持续学习,来不断优化语义理解能力;
c)
宜支持快速处理新增意图和槽位提取的能力;
d)
宜具有基本推理能力;
e)
宜能够针对对话情景的特点和约束,提供针对性的理解和响应。
9.2.3 大语言模型语义理解
基于大语言模型的语义理解方案除符合 9.2.2 要求外,还应符合以下要求:
a)
模型推理过程应透明;
b)
模型应有能力理解和记忆长期对话历史,不少于1年;
c)
应对生成的输出内容和决策结果进行验证,确保信息的准确性;
d)
应确保模型不会无中生有,编造虚假信息;
e)
防止模型运行时产生有害、歧视、色情等不适当的内容;
9.3 多轮交互
9.3.1 一般要求
多轮交互应结合上下文信息,对用户当前文本进行准确语义理解,并且应具备主动开启新一轮对话的能力。除了应具有指代消解、省略槽位自动补齐、意图或槽位澄清、知识推理等功能模块之外,还应具有容错机制、自然交互、对话中断与恢复、可扩展性、个性化交互等功能。
9.3.2 容错机制
系统应具备对语义理解错误的结果进行错误提示和自动校正的机制。
T/GLAC 20—2024
7
9.3.3 对话中断与恢复
用户中断对话或重启对话时,应准确理解和判断是否开启新的对话,还是承接上一个对话。
9.3.4 可扩展性
应支持新的交互需求快速融入。
9.3.5 个性化交互
在保障用户隐私的前提下,获取用户授权后,结合用户偏好和历史行为,宜提供个性化的交互体验。
9.4 语音合成
语音合成要求应符合 GB/T 36464.1—2020 中 8.3 的规定。除此之外还应符合以下要求:
a)
宜支持个性化语音定制功能,通过用户自定义的语调、音色和语速实现语音合成功能;
b)
个性化语音定制时的训练样本语句应在20句话以内,每句话的字数宜在20个字以内。
9.5 全双工交互
全双工交互应符合 GB/T 36464.1—2020 中 8.6 的规定。除此之外还应符合以下要求:
a)
环境噪声适应能力,应符合GB/T 36464.1-2020中5.4的规定;
b)
语音打断的能力,应符合GB/T 36464.5—2018中5.3.2的规定。
10 地图服务
10.1 语音查询
10.1.1 查询对象
查询对象应符合 GB/T 39774—2021 中 5.2.1 的规定,宜给出深度服务信息。
10.1.2 查询结果列表
查询结果列表应符合下列要求:
a)
支持通过语音播报查询结果列表;
b)
优先选择满足用户需求的唯一结果;
c)
当存在多个查询结果时,通过结果相关性顺序播报查询结果列表。
10.1.3 查询效率
用户查询语音指令发出后,查询的响应时间和超时处理应符合下列要求:
a)
在行进中导航场景做到快速响应,查询响应时间应小于2 s;
b)
在行进前复杂决策场景,查询响应时间应小于3 s;
c)
若查询响应时间大于3 s时,应在等待过程中给予用户处理过程的进度反馈;
d)
若查询响应时间超出5 s时,应给出查询超时响应并退出操作。
10.2 语音提示
语音提示应符合 GB/T 39774—2021 中 5.5.2 的规定。
10.3 语音引导
10.3.1 一般要求
语音引导应及时准确,在 GB/T 39774—2021 中 5.4.3 规定的场景下应能全部及时给出语音引导指令。
10.3.2 引导时机
语音引导时机应及时准确,应根据实时车速、所在道路类别和交通场景设置合理的引导时间提前量,为导航应用软件使用者留出预判和执行下一步动作的时间。
T/GLAC 20—2024
8
11 导航业务应用
11.1 查找目的地
查找目的地应支持发起导航前查找目的地、导航过程中更换目的地、途经某地去往目的地三种场景的语音指令交互。交互过程应按如下步骤执行:
a)
通过预先定义的命令字唤醒系统;
b)
用户语音说出使用场景与目的地名称或者途经某地去往目的地;
示例1:
导航去中国美术馆。
示例2:
途经中国美术馆,导航去往朝阳公园南门。
c)
导航前查找目的地:播报目的地详细信息,询问是否发起导航;
示例3:
为您找到中国美术馆,位于东城区五四大街1号,需要导航吗?
d)
导航中更换目的地:播报目的地详细信息,询问是否更换目的地;
示例4:
为您找到中国美术馆,距您1.2 km ,需要更换目的地吗?
e)
途径某地去往目的地:导航前与导航中支持多个途经地点的设置与删除,播报途径地详细信息,询问用户是否确认途经地点。
示例5:
为您找到途经中国美术馆、中国国家博物馆的路线,需要开始导航吗?
11.2 引导信息播报
引导信息播报应符合如下要求:
a)
语音播报内容应根据不同场景和应用方式建立语音模板,在具体位置对特定模板的内容进行填充,最后将组织好的文字通过语音合成技术形成语音适时播报;
b)
导航诱导语音播报模板基础类别和要求如下:
1)
路口转向提示信息
路口转向提示语音模板的基本结构宜为“‘前方’+距离+操作+‘去往’+前方道路名称+附加提示”。“距离”是指从当前位置到转向处的距离。“操作”是指到转向处时,需要做的操作,可分为左转、右转、靠左、靠右等。“附加提示” 是指结合道路实际情况、车道和自然地物(如红绿灯路口、三岔路、上高架)等补充播报信息。
示例1:
前方500 m 请右转,去往西五环路,请注意提前并入最右侧车道。
2)
路段中警示提示信息
路段中警示提示包括实地警示信息提示与针对用户违规行为提示,应符合如下要求:
实地警示信息语音模板基本结构宜为“‘前方’+距离+警示场景+(附加信息)”。“距离”是指从当前位置到现场警示信息的距离。“警示场景”是指隧道、铁道、桥梁、电子监控设备、交通警告设施等。“附加信息”是指当有监控设备时,此段道路的限速值信息,或有交通警告牌的路段对应的驾驶提示信息等。
示例2:
前方300 m 有测速摄像头,限速80 km/h。
应对用户违反法规、或影响用户驾驶安全的行为进行强烈提醒。提醒的优先级应高于一般的警示信息。
注:
用户违反法规、或影响用户驾驶安全的行为包括违规变道、违规转向、违规通行、超速、走应急车道、在规定的时段内占用公交车道等违规行为。
3)
路段中路况提示信息
以实时路况、事故、红绿灯倒计时为主,路段中路况提示语音模板基本结构宜为“‘前方’+距离+前方道路名称+警示场景+(附加信息)”。“警示场景”可根据内容分为拥堵路况提示、路口路况提示、交通事件提示等。
示例3:
前方300 m 黄河北大街严重拥堵,请注意绕行。
示例4:
前方300 m 路口红灯即将变绿,请准备起步。
4)
友情提示信息
友情提示分为与地点相关及与地点无关提示。与地点相关语音模板的基本结构宜为“‘前方’+距离+友情提示”,“友情提示”可根据内容分为出发时提示、抵达目的地提示等。与地点无关友情提示可包含疲劳驾驶、服务区休息、路段积水、横风大雾、红绿灯变灯提醒等驾驶关怀信息。
示例5:
前方100 m到达目的地,石景山游乐园在您的右前方。
T/GLAC 20—2024
9
c)
播报频次要求
导航过程中应根据不同信息的重要程度、以及用户的操作成本和判断成本的不同,给用户进行不同频次的强调。
1)
简单的直行路口在路口前给予用户1—2次提醒;
2)
转向角度大的路口或多方向的复杂路口需要用户提前选择好方向,应给用户2次以上提醒;
3)
多个汇入口、多个相同类型电子眼等距离相近的相同信息,可适当合并播报,降低播报频次。
d)
播报时机要求
播报内容应在合适的时机播报传达给用户,确保用户在听到信息后能及时有效做出反应。
e)
播报优先级要求
道路元素多且复杂,当相同位置存在多个需要提示的信息时,应根据信息的重要程度决策最高优的一个进行提示。优先级从高到低应依次为驾驶安全提示、路口转向提示、直行路口提示、道路安全提示。
f)
播报表达要求
播报表达除了语言足够清晰易懂,还应符合以下要求:
1)
每一句播报的话术长度不宜超过50字或15 s;
2)
播报元素不宜超过5个;
3)
两句播报之间应有间隔,不宜连续不停播报,播报间隔宜大于1 s,小于2 s。
11.3 结束导航
11.3.1 结束方式
结束方式应符合 GB/T 39774—2021 中 5.4.5 中的规定,除此之外,还应满足可通过下列语音交互方式结束导航:
a)
通过预先定义的命令字唤醒系统;
b)
用户语音输入“结束导航”;
c)
语音回复操作结果。
示例:
导航结束下次见。
11.3.2 结束要求
结束导航应符合如下要求:
a)
应在合适的位置结束,用户距离目的地300 m 以上不宜结束导航;
b)
用户在到达目的地后仍在导航,可以通过语音问询是否需要继续导航。
11.4 驾车场景
11.4.1 查找目的地
驾车场景查找目的地,基本要求见11.1。当目的地存在停车场等更加精细的诱导信息时,可通过语音进行二次交互。
示例:
为您找到奎科科技大厦,西门存在停车场,要导航去西门么?
11.4.2 引导信息播报
驾车场景引导信息播报,一般要求见11.2,同时应符合如下要求:
a)
播报内容要求:对于驾车安全的路段中警示信息应覆盖完整;
b)
播报频次要求:转向角度大的路口和多方向的路口需要用户提前选择好车道与方向,操作和选择成本更高,应给用户4~5次以上的预警;
c)
播报时机要求:车道提示应根据道路等级、道路交通状况、用户车速等综合判断提前距离,应保证在听到后仍有足够变道范围,限速电子眼提示应根据道路等级、道路交通状况、用户车速等综合判断提前距离,应保证听到后有足够的减速区间;
T/GLAC 20—2024
10
d)
播报优先级要求:驾车场景下应按照路口转向提示>直行路口提示>限速抓拍、违章抓拍>道路安全提示的信息重要程度排序;
e)
播报表达要求:驾车场景无特殊要求时播报应简明扼要、容易理解、自然亲切,避免干扰用户驾驶及减少听觉疲劳。
11.4.3 交通信息问询
驾车场景下,应符合常用交通信息、不同形式的语音指令交互,应包括限行信息问询、限速信息问询、路况信息问询、交通限制信息问询、服务区信息问询、高速收费金额信息问询等,查询的基本示例如下:
a)
通过预先定义的命令字唤醒系统;
b)
语音问询不附加条件的限行信息;
示例1:
今天限号多少?
c)
播报用户所在地理位置的限行信息;
示例2:
(地理位置在北京)北京市今天限行尾号为5和0。
d)
语音问询指定区域的限行信息;
示例3:
北京市限号多少?
e)
播报指定区域的限行信息;
示例4:
北京市今天限行尾号为5和0。
f)
语音问询指定区域的交通限制信息;
示例5:
青年大街禁止左转时间是多少?
g)
播报指定区域的交通限制信息;
示例6:
青年大街全天禁止左转。
h)
语音问询不附加条件的服务区信息;
示例7:
离服务区多远?
i)
播报用户所在地理位置的服务区信息;
示例8:
前方500 m 到达刘千户服务区。
j)
语音问询指定区域的高速收费金额信息;
示例9:
去沈阳故宫走高速的费用。
k)
播报指定区域的高速收费金额信息。
示例10:
去往沈阳故宫高速费用约为100元。
11.4.4 信息上报
驾车导航过程中,事故、拥堵、施工、封路等场景可通过语音交互上报事件详细信息,交互轮次不宜超过3轮,信息交互应符合如下要求:
a)
通过预先定义的命令字唤醒系统;
b)
用户语音说出上报类型;
c)
语音引导用户提供详细信息。
示例:
用户:G2高速3公里处占道施工,通行缓慢。
软件语音回复:施工在哪侧呢?
用户:内侧。
软件语音回复:大约多长?
用户:约1公里。
软件语音回复:上报成功,谢谢。
11.4.5 结束导航
驾车场景结束导航,一般要求见11.3。
11.5 步行场景
11.5.1 查找目的地
步行场景查找目的地,一般要求见11.1。
T/GLAC 20—2024
11
11.5.2 引导信息播报
11.5.2.1 路途中提前播报
在步行方向变化或变换特殊结构位置时,应优先语音播报步行代价大的天桥、地下通道、隧道、阶梯等信息。应提前进行语音播报提醒用户准备上天桥/下天桥,播报内容应包括,“前方进入天桥,请步行上天桥/下天桥”。
11.5.2.2 到达提醒播报
在到达上天桥/下天桥附近,还有20 m 或5 m 时,应进行语音播报,提醒用户准备上天桥/下天桥,播报内容应区分步行方向变化、离目的地距离、预计到达时间等情况进行播报。
示例1:
(步行方向变化)您已到达 xx 天桥,请直行上天桥。
示例2:
(预计到达时间)离目的地还剩 xx km,预计步行 xx 分钟后到达。
11.5.3 结束导航
步行场景结束导航,一般要求见11.3。
11.6 骑行场景
11.6.1 查找目的地
骑行场景查找目的地,一般要求见11.1。
11.6.2 引导信息播报
11.6.2.1 路途中提前播报
在骑行前进方向变化或变换特殊结构位置时,应优先语音播报天桥、地下通道、隧道、阶梯等骑行代价大的相关信息。提醒用户准备上天桥/下天桥等,播报内容应包括“前方进入天桥,请推行上天桥/下天桥”等。
11.6.2.2 到达提醒播报
到达上天桥/下天桥附近,还有 50 m或 10 m 时,应进行语音播报,提醒用户准备上天桥/下天桥。播报内容应区分骑行方向变化、离目的地距离、预计到达时间等情况进行播报。
示例1:
(骑行方向变化)您已到达 xx 天桥,请右转上天桥。
示例2:
(预计到达时间)离目的地还剩 xx km ,预计骑行 xx 分钟后到达。
11.6.3 结束导航
骑行场景结束导航,一般要求见6.3。
11.7 公交场景
11.7.1 查找目的地
公交场景查找目的地,一般要求见6.1。
11.7.2 到站提醒播报
11.7.2.1 提前2站播报
在车辆到达前2站,应进行语音播报提醒用户准备下车/换乘,播报内容应包括“前方到达X站,1站后请在Y站下车/换乘”。
11.7.2.2 到达站附近提醒
到达下车站/换乘站附近,还有100 m或60 m时,应进行语音播报,提醒用户准备下车/换乘,播报内容应区分同站换乘、异站换乘公交、异站换乘地铁、剩余段步行、剩余段骑行、公交站即终点等情况进行播报。
示例1:
(同站换乘)您已到达xx站,请准备下车,同站换乘xx路。
示例2:
(剩余段步行)您已到达xx站,请准备下车,然后步行至终点。
T/GLAC 20—2024
12
11.8 地铁场景
11.8.1 查找目的地
地铁场景查找目的地,一般要求见6.1。
11.8.2 到站提醒播报
11.8.2.1 提前2站播报
到达倒数第三个站点附近,返回的地铁定位处于倒数第三个站点以100 m为半径的范围圈内时应进行播报。播报内容应包括“请准备在2站后下车/换乘”。
11.8.2.2 到达站附近提醒
到达下车/换乘站附近,当返回的地铁定位处于下车/换乘站附近以100 m为半径的范围圈内时应进行播报提醒,播报内容应区分站内换乘、站外换乘公交、站外换乘地铁、剩余路段步行、剩余路段骑行、地铁站即终点等场景。
示例1:
(站内换乘)您已到达xx站,请准备下车,同站换乘xx号线。
示例2:
(站外换乘地铁)您已到达xx站,请准备下车,然后从A1口出,步行至xx站A2口换乘xx号线。
T/GLAC 20—2024
13
参考文献
[1] GB/T 34145—2017 中文语音合成互联网服务接口规范
[2] GB/T 34083—2017 中文语音识别互联网服务接口规范
[3] GB/T 5271.1—2000 信息技术 词汇 第1部分:基本术语
[4] JT/T 1354-2020 车辆出行语音导航用语播报要求
