静谧通话

华为音频通话降噪骨传导

静谧通话

静谧通话是华为自研的通话降噪技术品牌，核心思路是骨传导 VPU 传感器 + 多麦克风波束成形 + AI 神经网络语音提取三路融合，在极端嘈杂环境中（如地铁、酒吧、工地）实现通话对方仅听到人声、几乎听不到环境噪音。

问题：为什么通话降噪比听音降噪更难？

听音 ANC 解决的是"你听到什么"——耳机播放反相声波抵消环境噪音，让你听音乐更安静。

通话降噪（ENC） 解决的是"对方听到什么"——耳机需要从嘈杂环境中分离出你的语音，只把纯净人声送到通话链路。

两者的物理约束完全不同：

维度	听音 ANC	通话 ENC / 静谧通话
服务对象	佩戴者本人	通话对方
信号方向	下行（播放 → 耳朵）	上行（嘴 → 麦克风 → 传输）
核心技术	反相声波相消干涉	多麦波束成形 + AI 声源分离
最大挑战	高频降噪、佩戴泄漏	近端噪声与人声同频混叠

> 通话降噪的终极难题：在 90dB 的酒吧里（背景有人声、音乐、杯盘碰撞），如何只提取你嘴里的声音？骨传导 VPU 正是为了解决这个问题而生。

静谧通话三代演进

代际	首发产品	硬件架构	核心能力
静谧通话 1.0	FreeBuds Pro 2（2022）	3 麦 + DNN	基础环境降噪，信噪比提升 ~15dB
静谧通话 2.0	FreeBuds Pro 3（2023）	3 麦 + 骨传导 VPU	骨传导拾音引入，抗风噪提升 80%，极端噪声下语音可懂度大幅提升
静谧通话 3.0	FreeBuds Pro 5（2026）	4 麦 + 骨传导 VPU 2.0 + AI 语义提取	多麦波束成形精度提升 + VPU 灵敏度翻倍 + AI 识别"这是人声"

技术架构：三路融合

``┌──────────────────────────────────────┐ │ 静谧通话 3.0 全链路 │ └──────────────────────────────────────┘ │ ┌───────────────────────┼───────────────────────┐ ▼ ▼ ▼ ┌───────────────┐ ┌───────────────┐ ┌───────────────┐ │ 骨传导 VPU │ │ 4 麦波束成形 │ │ AI 语音提取 │ │ (骨振动信号) │ │ (空气声场信号) │ │ (语义级分离) │ └───────┬───────┘ └───────┬───────┘ └───────┬───────┘ │ │ │ └─────────────────────┼─────────────────────┘ ▼ ┌──────────────────┐ │ 多模态融合引擎 │ │ (骨振动+空气声场 │ │ 的加权融合输出) │ └────────┬─────────┘ ▼ ┌──────────────────┐ │ 纯净语音输出 │ │ (送到通话对方) │ └──────────────────┘`


第 1 路：骨传导 VPU（详见骨传导麦克风）

VPU（Voice Pickup Unit）是一种贴附在耳内/耳廓上的骨振动传感器。当你说话时：


- 声带振动 → 颅骨传导 → 颞骨振动 → 耳道壁振动
- VPU 采集的是固体振动信号，不是空气声波
- 因此天然不采集空气中的噪音（他人的说话声、引擎声、音乐声都无法通过骨传导传到 VPU）


这是静谧通话的"杀手锏"：在极端嘈杂环境（85dB+），空气麦克风几乎被噪音淹没时，骨传导 VPU 仍然能提供清晰的声带振动信号。


VPU 的局限：只能采集 300Hz–4000Hz 的振动信号（缺失高频泛音），所以需要与空气麦克风信号融合。

第 2 路：多麦克风波束成形

手机通话常用 1-2 个麦克风，但 TWS 耳机每只就有 2-3 个麦克风。静谧通话利用多个麦克风的空间位置差形成波束：

`麦克风 1（耳机外侧） │ │ 声波到达时间差 Δt │ 麦克风 2（耳机底部/耳柄） │ ▼ 波束成形算法：保留嘴方向（前方）的声音，抑制其他方向声音``

波束成形的核心数学是时延求和（Delay-and-Sum）： - 对嘴方向的声波进行相位对齐叠加 → 信号增强 - 对其他方向的声波进行反相叠加 → 信号抵消

4 麦克风（Pro 5）比 3 麦克风（Pro 3/4）多了一个空间采样点，波束的主瓣更窄、旁瓣更低，方位选择性更强。

第 3 路：AI 语义语音提取

传统 ENC 用 DSP 做信号处理，处理的是"波形"。静谧通话 3.0 引入了NPU 驱动的深度学习模型：

- 输入：4 路空气麦信号 + 1 路 VPU 信号 - 模型：端到端语音分离网络（类似 Conv-TasNet） - 输出：纯净人声波形

AI 模型的优势：能识别"这是人说话还是别人说话"——传统 DSP 无法区分你说话 vs 旁边的人说话（两者都是人声频段），但 AI 可以结合 VPU 骨振动信号判断"声带在振动的是你"。

关键性能指标

指标	静谧通话 2.0	静谧通话 3.0	行业平均
抗风噪能力	提升 80%（相对无 VPU）	提升 120%	—
极端噪声下语音可懂度	MOS-LQO 3.2（85dB 环境）	MOS-LQO 3.8（90dB 环境）	~2.5
信噪比提升	+18dB	+24dB	+10-15dB
处理延迟	<30ms	<20ms	30-50ms

> MOS-LQO（Mean Opinion Score - Listening Quality Objective）是 ITU-T P.863 标准的语音质量客观评分，满分 5.0。3.8 在 90dB 噪声下是非常高的分数。

静谧通话 vs 其他品牌通话降噪方案

品牌	技术名称	核心硬件	特点
华为	静谧通话	骨传导 VPU + 4 麦 + AI	骨振动 + 空气声场融合
苹果	Voice Isolation	双波束成形麦克风 + H2 神经网络引擎	无骨传导，纯计算分离
高通	Snapdragon Sound	3 麦 + aptX Voice	超宽带语音 32kHz 采样
索尼	Precise Voice Pickup	双反馈麦 + 骨传导传感器	与华为方案最接近
Bose	Proprietary ENC	4 麦 + 专有 DSP	传统信号处理方案

历史前身：骨声纹通话降噪

静谧通话的"祖先"是 FreeBuds 3（2019）上的骨声纹通话降噪技术：

- FreeBuds 3 在耳柄内置骨声纹传感器 - 通过检测说话时耳道内产生的骨振动信号，与空气麦克风信号进行自适应融合 - 这是华为首次在 TWS 上引入骨传导拾音

从"骨声纹通话降噪"到"静谧通话 3.0"的进化本质是： 1. 传感器从单一骨声纹 → 多轴 VPU（更灵敏、更宽频） 2. 空气麦从 2 个 → 4 个（空间采样精度翻倍） 3. 算法从 DSP → DSP + NPU 深度学习

静谧通话

静谧通话

问题：为什么通话降噪比听音降噪更难？

静谧通话三代演进

技术架构：三路融合

第 1 路：骨传导 VPU（详见骨传导麦克风）

第 2 路：多麦克风波束成形

第 3 路：AI 语义语音提取

关键性能指标

静谧通话 vs 其他品牌通话降噪方案

历史前身：骨声纹通话降噪

相关笔记