← 返回列表

静谧通话

静谧通话
华为音频通话降噪骨传导

静谧通话

静谧通话是华为自研的通话降噪技术品牌,核心思路是骨传导 VPU 传感器 + 多麦克风波束成形 + AI 神经网络语音提取三路融合,在极端嘈杂环境中(如地铁、酒吧、工地)实现通话对方仅听到人声、几乎听不到环境噪音。


问题:为什么通话降噪比听音降噪更难?

听音 ANC 解决的是"你听到什么"——耳机播放反相声波抵消环境噪音,让你听音乐更安静。

通话降噪(ENC) 解决的是"对方听到什么"——耳机需要从嘈杂环境中分离出你的语音,只把纯净人声送到通话链路。

两者的物理约束完全不同:

维度听音 ANC通话 ENC / 静谧通话
服务对象佩戴者本人通话对方
信号方向下行(播放 → 耳朵)上行(嘴 → 麦克风 → 传输)
核心技术反相声波相消干涉多麦波束成形 + AI 声源分离
最大挑战高频降噪、佩戴泄漏近端噪声与人声同频混叠

> 通话降噪的终极难题:在 90dB 的酒吧里(背景有人声、音乐、杯盘碰撞),如何只提取你嘴里的声音?骨传导 VPU 正是为了解决这个问题而生。


静谧通话三代演进

代际首发产品硬件架构核心能力
静谧通话 1.0FreeBuds Pro 2(2022)3 麦 + DNN基础环境降噪,信噪比提升 ~15dB
静谧通话 2.0FreeBuds Pro 3(2023)3 麦 + 骨传导 VPU骨传导拾音引入,抗风噪提升 80%,极端噪声下语音可懂度大幅提升
静谧通话 3.0FreeBuds Pro 5(2026)4 麦 + 骨传导 VPU 2.0 + AI 语义提取多麦波束成形精度提升 + VPU 灵敏度翻倍 + AI 识别"这是人声"


技术架构:三路融合

`` ┌──────────────────────────────────────┐ │ 静谧通话 3.0 全链路 │ └──────────────────────────────────────┘ │ ┌───────────────────────┼───────────────────────┐ ▼ ▼ ▼ ┌───────────────┐ ┌───────────────┐ ┌───────────────┐ │ 骨传导 VPU │ │ 4 麦波束成形 │ │ AI 语音提取 │ │ (骨振动信号) │ │ (空气声场信号) │ │ (语义级分离) │ └───────┬───────┘ └───────┬───────┘ └───────┬───────┘ │ │ │ └─────────────────────┼─────────────────────┘ ▼ ┌──────────────────┐ │ 多模态融合引擎 │ │ (骨振动+空气声场 │ │ 的加权融合输出) │ └────────┬─────────┘ ▼ ┌──────────────────┐ │ 纯净语音输出 │ │ (送到通话对方) │ └──────────────────┘ `

第 1 路:骨传导 VPU(详见骨传导麦克风

VPU(Voice Pickup Unit)是一种贴附在耳内/耳廓上的骨振动传感器。当你说话时:

- 声带振动 → 颅骨传导 → 颞骨振动 → 耳道壁振动 - VPU 采集的是固体振动信号,不是空气声波 - 因此天然不采集空气中的噪音(他人的说话声、引擎声、音乐声都无法通过骨传导传到 VPU)

这是静谧通话的"杀手锏":在极端嘈杂环境(85dB+),空气麦克风几乎被噪音淹没时,骨传导 VPU 仍然能提供清晰的声带振动信号。

VPU 的局限:只能采集 300Hz–4000Hz 的振动信号(缺失高频泛音),所以需要与空气麦克风信号融合

第 2 路:多麦克风波束成形

手机通话常用 1-2 个麦克风,但 TWS 耳机每只就有 2-3 个麦克风。静谧通话利用多个麦克风的空间位置差形成波束:

` 麦克风 1(耳机外侧) │ │ 声波到达时间差 Δt │ 麦克风 2(耳机底部/耳柄) │ ▼ 波束成形算法:保留嘴方向(前方)的声音,抑制其他方向声音 ``

波束成形的核心数学是时延求和(Delay-and-Sum): - 对嘴方向的声波进行相位对齐叠加 → 信号增强 - 对其他方向的声波进行反相叠加 → 信号抵消

4 麦克风(Pro 5)比 3 麦克风(Pro 3/4)多了一个空间采样点,波束的主瓣更窄、旁瓣更低,方位选择性更强。

第 3 路:AI 语义语音提取

传统 ENC 用 DSP 做信号处理,处理的是"波形"。静谧通话 3.0 引入了NPU 驱动的深度学习模型

- 输入:4 路空气麦信号 + 1 路 VPU 信号 - 模型:端到端语音分离网络(类似 Conv-TasNet) - 输出:纯净人声波形

AI 模型的优势:能识别"这是人说话还是别人说话"——传统 DSP 无法区分你说话 vs 旁边的人说话(两者都是人声频段),但 AI 可以结合 VPU 骨振动信号判断"声带在振动的是你"。


关键性能指标

指标静谧通话 2.0静谧通话 3.0行业平均
抗风噪能力提升 80%(相对无 VPU)提升 120%
极端噪声下语音可懂度MOS-LQO 3.2(85dB 环境)MOS-LQO 3.8(90dB 环境)~2.5
信噪比提升+18dB+24dB+10-15dB
处理延迟<30ms<20ms30-50ms

> MOS-LQO(Mean Opinion Score - Listening Quality Objective)是 ITU-T P.863 标准的语音质量客观评分,满分 5.0。3.8 在 90dB 噪声下是非常高的分数。


静谧通话 vs 其他品牌通话降噪方案

品牌技术名称核心硬件特点
华为静谧通话骨传导 VPU + 4 麦 + AI骨振动 + 空气声场融合
苹果Voice Isolation双波束成形麦克风 + H2 神经网络引擎无骨传导,纯计算分离
高通Snapdragon Sound3 麦 + aptX Voice超宽带语音 32kHz 采样
索尼Precise Voice Pickup双反馈麦 + 骨传导传感器与华为方案最接近
BoseProprietary ENC4 麦 + 专有 DSP传统信号处理方案


历史前身:骨声纹通话降噪

静谧通话的"祖先"是 FreeBuds 3(2019)上的骨声纹通话降噪技术:

- FreeBuds 3 在耳柄内置骨声纹传感器 - 通过检测说话时耳道内产生的骨振动信号,与空气麦克风信号进行自适应融合 - 这是华为首次在 TWS 上引入骨传导拾音

从"骨声纹通话降噪"到"静谧通话 3.0"的进化本质是: 1. 传感器从单一骨声纹 → 多轴 VPU(更灵敏、更宽频) 2. 空气麦从 2 个 → 4 个(空间采样精度翻倍) 3. 算法从 DSP → DSP + NPU 深度学习


相关笔记

- 骨传导麦克风——VPU 传感器技术原理 - 华为耳机——静谧通话搭载的产品矩阵 - 智慧动态降噪——听音方向的自适应 ANC - ANC主动降噪——ANC vs ENC 的根本区别 - 双擎AI降噪——听音 ANC 的双 DSP 架构 - 麒麟音频芯片——NPU/DSP 算力平台 - 苹果——AirPods Pro 的语音突显技术对比