静谧通话
静谧通话
静谧通话是华为自研的通话降噪技术品牌,核心思路是骨传导 VPU 传感器 + 多麦克风波束成形 + AI 神经网络语音提取三路融合,在极端嘈杂环境中(如地铁、酒吧、工地)实现通话对方仅听到人声、几乎听不到环境噪音。
问题:为什么通话降噪比听音降噪更难?
听音 ANC 解决的是"你听到什么"——耳机播放反相声波抵消环境噪音,让你听音乐更安静。
通话降噪(ENC) 解决的是"对方听到什么"——耳机需要从嘈杂环境中分离出你的语音,只把纯净人声送到通话链路。
两者的物理约束完全不同:
| 维度 | 听音 ANC | 通话 ENC / 静谧通话 |
|---|---|---|
| 服务对象 | 佩戴者本人 | 通话对方 |
| 信号方向 | 下行(播放 → 耳朵) | 上行(嘴 → 麦克风 → 传输) |
| 核心技术 | 反相声波相消干涉 | 多麦波束成形 + AI 声源分离 |
| 最大挑战 | 高频降噪、佩戴泄漏 | 近端噪声与人声同频混叠 |
> 通话降噪的终极难题:在 90dB 的酒吧里(背景有人声、音乐、杯盘碰撞),如何只提取你嘴里的声音?骨传导 VPU 正是为了解决这个问题而生。
静谧通话三代演进
| 代际 | 首发产品 | 硬件架构 | 核心能力 |
|---|---|---|---|
| 静谧通话 1.0 | FreeBuds Pro 2(2022) | 3 麦 + DNN | 基础环境降噪,信噪比提升 ~15dB |
| 静谧通话 2.0 | FreeBuds Pro 3(2023) | 3 麦 + 骨传导 VPU | 骨传导拾音引入,抗风噪提升 80%,极端噪声下语音可懂度大幅提升 |
| 静谧通话 3.0 | FreeBuds Pro 5(2026) | 4 麦 + 骨传导 VPU 2.0 + AI 语义提取 | 多麦波束成形精度提升 + VPU 灵敏度翻倍 + AI 识别"这是人声" |
技术架构:三路融合
``
┌──────────────────────────────────────┐
│ 静谧通话 3.0 全链路 │
└──────────────────────────────────────┘
│
┌───────────────────────┼───────────────────────┐
▼ ▼ ▼
┌───────────────┐ ┌───────────────┐ ┌───────────────┐
│ 骨传导 VPU │ │ 4 麦波束成形 │ │ AI 语音提取 │
│ (骨振动信号) │ │ (空气声场信号) │ │ (语义级分离) │
└───────┬───────┘ └───────┬───────┘ └───────┬───────┘
│ │ │
└─────────────────────┼─────────────────────┘
▼
┌──────────────────┐
│ 多模态融合引擎 │
│ (骨振动+空气声场 │
│ 的加权融合输出) │
└────────┬─────────┘
▼
┌──────────────────┐
│ 纯净语音输出 │
│ (送到通话对方) │
└──────────────────┘
`
第 1 路:骨传导 VPU(详见骨传导麦克风)
VPU(Voice Pickup Unit)是一种贴附在耳内/耳廓上的骨振动传感器。当你说话时:
- 声带振动 → 颅骨传导 → 颞骨振动 → 耳道壁振动 - VPU 采集的是固体振动信号,不是空气声波 - 因此天然不采集空气中的噪音(他人的说话声、引擎声、音乐声都无法通过骨传导传到 VPU)
这是静谧通话的"杀手锏":在极端嘈杂环境(85dB+),空气麦克风几乎被噪音淹没时,骨传导 VPU 仍然能提供清晰的声带振动信号。
VPU 的局限:只能采集 300Hz–4000Hz 的振动信号(缺失高频泛音),所以需要与空气麦克风信号融合。
第 2 路:多麦克风波束成形
手机通话常用 1-2 个麦克风,但 TWS 耳机每只就有 2-3 个麦克风。静谧通话利用多个麦克风的空间位置差形成波束:
`
麦克风 1(耳机外侧)
│
│ 声波到达时间差 Δt
│
麦克风 2(耳机底部/耳柄)
│
▼
波束成形算法:保留嘴方向(前方)的声音,抑制其他方向声音
``
波束成形的核心数学是时延求和(Delay-and-Sum): - 对嘴方向的声波进行相位对齐叠加 → 信号增强 - 对其他方向的声波进行反相叠加 → 信号抵消
4 麦克风(Pro 5)比 3 麦克风(Pro 3/4)多了一个空间采样点,波束的主瓣更窄、旁瓣更低,方位选择性更强。
第 3 路:AI 语义语音提取
传统 ENC 用 DSP 做信号处理,处理的是"波形"。静谧通话 3.0 引入了NPU 驱动的深度学习模型:
- 输入:4 路空气麦信号 + 1 路 VPU 信号 - 模型:端到端语音分离网络(类似 Conv-TasNet) - 输出:纯净人声波形
AI 模型的优势:能识别"这是人说话还是别人说话"——传统 DSP 无法区分你说话 vs 旁边的人说话(两者都是人声频段),但 AI 可以结合 VPU 骨振动信号判断"声带在振动的是你"。
关键性能指标
| 指标 | 静谧通话 2.0 | 静谧通话 3.0 | 行业平均 |
|---|---|---|---|
| 抗风噪能力 | 提升 80%(相对无 VPU) | 提升 120% | — |
| 极端噪声下语音可懂度 | MOS-LQO 3.2(85dB 环境) | MOS-LQO 3.8(90dB 环境) | ~2.5 |
| 信噪比提升 | +18dB | +24dB | +10-15dB |
| 处理延迟 | <30ms | <20ms | 30-50ms |
> MOS-LQO(Mean Opinion Score - Listening Quality Objective)是 ITU-T P.863 标准的语音质量客观评分,满分 5.0。3.8 在 90dB 噪声下是非常高的分数。
静谧通话 vs 其他品牌通话降噪方案
| 品牌 | 技术名称 | 核心硬件 | 特点 |
|---|---|---|---|
| 华为 | 静谧通话 | 骨传导 VPU + 4 麦 + AI | 骨振动 + 空气声场融合 |
| 苹果 | Voice Isolation | 双波束成形麦克风 + H2 神经网络引擎 | 无骨传导,纯计算分离 |
| 高通 | Snapdragon Sound | 3 麦 + aptX Voice | 超宽带语音 32kHz 采样 |
| 索尼 | Precise Voice Pickup | 双反馈麦 + 骨传导传感器 | 与华为方案最接近 |
| Bose | Proprietary ENC | 4 麦 + 专有 DSP | 传统信号处理方案 |
历史前身:骨声纹通话降噪
静谧通话的"祖先"是 FreeBuds 3(2019)上的骨声纹通话降噪技术:
- FreeBuds 3 在耳柄内置骨声纹传感器 - 通过检测说话时耳道内产生的骨振动信号,与空气麦克风信号进行自适应融合 - 这是华为首次在 TWS 上引入骨传导拾音
从"骨声纹通话降噪"到"静谧通话 3.0"的进化本质是: 1. 传感器从单一骨声纹 → 多轴 VPU(更灵敏、更宽频) 2. 空气麦从 2 个 → 4 个(空间采样精度翻倍) 3. 算法从 DSP → DSP + NPU 深度学习
相关笔记
- 骨传导麦克风——VPU 传感器技术原理 - 华为耳机——静谧通话搭载的产品矩阵 - 智慧动态降噪——听音方向的自适应 ANC - ANC主动降噪——ANC vs ENC 的根本区别 - 双擎AI降噪——听音 ANC 的双 DSP 架构 - 麒麟音频芯片——NPU/DSP 算力平台 - 苹果——AirPods Pro 的语音突显技术对比