数字对讲语音参量编码的讨教

夏国特 · 发表于 2020-12-15 09:56:44

前两天跟研发老大抬杠，认为他们的对讲机很Low，主要是产品策划上的问题，使用的是30年前的技术，没有竞争力！

人家也是有脾气的，当着老板面说道：你可以出个先进的方案，把它弄出来啊。

我也是有脾气的，犟脾气来了，试试就试试，于是开始研究语音数字对讲的相关技术。

图示是一段语音的波形和声纹，考虑传播过程的压缩需要（使用485或者CAN，或者433在速率不高的情况下传送高品质语音），就想到了MP3分段，WMA，子带编码，都不理想。后来仔细分析语音特征，决定可以采用如下方式：
1、ADC:12bit 32K采样，保证语音的音质和信噪比；
2、0-4.8K编码：面向元音，采用基频+谐波参数的编码方式，谐波最高20次，共22B；
3、3-16K编码：面向辅音，采用类似因素识别的方式编码，予置32个辅音频谱特征函数，外加上限频率、下限频率和幅度，共4B，
4、组帧传输：每秒采样100次（26B*100），5次传输一个数据包，6B用于帧框架，数据量26*5+6=136B，每秒20包，2.7K数据。
5、传统问题考虑：数字消侧音很好做，回授采样动态滤波的方式消除，可直接激励高次谐波。可有线可无线，延迟0.1S，目标FM效果。

有兴趣的给点指点，感激不尽！！！

little-f · 发表于 2020-12-15 11:29:57

你只要语音？那带宽采样率要求都不高。
然后使用环境参数比较重要，网络拥塞不拥塞，实时性要求高不高？

你把能得到的带宽先定下来，然后用现成的编码压缩标准语音片段，自己比较下就可以了。

夏国特 · 发表于 2020-12-15 12:48:49

little-f 发表于 2020-12-15 11:29
你只要语音？那带宽采样率要求都不高。
然后使用环境参数比较重要，网络拥塞不拥塞，实时性要求高不高？
...

电梯专用，专线，实时性应该就那几十毫秒的延时

little-f · 发表于 2020-12-15 13:00:29

夏国特发表于 2020-12-15 12:48
电梯专用，专线，实时性应该就那几十毫秒的延时

语音4K信号足够，8K采样， 8bit A-law编码，最多就是64KPCM, 清晰的一沓糊涂了。
你有64K的带宽资源给这路信号就盖了帽了，不用研究任何压缩，

夏国特 · 发表于 2020-12-15 13:57:25

little-f 发表于 2020-12-15 13:00
语音4K信号足够，8K采样， 8bit A-law编码，最多就是64KPCM, 清晰的一沓糊涂了。
你有64K的带宽资源给这 ...

这种语音带宽太窄了，完全就是电话音质，我觉得目标还是得看向微信音质吧，电话音质基本没有什么辅音音素了。

		自动登录	找回密码
密码			加入会员

数字对讲语音参量编码的讨教

浏览过的版块