夏国特 发表于 2020-12-15 09:56:44

数字对讲语音参量编码的讨教

前两天跟研发老大抬杠,认为他们的对讲机很Low,主要是产品策划上的问题,使用的是30年前的技术,没有竞争力!

人家也是有脾气的,当着老板面说道:你可以出个先进的方案,把它弄出来啊。

我也是有脾气的,犟脾气来了,试试就试试,于是开始研究语音数字对讲的相关技术。

图示是一段语音的波形和声纹,考虑传播过程的压缩需要(使用485或者CAN,或者433在速率不高的情况下传送高品质语音),就想到了MP3分段,WMA,子带编码,都不理想。后来仔细分析语音特征,决定可以采用如下方式:
1、ADC:12bit 32K采样,保证语音的音质和信噪比;
2、0-4.8K编码:面向元音,采用基频+谐波参数的编码方式,谐波最高20次,共22B;
3、3-16K编码 :面向辅音,采用类似因素识别的方式编码,予置32个辅音频谱特征函数,外加上限频率、下限频率和幅度,共4B,
4、组帧传输   :每秒采样100次(26B*100),5次传输一个数据包,6B用于帧框架,数据量26*5+6=136B,每秒20包,2.7K数据。
5、传统问题考虑:数字消侧音很好做,回授采样动态滤波的方式消除,可直接激励高次谐波。可有线可无线,延迟0.1S,目标FM效果。

有兴趣的给点指点,感激不尽!!!

little-f 发表于 2020-12-15 11:29:57

你只要语音?那带宽采样率要求都不高。
然后使用环境参数比较重要,网络拥塞不拥塞,实时性要求高不高?

你把能得到的带宽先定下来,然后用现成的编码压缩标准语音片段,自己比较下就可以了。

夏国特 发表于 2020-12-15 12:48:49

little-f 发表于 2020-12-15 11:29
你只要语音?那带宽采样率要求都不高。
然后使用环境参数比较重要,网络拥塞不拥塞,实时性要求高不高?
...

电梯专用,专线,实时性应该就那几十毫秒的延时

little-f 发表于 2020-12-15 13:00:29

夏国特 发表于 2020-12-15 12:48
电梯专用,专线,实时性应该就那几十毫秒的延时

语音4K信号足够,8K采样, 8bit A-law编码,最多就是64KPCM, 清晰的一沓糊涂了。
你有64K的带宽资源给这路信号就盖了帽了,不用研究任何压缩,

夏国特 发表于 2020-12-15 13:57:25

little-f 发表于 2020-12-15 13:00
语音4K信号足够,8K采样, 8bit A-law编码,最多就是64KPCM, 清晰的一沓糊涂了。
你有64K的带宽资源给这 ...

这种语音带宽太窄了,完全就是电话音质,我觉得目标还是得看向微信音质吧,电话音质基本没有什么辅音音素了。
页: [1]
查看完整版本: 数字对讲语音参量编码的讨教