数字对讲语音参量编码的讨教
前两天跟研发老大抬杠,认为他们的对讲机很Low,主要是产品策划上的问题,使用的是30年前的技术,没有竞争力!人家也是有脾气的,当着老板面说道:你可以出个先进的方案,把它弄出来啊。
我也是有脾气的,犟脾气来了,试试就试试,于是开始研究语音数字对讲的相关技术。
图示是一段语音的波形和声纹,考虑传播过程的压缩需要(使用485或者CAN,或者433在速率不高的情况下传送高品质语音),就想到了MP3分段,WMA,子带编码,都不理想。后来仔细分析语音特征,决定可以采用如下方式:
1、ADC:12bit 32K采样,保证语音的音质和信噪比;
2、0-4.8K编码:面向元音,采用基频+谐波参数的编码方式,谐波最高20次,共22B;
3、3-16K编码 :面向辅音,采用类似因素识别的方式编码,予置32个辅音频谱特征函数,外加上限频率、下限频率和幅度,共4B,
4、组帧传输 :每秒采样100次(26B*100),5次传输一个数据包,6B用于帧框架,数据量26*5+6=136B,每秒20包,2.7K数据。
5、传统问题考虑:数字消侧音很好做,回授采样动态滤波的方式消除,可直接激励高次谐波。可有线可无线,延迟0.1S,目标FM效果。
有兴趣的给点指点,感激不尽!!! 你只要语音?那带宽采样率要求都不高。
然后使用环境参数比较重要,网络拥塞不拥塞,实时性要求高不高?
你把能得到的带宽先定下来,然后用现成的编码压缩标准语音片段,自己比较下就可以了。 little-f 发表于 2020-12-15 11:29
你只要语音?那带宽采样率要求都不高。
然后使用环境参数比较重要,网络拥塞不拥塞,实时性要求高不高?
...
电梯专用,专线,实时性应该就那几十毫秒的延时 夏国特 发表于 2020-12-15 12:48
电梯专用,专线,实时性应该就那几十毫秒的延时
语音4K信号足够,8K采样, 8bit A-law编码,最多就是64KPCM, 清晰的一沓糊涂了。
你有64K的带宽资源给这路信号就盖了帽了,不用研究任何压缩,
little-f 发表于 2020-12-15 13:00
语音4K信号足够,8K采样, 8bit A-law编码,最多就是64KPCM, 清晰的一沓糊涂了。
你有64K的带宽资源给这 ...
这种语音带宽太窄了,完全就是电话音质,我觉得目标还是得看向微信音质吧,电话音质基本没有什么辅音音素了。
页:
[1]