|
发表于 2019-3-15 14:03:55
|
显示全部楼层
机器可以的,只是目前还没有很好掌握算法。
目前音源分离采用的是基于特征的提取方法,也就是根据声纹去匹配,求相关,然后按特征参数恢复,这个有点作用,但不理想,跟人没法比,即使采用了深度神经网络的自学习,学习过程也很漫长,样本跨度不足时经常出错。
人区分音源首先不是基于特征的,而是根据音源的空间能力场分布,去划分出各个音源的大概空间范围,然后对这个范围内的能谱进行特征匹配,这样正对性就很强(因为音源无论频谱和阻尼特性如何,大多具有共源的特点,就是声音是从大致相同的区域发出来的)。使用机器方法实现这个算法,核心是先要生成空间能量分布场,我们的供应商(也算是语言领域的标杆,想必大家都知道就不说了)采用多麦克风平面阵列来拾音,我很鄙视,所以这个思路就没有告诉他们了,况且我也有点私心,这个思路要留着,到时候作为心理学学位论文的题目挺好!!!
要知道视频和图像发展这么好,还得感谢中科院心理所的荆其诚老先生,把视感和视觉的模型建得那么好,还出版了《色度学》,这才有了余斯乐的《电视原理》,成为我国视频和显示领域的葵花宝典。
而音频呢,因为基础的心理学理论研究还很不成熟,所以算法上是出不来什么成果的,所以号召一下:有兴趣的,不妨先从听觉心理入手,推动类似于《色度学》这样的学科诞生! |
|