日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 前端技术 > HTML >内容正文

HTML

统计信号处理_声学前端:深度学习算法和传统信号处理方法各有千秋

發(fā)布時(shí)間:2024/10/8 HTML 101 豆豆
生活随笔 收集整理的這篇文章主要介紹了 统计信号处理_声学前端:深度学习算法和传统信号处理方法各有千秋 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

在十年前,聲學(xué)前端(音頻前處理)還主要是基于傳統(tǒng)信號(hào)處理的方法,在很長(zhǎng)的一段時(shí)間里,研究者們建立了一整套涵蓋單通道和多通道的語音增強(qiáng)、語音分離、回聲消除、聲源定位、波束形成等技術(shù),這些技術(shù)許多都是基于最優(yōu)線性自適應(yīng)濾波理論的。最近幾年里,深度學(xué)習(xí)方法被引入到音頻前處理領(lǐng)域,并在多個(gè)任務(wù)中(比如語音分離和增強(qiáng))性能超越傳統(tǒng)信號(hào)處理方法,展現(xiàn)了極大的潛力。不過到目前為止,我們看到兩種方法各有千秋。他們的主要區(qū)別有以下幾點(diǎn):

  • 哲學(xué)思想上的區(qū)別。傳統(tǒng)信號(hào)處理方法主要基于還原論(Reductionism),把問題分割成一個(gè)個(gè)的子問題,并對(duì)子問題在設(shè)定的假設(shè)下進(jìn)行一步步的細(xì)化,推導(dǎo)出解。每一步的分割、假設(shè)和推導(dǎo)都有跡可循。深度學(xué)習(xí)方法更像是中國(guó)傳統(tǒng)的整體論(Holism)哲學(xué)思想,關(guān)注的是端到端的性能,對(duì)中間結(jié)果往往不觀注,而且中間狀態(tài)常常沒法解釋。
  • 原理上的區(qū)別。傳統(tǒng)信號(hào)處理方法大多是基于物理和數(shù)學(xué)原理推導(dǎo)的,而這些原理是基于人類幾千年的認(rèn)知發(fā)展而來,是人類智慧歸納演繹的結(jié)晶。這些原理放之四海而皆準(zhǔn),所以系統(tǒng)一般有比較好的魯棒性。深度學(xué)習(xí)方法更多的是機(jī)器在特定訓(xùn)練集上基于iid假設(shè)針對(duì)某一個(gè)目標(biāo)(比如降噪)而做的優(yōu)化,性能的決定因素來自于訓(xùn)練集大小、訓(xùn)練集的代表性、使用的模型、訓(xùn)練過程和準(zhǔn)則等,性能的變化范圍較大,系統(tǒng)在新環(huán)境下魯棒性較差。
  • 信息使用上的區(qū)別。傳統(tǒng)信號(hào)處理方法主要使用當(dāng)前信號(hào),其他人類基于研究觀察總結(jié)出的原理直接集成在算法中了。深度學(xué)習(xí)方法除了使用當(dāng)前信號(hào)之外,還能(或還需要)充分使用采集到的(距離當(dāng)前信號(hào)可能很久或很遠(yuǎn)的)訓(xùn)練集里的信息,事實(shí)上,深度學(xué)習(xí)方法的性能很大程度上取決于是否能有效利用訓(xùn)練集。尤其重要的是,深度學(xué)習(xí)方法可以非常容易地引入其他信息(比如視覺信息)并進(jìn)行有效融合,這一點(diǎn)傳統(tǒng)信號(hào)處理方法雖然也能做到,但是會(huì)困難很多,比如需要對(duì)信息源做獨(dú)立假設(shè),比如較難做有效的early fusion。
  • 假設(shè)上的區(qū)別。傳統(tǒng)信號(hào)處理方法為了簡(jiǎn)化計(jì)算或獲得解析解做了很多假設(shè)和簡(jiǎn)化,比如有限階線性系統(tǒng)(濾波)假設(shè)、語音和噪聲的復(fù)數(shù)域高斯分布假設(shè)、頻帶獨(dú)立假設(shè)等等。而深度學(xué)習(xí)方法往往沒有或不需要這些假設(shè)。事實(shí)上,深度學(xué)習(xí)方法的一個(gè)核心特定就是模型是復(fù)雜非線性的。不依賴這些假設(shè)和簡(jiǎn)化使得深度學(xué)習(xí)方法獲得的模型能夠更加符合復(fù)雜的現(xiàn)實(shí)場(chǎng)景,在有大量訓(xùn)練數(shù)據(jù)和較好模型設(shè)計(jì)的前提下有望取得更好的性能。
  • 使用環(huán)境和性能的區(qū)別。一般來說傳統(tǒng)信號(hào)處理方法效果好的前提是所作的假設(shè)在使用場(chǎng)景下成立,并且濾波中使用到的統(tǒng)計(jì)量能夠準(zhǔn)確的估計(jì)。但是這兩條在真實(shí)場(chǎng)景下往往不成立或很難做到,比如很難找到一個(gè)算法能夠非常好的在各種場(chǎng)景下自適應(yīng)估算語音和噪聲的協(xié)方差(絕大多數(shù)算法都需要用到這兩個(gè)統(tǒng)計(jì)量)。深度學(xué)習(xí)方法由于不需要這些假設(shè),所以在訓(xùn)練數(shù)據(jù)充足的前提下有望在真實(shí)場(chǎng)景下獲得比傳統(tǒng)方法好得多的性能,這一點(diǎn)我們?cè)谡Z音降噪和分離(尤其在雞尾酒會(huì)場(chǎng)景下)任務(wù)上已經(jīng)見過很多報(bào)道。但是深度學(xué)習(xí)方法由于缺乏有效約束在訓(xùn)練數(shù)據(jù)不足的情形下魯棒性往往比較差,最常見的表現(xiàn)就是在一個(gè)場(chǎng)景下表現(xiàn)優(yōu)越的系統(tǒng)在另一個(gè)場(chǎng)景下可能很差。另外,深度學(xué)習(xí)方法的性能和優(yōu)化指標(biāo)很有關(guān)系,比如,以信噪比為主要優(yōu)化指標(biāo)的深度學(xué)習(xí)系統(tǒng)可能造成很大的信號(hào)失真,這些失真可能對(duì)語音識(shí)別不利。最后,目前來看,要取得較好的性能,基于深度學(xué)習(xí)的方法往往模型較大、計(jì)算資源要求較多,這些會(huì)限制系統(tǒng)在計(jì)算資源或能耗極端有限的系統(tǒng)中的使用。
  • 兩種方法都有各自提升的空間。比如騰訊AI LAB最近分析了傳統(tǒng)信號(hào)處理方法做的假設(shè)和簡(jiǎn)化,提出了一系列改進(jìn)的方案,相對(duì)于原有信號(hào)處理方法能夠更好提升降噪和去混響的性能;我們也提出了一些結(jié)合傳統(tǒng)信號(hào)處理方法和深度學(xué)習(xí)方法的優(yōu)化方案,結(jié)合兩者的長(zhǎng)處,克服各自的短處,也取得了有意義的進(jìn)展;我們還在結(jié)合多模態(tài)的語音分離/降噪技術(shù)中提出了一系列的新方法。

    在即將到來的 CHIME 2020 (https://chimechallenge.github.io/chime2020-workshop/ )workshop上, 我們會(huì)介紹其中的一些進(jìn)展。相關(guān)的論文如下:

    有關(guān)語音分離/增強(qiáng)以及訓(xùn)練準(zhǔn)則:

    ? Yong Xu, Meng Yu, Shi-Xiong Zhang, Lianwu Chen, Chao Weng, Dong Yu, “Neural Spatio-Temporal Filtering for Target Speech Separation”, submitted to Interspeech 2020

    ? Rongzhi Gu, Shi-Xiong Zhang, Lianwu Chen, Yong Xu, Meng Yu, Dan Su, Yuexian Zou, Dong Yu, "Enhancing End-To-End Multi-Channel Speech Separation via Spatial Feature Learning", ICASSP 2020

    ? Yong Xu, Chao Weng, Like Hui, Jianming Liu, Meng Yu, Dan Su, Dong Yu, "Joint Training of Complex Ratio Mask Based Beamformer And Acoustic Model for Noise Robust ASR", ICASSP 2019

    ? Rongzhi Gu, Jian Wu, Shi-Xiong Zhang, Lianwu Chen, Yong Xu, Meng Yu, Dan Su, Yuexian Zou, and Dong Yu. "End-to-end multi-channel speech separation." arXiv preprint arXiv:1905.06286 (2019).

    有關(guān)基于多模態(tài)的 Diarization和語音分離/提取/識(shí)別

    ? Rongzhi Gu, Shixiong Zhang, Yong Xu, Lianwu Chen, Yuexian Zou, Dong Yu, “Multi-modal Multi-channel Target Speech Separation”, IEEE Journal of Selected Topics in Signal Processing, 2020.

    ? Ke Tan, Yong Xu, Shixiong Zhang, Meng Yu, Dong Yu, “Audio-Visual Speech Separation and Dereverberation with a Two-Stage Multimodal Network”, IEEE Journal of Selected Topics in Signal Processing, 2020

    ? Jianwei Yu, Shixiong Zhang, Jian Wu, Shahram Ghorbani, Bo Wu, Shiyin Kang, Shansong Liu, Xunying Liu, Helen Meng, Dong Yu, "Audio-Visual Recognition of Overlapped Speech for the LRS2 Dataset", ICASSP 2020

    ? Yifan Ding, Yong Xu, Shi-Xiong Zhang, Yahuan Cong, and Liqiang Wang "Self-supervised learning for audio-visual speaker diarization." ICASSP 2020.

    ? Jian Wu, Yong Xu, Shi-Xiong Zhang, Lianwu Chen, Meng Yu, Lei Xie, Dong Yu, "Time Domain Audio Visual Speech Separation", ASRU 2019

    有關(guān)盲分離和只基于音頻的目標(biāo)語音提取

    ? Meng Yu, Xuan Ji, Bo Wu, Dan Su, Dong Yu, “End-to-End Multi-Look Keyword Spotting”, submitted to Interspeech 2020

    ? Xuan Ji, Meng Yu, Jie Chen, Jimeng Zheng, Dan Su, Dong Yu, "Integration of Multi-Look Beamformers for Multi-Channel Keyword Spotting", ICASSP 2020

    ? Max W. Y. Lam, Jun Wang, Dan Su, Dong Yu, "Mixup-Breakdown: A Consistency Training Method for Improving Generalization of Speech Separation Models", ICASSP 2020.

    ? Xuan Ji, Meng Yu, Chunlei Zhang, Dan Su, Tao Yu, Xiaoyu Liu, Dong Yu, "Speaker-Aware Target Speaker Enhancement by Jointly Learning with Speaker Embedding Extraction", ICASSP 2020.

    ? Aswin Shanmugam Subramanian, Chao Weng, Meng Yu, Shi-Xiong Zhang, Yong Xu, Shinji Watanabe, Dong Yu, "Far-Field Location Guided Target Speech Extraction Using End-To-End Speech Recognition Objectives", ICASSP 2020

    ? Fahimeh Bahmaninezhad, Shi-Xiong Zhang, Yong Xu, Meng Yu, John HL Hansen, and Dong Yu. "A Unified Framework for Speech Separation." in submission to Speech Communications (2019).

    ? Rongzhi Gu, Lianwu Chen, Shixiong Zhang, Jimeng Zheng, Meng Yu, Yong Xu, Dan Su, Yuexian Zou and Dong Yu, “Neural Spatial Filter: Target Speaker Speech Separation Assisted with Directional Information”, Interspeech 2019

    ? Fahimeh Bahmaninezhad, Jian Wu, Rongzhi Gu, Shi-Xiong Zhang, Yong Xu, Meng Yu and Dong Yu, “A comprehensive study of speech separation: spectrogram vs waveform separation”, Interspeech 2019

    ? Meng Yu, Xuan Ji, Yi Gao, Lianwu Chen, Jie Chen, Jimeng Zheng, Dan Su, Dong Yu, "Text-Dependent Speech Enhancement for Small-Footprint Robust Keyword Detection", Interspeech 2018.

    ? Jun Wang, Jie Chen, Dan Su, Lianwu Chen, Meng Yu, Yanmin Qian, Dong Yu, "Deep Extractor Network for Target Speaker Recovery From Single Channel Speech Mixtures", Interspeech 2018

    總結(jié)

    以上是生活随笔為你收集整理的统计信号处理_声学前端:深度学习算法和传统信号处理方法各有千秋的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。