許多智能設(shè)備現(xiàn)在支持超寬帶的高質(zhì)量語音通信服務(wù)。然而,有時(shí)為了節(jié)省帶寬或者當(dāng)它們與不支持超寬帶的網(wǎng)絡(luò)或設(shè)備配合使用時(shí),語音質(zhì)量往往會(huì)受到失真影響。此時(shí),可以使用音頻帶寬擴(kuò)展(Audio Bandwidth Extension, ABE)來改善語音質(zhì)量。帶寬擴(kuò)展旨在估計(jì)缺失的高頻內(nèi)容,換句話說,即提高語音信號(hào)的分辨率,通常是從 4-8kHz 擴(kuò)展到 16kHz。早期的研究主要通過窄帶信號(hào)的頻譜參數(shù)(如頻譜包絡(luò)和增益)來估計(jì)寬帶信號(hào)的頻譜參數(shù)。這些方法采用了非負(fù)矩陣分解、線性預(yù)測(cè)編碼、隱馬爾可夫模型以及高斯混合模型等技術(shù)。
隨著深度學(xué)習(xí)的應(yīng)用極大地提升了帶寬擴(kuò)展的性能,相較于傳統(tǒng)方法,其建模能力更為強(qiáng)大。深度學(xué)習(xí)的引入極大地提升了帶寬擴(kuò)展的效果,特別是自回歸模型、生成對(duì)抗網(wǎng)絡(luò)(GANs)、變分自編碼器(VAEs)以及基于變換器(Transformer)的架構(gòu),使得高頻信息的估計(jì)更加精確且自然。此外,近年來,擴(kuò)散模型(Diffusion Models)也開始應(yīng)用于帶寬擴(kuò)展任務(wù),以生成更真實(shí)的高頻成分。
音頻的高頻成分在語音質(zhì)量、感知體驗(yàn)和下游任務(wù)中起著重要作用,主要體現(xiàn)在以下幾個(gè)方面:高頻成分包含豐富的諧波信息,對(duì)輔音(如 /s/、/f/、/t/)的感知尤為重要。例如,電話語音通常限制在 300Hz-3.4kHz,導(dǎo)致部分輔音聽起來模糊,而帶寬擴(kuò)展到 16kHz 后,語音更接近真實(shí)人聲,清晰度和自然度明顯提高。某些語言的音素主要依賴高頻成分進(jìn)行區(qū)分,例如英語中的 /s/ 和 /ʃ/(“see” vs. “she”),如果高頻信息缺失,聽眾可能難以分辨類似的發(fā)音,影響語音的可懂度。高頻成分?jǐn)y帶重要的空間感知信息,例如房間混響、方向感和立體聲特性。因此,在音樂和沉浸式音頻應(yīng)用(如 VR、3D 音頻)中,高頻成分能夠增強(qiáng)空間感,使音頻聽起來更自然和生動(dòng)。在音樂壓縮(如 MP3、AAC)中,高頻成分決定了音色的細(xì)膩程度。高頻缺失可能導(dǎo)致音樂變得暗淡、失去層次感。因此,許多高質(zhì)量音頻編解碼器(如 Hi-Res Audio、LDAC)都強(qiáng)調(diào)高頻部分的保留。
下面的視頻是48kHz的全帶音頻和8kHz窄帶音頻(對(duì)48kHz音頻使用截止頻率為8kHz低通濾波得到)的對(duì)比,很容易聽出全帶音頻聲音較為透亮,而窄帶音頻聲音較為低沉且不清晰。
在傳統(tǒng)帶寬擴(kuò)展算法中,線性預(yù)測(cè)系數(shù)是比較常用的重構(gòu)音頻參數(shù),基于線性預(yù)測(cè)分析的帶寬擴(kuò)展算法流程框圖如下所示,大致可以分為4個(gè)步驟:對(duì)音頻進(jìn)行分幀其中高頻成分通過線性預(yù)測(cè)分析來估計(jì)其中低頻成分直接原始寬帶信號(hào)中提取高頻成分通過IFFT得到對(duì)應(yīng)的時(shí)域信號(hào),由于低頻(LF)和高頻(HF)估計(jì)過程中可能引入不同的延遲,因此需要同步對(duì)齊。最后將對(duì)齊后的高頻信號(hào)和低頻信號(hào)進(jìn)行相加,然后使用OLA進(jìn)行拼接得到最終的32kHz信號(hào)。
通過對(duì)比基于線性預(yù)測(cè)分析(LPC)算法的帶寬擴(kuò)展技術(shù)處理前后的音頻樣本,在輸入信號(hào)為8kHz窄帶音頻的條件下,算法成功重構(gòu)了8-16kHz高頻頻譜成分,并且頻譜沒有明顯的缺失跳變等現(xiàn)象,語音聽感流暢且沒有雜音。
擴(kuò)散模型(Diffusion Model, DM)在生成類任務(wù)中的應(yīng)用廣泛,尤其在圖像、音頻、文本和3D內(nèi)容生成等領(lǐng)域取得了突破性的進(jìn)展。其核心思想是通過逐步添加噪聲將數(shù)據(jù)映射到高斯分布,然后再逐步去噪生成樣本。因此將其應(yīng)用在帶寬擴(kuò)展也是順理成章的事。基于擴(kuò)散模型的音頻帶寬或者推理過程通過反向擴(kuò)散過程迭代重建缺失的高頻頻譜(如圖b,c,e所示),同時(shí)在反向擴(kuò)散過程中盲估計(jì)低通濾波器的失真(白色線疊加顯示)。其中d詳細(xì)展示了一個(gè)采樣步驟,應(yīng)用了DNN作為去噪深度神經(jīng)網(wǎng)絡(luò),濾波器參數(shù) ϕi 通過迭代進(jìn)行優(yōu)化,音頻數(shù)據(jù) xi 通過重建引導(dǎo)進(jìn)行更新。
基于深度學(xué)習(xí)的帶寬擴(kuò)展算法能力更為強(qiáng)大,下圖是音樂信號(hào)經(jīng)過帶寬擴(kuò)展前后的頻譜對(duì)比。原始信號(hào)只有1kHz以下的頻率成分,而經(jīng)過擴(kuò)散模型后可以還原1kHz到8kHz的頻率成分。
FFmpeg之父新作——音頻壓縮工具 TSAC緊湊但強(qiáng)大:Intel N-DNS Challenge 冠軍方案解析無所不分:多模態(tài)音頻分離模型AudioSep
本文相關(guān)代碼:https://github.com/eloimoliner/BABEhttps://github.com/bachhavpramod/bandwidth_extension
參考文獻(xiàn):
[1]. https://pixl.cs.princeton.edu/pubs/Su_2021_BEI/ICASSP2021_Su_Wang_BWE.pdf[2]. D. Bansal, B. Raj, and P. Smaragdis, “Bandwidth expansion ofnarrowband speech using non-negative matrix factorization,”in European Conference on Speech Com. and Tech., 2005.[3]. P. Bachhav, M. Todisco, and N. Evans, “Efficient super-widebandwidth extension using linear prediction based analysissynthesis,” in ICASSP 2018.[4]. P. Jax and P. Vary, “Artificial bandwidth extension of speechsignals using MMSE estimation based on a hidden Markovmodel,” in ICASSP 2003[5]. H. Seo, H.-G. Kang, and F. Soong, “A maximum a posteriorbased reconstruction approach to speech bandwidth expansion in noise,” in ICASSP 2014.
|