• <li id="qs868"><source id="qs868"></source></li>
    <li id="qs868"><input id="qs868"></input></li>
  • <li id="qs868"><input id="qs868"></input></li>
    服務(wù)熱線:0755-26751199
    音響網(wǎng)(Audio160.com) > 行業(yè)資訊 > 音響信息(民用音響) > 從8kHz到48kHz:音頻帶寬擴(kuò)展算法的演進(jìn)
    從8kHz到48kHz:音頻帶寬擴(kuò)展算法的演進(jìn)
    更新時(shí)間:2025-3-29 7:15:00 編輯:溫情 音響網(wǎng) 調(diào)整文字大小:【

    許多智能設(shè)備現(xiàn)在支持超寬帶的高質(zhì)量語音通信服務(wù)。然而,有時(shí)為了節(jié)省帶寬或者當(dāng)它們與不支持超寬帶的網(wǎng)絡(luò)或設(shè)備配合使用時(shí),語音質(zhì)量往往會(huì)受到失真影響。此時(shí),可以使用音頻帶寬擴(kuò)展(Audio Bandwidth Extension, ABE)來改善語音質(zhì)量。帶寬擴(kuò)展旨在估計(jì)缺失的高頻內(nèi)容,換句話說,即提高語音信號(hào)的分辨率,通常是從 4-8kHz 擴(kuò)展到 16kHz。早期的研究主要通過窄帶信號(hào)的頻譜參數(shù)(如頻譜包絡(luò)和增益)來估計(jì)寬帶信號(hào)的頻譜參數(shù)。這些方法采用了非負(fù)矩陣分解、線性預(yù)測(cè)編碼、隱馬爾可夫模型以及高斯混合模型等技術(shù)。

    隨著深度學(xué)習(xí)的應(yīng)用極大地提升了帶寬擴(kuò)展的性能,相較于傳統(tǒng)方法,其建模能力更為強(qiáng)大。深度學(xué)習(xí)的引入極大地提升了帶寬擴(kuò)展的效果,特別是自回歸模型、生成對(duì)抗網(wǎng)絡(luò)(GANs)、變分自編碼器(VAEs)以及基于變換器(Transformer)的架構(gòu),使得高頻信息的估計(jì)更加精確且自然。此外,近年來,擴(kuò)散模型(Diffusion Models)也開始應(yīng)用于帶寬擴(kuò)展任務(wù),以生成更真實(shí)的高頻成分。

    音頻的高頻成分在語音質(zhì)量、感知體驗(yàn)和下游任務(wù)中起著重要作用,主要體現(xiàn)在以下幾個(gè)方面:高頻成分包含豐富的諧波信息,對(duì)輔音(如 /s/、/f/、/t/)的感知尤為重要。例如,電話語音通常限制在 300Hz-3.4kHz,導(dǎo)致部分輔音聽起來模糊,而帶寬擴(kuò)展到 16kHz 后,語音更接近真實(shí)人聲,清晰度和自然度明顯提高。某些語言的音素主要依賴高頻成分進(jìn)行區(qū)分,例如英語中的 /s/ 和 /ʃ/(“see” vs. “she”),如果高頻信息缺失,聽眾可能難以分辨類似的發(fā)音,影響語音的可懂度。高頻成分?jǐn)y帶重要的空間感知信息,例如房間混響、方向感和立體聲特性。因此,在音樂和沉浸式音頻應(yīng)用(如 VR、3D 音頻)中,高頻成分能夠增強(qiáng)空間感,使音頻聽起來更自然和生動(dòng)。在音樂壓縮(如 MP3、AAC)中,高頻成分決定了音色的細(xì)膩程度。高頻缺失可能導(dǎo)致音樂變得暗淡、失去層次感。因此,許多高質(zhì)量音頻編解碼器(如 Hi-Res Audio、LDAC)都強(qiáng)調(diào)高頻部分的保留。

    下面的視頻是48kHz的全帶音頻和8kHz窄帶音頻(對(duì)48kHz音頻使用截止頻率為8kHz低通濾波得到)的對(duì)比,很容易聽出全帶音頻聲音較為透亮,而窄帶音頻聲音較為低沉且不清晰。

    在傳統(tǒng)帶寬擴(kuò)展算法中,線性預(yù)測(cè)系數(shù)是比較常用的重構(gòu)音頻參數(shù),基于線性預(yù)測(cè)分析的帶寬擴(kuò)展算法流程框圖如下所示,大致可以分為4個(gè)步驟:對(duì)音頻進(jìn)行分幀其中高頻成分通過線性預(yù)測(cè)分析來估計(jì)其中低頻成分直接原始寬帶信號(hào)中提取高頻成分通過IFFT得到對(duì)應(yīng)的時(shí)域信號(hào),由于低頻(LF)和高頻(HF)估計(jì)過程中可能引入不同的延遲,因此需要同步對(duì)齊。最后將對(duì)齊后的高頻信號(hào)和低頻信號(hào)進(jìn)行相加,然后使用OLA進(jìn)行拼接得到最終的32kHz信號(hào)。

    通過對(duì)比基于線性預(yù)測(cè)分析(LPC)算法的帶寬擴(kuò)展技術(shù)處理前后的音頻樣本,在輸入信號(hào)為8kHz窄帶音頻的條件下,算法成功重構(gòu)了8-16kHz高頻頻譜成分,并且頻譜沒有明顯的缺失跳變等現(xiàn)象,語音聽感流暢且沒有雜音。

    擴(kuò)散模型(Diffusion Model, DM)在生成類任務(wù)中的應(yīng)用廣泛,尤其在圖像、音頻、文本和3D內(nèi)容生成等領(lǐng)域取得了突破性的進(jìn)展。其核心思想是通過逐步添加噪聲將數(shù)據(jù)映射到高斯分布,然后再逐步去噪生成樣本。因此將其應(yīng)用在帶寬擴(kuò)展也是順理成章的事。基于擴(kuò)散模型的音頻帶寬或者推理過程通過反向擴(kuò)散過程迭代重建缺失的高頻頻譜(如圖b,c,e所示),同時(shí)在反向擴(kuò)散過程中盲估計(jì)低通濾波器的失真(白色線疊加顯示)。其中d詳細(xì)展示了一個(gè)采樣步驟,應(yīng)用了DNN作為去噪深度神經(jīng)網(wǎng)絡(luò),濾波器參數(shù) ϕi 通過迭代進(jìn)行優(yōu)化,音頻數(shù)據(jù) xi 通過重建引導(dǎo)進(jìn)行更新。

    基于深度學(xué)習(xí)的帶寬擴(kuò)展算法能力更為強(qiáng)大,下圖是音樂信號(hào)經(jīng)過帶寬擴(kuò)展前后的頻譜對(duì)比。原始信號(hào)只有1kHz以下的頻率成分,而經(jīng)過擴(kuò)散模型后可以還原1kHz到8kHz的頻率成分。

    FFmpeg之父新作——音頻壓縮工具 TSAC緊湊但強(qiáng)大:Intel N-DNS Challenge 冠軍方案解析無所不分:多模態(tài)音頻分離模型AudioSep

    本文相關(guān)代碼:https://github.com/eloimoliner/BABEhttps://github.com/bachhavpramod/bandwidth_extension

    參考文獻(xiàn):
    [1]. https://pixl.cs.princeton.edu/pubs/Su_2021_BEI/ICASSP2021_Su_Wang_BWE.pdf[2]. D. Bansal, B. Raj, and P. Smaragdis, “Bandwidth expansion ofnarrowband speech using non-negative matrix factorization,”in European Conference on Speech Com. and Tech., 2005.[3]. P. Bachhav, M. Todisco, and N. Evans, “Efficient super-widebandwidth extension using linear prediction based analysissynthesis,” in ICASSP 2018.[4]. P. Jax and P. Vary, “Artificial bandwidth extension of speechsignals using MMSE estimation based on a hidden Markovmodel,” in ICASSP 2003[5]. H. Seo, H.-G. Kang, and F. Soong, “A maximum a posteriorbased reconstruction approach to speech bandwidth expansion in noise,” in ICASSP 2014.

     網(wǎng)友評(píng)論
     編輯推薦
    • 專題:北京 infocomm China 2024
    • 2022視聽行業(yè)高峰論壇 音響行業(yè)金孔雀“開屏”揭榜了
    • 專題:2021視聽行業(yè)高峰論壇
    • 2021 SIAV上海國(guó)際高級(jí)HiFi演示會(huì)展會(huì)_聯(lián)合HiFi專題
    加載推薦品牌
    • Topi Partanen:真力8000系列20周年,首任研發(fā)總監(jiān)親述研發(fā)歷程
    • 英國(guó)Martin Audio瑪田 | 耕耘半世紀(jì)的專業(yè)音響品牌
    • RCF成立75周年 推動(dòng)音頻創(chuàng)新
    • 諾音曼KH 810單10寸有源超低音音箱
    加載推薦品牌資訊
    設(shè)為首頁(yè) | 商務(wù)信息 | 音響資訊 | 本站動(dòng)態(tài) | 付款方式 | 關(guān)于音響網(wǎng) | 網(wǎng)站地圖 | 網(wǎng)站RSS | 友情鏈接
    本站網(wǎng)絡(luò)實(shí)名:音響網(wǎng) 國(guó)際域名:www.bxg-tj.com 版權(quán)所有.1999-2025 深圳市中投傳媒有限公司 .
    郵箱:web@audio160.com  電話:0755-26751199(十二線) 傳真:0755-86024577  粵ICP備05041759號(hào)
    在線客服:點(diǎn)擊這里給我發(fā)消息    視聽學(xué)院-商家論壇群: 視聽學(xué)院-商家論壇
    主站蜘蛛池模板: 宁国市| 三门峡市| 阿瓦提县| 冀州市| 奉节县| 耒阳市| 娄底市| 宣武区| 东城区| 原平市| 同心县| 勐海县| 扬中市| 屯门区| 兴和县| 定远县| 昭苏县| 东宁县| 许昌市| 潼关县| 井研县| 长宁县| 芷江| 堆龙德庆县| 武威市| 南郑县| 舞钢市| 东乌珠穆沁旗| 镇赉县| 郁南县| 定边县| 武安市| 黄冈市| 泰兴市| 手机| 确山县| 商水县| 晴隆县| 监利县| 通城县| 正定县|