• <li id="qs868"><source id="qs868"></source></li>
    <li id="qs868"><input id="qs868"></input></li>
  • <li id="qs868"><input id="qs868"></input></li>
    服務熱線:0755-26751199
    音響網(Audio160.com) > 行業資訊 > 音響信息(專業音頻) > 索尼黑科技專欄——AI聲音分離技術
    索尼黑科技專欄——AI聲音分離技術
    更新時間:2021-8-6 9:26:48 編輯:溫情 sony 調整文字大小:【

    建立在堅實技術基礎上的創意娛樂公司

    索尼,始終以“人”為本,在前沿技術領域不斷探索進取。后疫情時代,索尼黑科技正式確立了3R戰略(真實(Reality)、實時(Real-time)和遠程(Remote),致力于為內容創作賦能,共同開創前所未有的娛樂表達方式。

    “索尼黑科技”專欄將定期為您介紹最具代表性的索尼技術創新成果,探索如何“用創意和科技的力量感動世界”。本期將為您帶來的是——AI聲音分離技術

    從混合音源中分離出單個聲音

    聲音分離技術憑借AI實現巨大飛躍

    聲音分離是一種技術,它可以從混合的音源中提取出單個的聲音。這原本被認為是一件非常困難的事,但在2013年,我們引入了索尼的AI技術,在這一領域更進一步。例如,在復原經典電影、消除智能手機的噪音、實現音樂流媒體服務的實時卡拉OK功能等方面已經取得了成果,我們期待未來它能應用到更多領域。

    受訪人資料

    機器對人類能力的再現

    Q AI聲音分離是一種什么樣的技術?

    光藤祐基:AI聲音分離是一種技術,它可以從音頻數據中去除不必要的噪音,只提取人聲或其他特定樂器的聲音。當人類在聆聽一場多種聲音混合在一起的表演時,可以分辨出各個樂器,或者在進行對話時,即使被一大群人包圍,我們也能自然而然地專注于一個聲音。這些都是人類獨有的能力,而直到近來,計算機要做到這一點都還是極其困難的。有人將這項任務描述為混合兩種果汁,之后提取其中一種。但是在過去的幾年里,由于AI新方法的引入,這項技術有了極大的提升。

    尤里奇:以前,人們試圖在分離中加入大量的專業知識,例如關于混合過程的知識。此外,人們更喜歡簡單的模型,因為它們可以從理論上研究它們。現在這種情況已經改變了,因為使用AI從數據中學習分離體系要好得多。聲音分離應用于《阿拉伯的勞倫斯》的三個例子,展示了我們如何提取對話以及各種模擬聲音的方法。

    Q 在這個技術上,AI如何被使用?

    光藤祐基:我們的聲音分離是由AI來進行的,可以由人來教計算機完成這個任務。例如,一把吉他有一個特定的聲音或頻率,這一點可被神經網絡學習到。無論混合了多少種聲音,我們的AI系統都能夠識別這些特征。這就像我們可以發現一個蘋果,因為我們之前見過很多蘋果。AI在聲音分離的應用方式而言,無論是機械上還是概念上都大同小異。

    尤里奇:神經網絡在所謂的訓練中學習識別音頻特征。在這個訓練中,神經網絡會看到很多音樂--比我們一生中聽到的音樂還要多--以及我們應該提取的目標聲音。這些信息足以讓神經網絡學習聲音分離。

    讓時間倒流并重新混音錄制

    Q AI聲音分離技術有什么特別之處?
    光藤祐基:我們認為這是為數不多的可以讓時間倒流的技術。例如,你可以把過去必須要將各部分錄在一起的一段錄音,拿來專門提取人聲來重新混音,或者把所有的樂器的聲音分開來重新組合成一個新的格式。

    Q 我們聽說這項技術也同樣應用在電影中。

    尤里奇:為了給看電影的人提供一個身臨其境的聲場,需要從多個不同的角度傳遞聲音,重現一個3D音頻空間。然而,經典電影的對白和音效都在同一個音軌上,所以我們能提取的聲音和聲場的沉浸感都是有限的。于是我們開始思考是否可以將這項技術延伸到電影中,在學習了音效(擬聲)庫之后,我們的AI系統能夠成功地從母版中提取出單個音效。在上面的視頻中也可以看到,在美國上映的《阿拉伯的勞倫斯》和《甘地》的4K超高清版本中,索尼影視娛樂公司的調音師用這項技術提取出聲音,用杜比全景聲進行重制,創造了一個沉浸式的聲場。

    上圖說明了擬聲聲音分離過程及其在電影混音中的應用

    4K超高清版的《阿拉伯的勞倫斯》和《甘地》錄制在哥倫比亞經典系列第一卷中

    將聲音分離的價值帶給更多的人

    Q 這項技術似乎也可以用在其他各種領域。
    光藤祐基:這項技術也有望應用于電影以外的場景,比如清理通過麥克風記錄的人類聲音。例如,索尼的自主型娛樂機器人 "小狗 "aibo可以對人類的聲音做出回應并進行交流,但如果aibo只是簡單地收集周圍的聲音,其自身的機械聲或風噪等噪音也會被接收到。通過使用AI聲音分離技術,可以只提取人類的聲音,去除其他所有的背景音,以提高其語音識別能力。同樣,通過在Xperia智能手機上打電話時僅清理人聲,我們就不用再擔心聊天時的風噪。最近的另一個例子是,它被用于一款音樂流媒體應用程序的 "卡拉OK模式"。通過使用聲音分離技術,可以將原唱的聲音從流媒體音樂中實時移除(成為伴奏),并將用戶的演唱與音源混合,從而實現類似卡拉OK的體驗。

    Q 該技術未來的可能性和前景如何?
    光藤祐基:我們希望我們的技術能夠像一臺時光機一樣,讓過去和現在的藝術家能夠跨時空合作。索尼PCL和索尼音樂解決方案剛剛開始使用我們的技術對外提供服務,所以肯定會有更多的應用。我非常期待未來的前景。

    尤里奇:從技術角度來看,我們將看到向廣泛音源分離的過渡,在這種情況下,不僅音源的數量是未知的,而且音源的類型也是不明確的。人們認識到這是一個具有挑戰性但有趣的情景,它將促成更多的商業應用案例。


      關于索尼(中國)有限公司
    索尼(中國)有限公司由索尼公司于1996年10月在北京設立,旨在統一管理和協調Sony在中國國內的業務活動的全資子公司。作為在中國的地區總部,它在中國國內從事電子信息行業的投資,產品市場推廣,顧客售后服務聯絡,并針對Sony在中國的各所屬企業進行宏觀管理及廣泛的業務支持,推動Sony在中國市場業務的不斷發展。索尼(中國)有限公司希望通過各項業務活動,為中國的經濟發展貢獻力量。
    家用電器:800-820-9000 筆記本電腦:800-820-2228 企業用戶:800-820-1228

     網友評論
     編輯推薦
    • 2021年廣州國際專業燈光、音響展專題報道
    • InfoComm China 2020 展會專題
    • 獨家策劃:北京IFC 2020展會精彩搶先看
    • 2020年廣州專業燈光音響展專題報道
    加載推薦品牌
    • SEEBURG acoustics line丨袖珍揚聲器 i-series :小身材,大能量
    • 加拿大XILICA(聲麗佳):專注于一流的數字音頻處理系統
    • 英國Wharfedale Pro(樂富豪):向世人傳遞更好的聲音
    • 厚積薄發的高級線材:意大利LA Sound銀樂聲
    加載推薦品牌資訊
    設為首頁 | 商務信息 | 音響資訊 | 本站動態 | 付款方式 | 關于音響網 | 網站地圖 | 網站RSS | 友情鏈接
    本站網絡實名:音響網 國際域名:www.bxg-tj.com 版權所有.1999-2021 深圳市中投傳媒有限公司 .
    郵箱:web@audio160.com  電話:0755-26751199(十二線) 傳真:0755-86024577  粵ICP備05041759號
    在線客服:點擊這里給我發消息    視聽學院-商家論壇群: 視聽學院-商家論壇
    主站蜘蛛池模板: 安新县| 微山县| 深水埗区| 永嘉县| 儋州市| 枞阳县| 蒲江县| 六枝特区| 山阴县| 四会市| 原阳县| 镇江市| 闽侯县| 大方县| 兰州市| 登封市| 英吉沙县| 昌邑市| 林周县| 通江县| 土默特右旗| 格尔木市| 苍梧县| 尉氏县| 青龙| 云霄县| 湖州市| 都匀市| 莒南县| 深水埗区| 新津县| 秦安县| 汾西县| 肥东县| 赣州市| 伊宁县| 恩平市| 尼玛县| 永登县| 吉水县| 蒲江县|