音頻文件的裁剪方法、裝置及終端設備與流程

文檔序號：12826872閱讀：272來源：國知局

導航： X技術> 最新專利>信息存儲應用技術

本發(fā)明涉及終端技術領域，更具體地，涉及一種音頻文件的裁剪方法、裝置及終端設備。

背景技術：

隨著科技的進步和社會的發(fā)展，臺式電腦、筆記本電腦、智能手機和平板電腦等終端設備已經廣泛普及。

用戶的終端設備中通常存儲有大量的音頻文件。音頻文件包括音樂文件、和錄音文件等。用戶可以通過終端設備自帶或外接的音頻采集設備，例如麥克風，采集聲音，生成錄音文件，用于即時通訊中的語音聊天、進行音視頻直播或自行制作音視頻節(jié)目等。

由于對于從事媒體行業(yè)的用戶而言，很可能需要存儲大量的音頻文件。

然而，本發(fā)明的發(fā)明人發(fā)現(xiàn)，相當數(shù)量的音頻文件尤其是錄音文件，比較臃腫，占用了終端設備大量的存儲空間。

技術實現(xiàn)要素：

鑒于上述問題，本發(fā)明提出了一種音頻文件的裁剪方法、裝置及終端設備，以通過自動裁剪音頻文件中的無效音頻，減小音頻文件占用的存儲空間，提升終端設備存儲空間的利用效率水平，提升音頻文件的播放效率。

第一方面，本發(fā)明實施例中提供了一種音頻文件的裁剪方法，包括：

確定出音頻文件中的無效音頻及其所在的文件片段；

對音頻文件中無效音頻所在的文件片段進行裁剪，生成裁剪后的音頻文件。

結合第一方面，本發(fā)明實施例在第一方面的第一種實現(xiàn)方式中，當音頻文件中每個時刻的音頻符合下述至少一項時，確定出該時刻的音頻為無效音頻：特征值低于預設的空白音頻閾值、頻率與預設的噪聲音頻相匹配、音源方向與指定方向不一致；進而確定出無效音頻所在的文件片段。

結合第一方面的第一種實現(xiàn)方式，在第一方面的第二種實現(xiàn)方式中，當音頻文件中每個時刻采樣得到的音頻的數(shù)值低于預設的空白音頻閾值時，確定出該時刻的音頻為無效音頻；其中，音頻文件中每個時刻的音頻的特征值具體為該時刻采樣得到的音頻的數(shù)值。

結合第一方面的第二種實現(xiàn)方式，在第一方面的第三種實現(xiàn)方式中，當音頻文件為用戶方錄音得到的錄音文件時，將該錄音文件中數(shù)值低于第一空白音頻閾值的各時刻的音頻，都確定為無效音頻；或者，當音頻文件為服務方提供的音樂文件時，將該音樂文件中數(shù)值低于第二空白音頻閾值的各時刻的音頻，都確定為無效音頻；其中，第一空白音頻閾值高于第二空白音頻閾值。

結合第一方面的第一種實現(xiàn)方式，在第一方面的第四種實現(xiàn)方式中，當音頻文件中多個時刻的音頻的頻率保持基本不變時，確定出該多個時刻的音頻都為無效音頻；當音頻文件中多個時刻的音頻的頻率的變化規(guī)律與已知噪聲的變化規(guī)律相匹配時，確定出該多個時刻的音頻都為無效音頻。

結合第一方面的第一種實現(xiàn)方式，在第一方面的第五種實現(xiàn)方式中，當音頻文件為多個音頻采集設備采集指定方向的聲音所得時，將該音頻文件中與指定方向不一致的音源對應的音頻，確定為無效音頻。

結合第一方面或第一方面的第一至五種實現(xiàn)方式中任意一種實現(xiàn)方式，在第一方面的第六種實現(xiàn)方式中，根據(jù)預設的銜接時長，對音頻文件中無效音頻所在的每個文件片段的時長進行裁剪；根據(jù)經過裁剪的音頻文件的各文件片段，生成裁剪后的音頻文件。

結合第一方面的第六種實現(xiàn)方式，在第一方面的第七種實現(xiàn)方式中，當音頻文件為多媒體文件中的音頻流文件時，將經過裁剪的音頻流文件的各文件片段，匹配到該多媒體文件的播放時間軸上。

第二方面，本發(fā)明實施例提供了一種音頻文件的裁剪裝置，該音頻文件的裁剪裝置具有實現(xiàn)上述第一方面中音頻文件的裁剪方法行為的功能。功能可以通過硬件實現(xiàn)，也可以通過硬件執(zhí)行相應的軟件實現(xiàn)。硬件或軟件包括一個或多個與上述功能相對應的模塊。

在一個可能的設計中，音頻文件的裁剪裝置的結構中包括：

無效音頻確定模塊，用于確定出音頻文件中的無效音頻及其所在的文件片段；

音頻文件裁剪模塊，用于對音頻文件中無效音頻所在的文件片段進行裁剪，生成裁剪后的音頻文件。

結合第二方面，在第二方面的第一種實現(xiàn)方式中，無效音頻確定模塊具體用于當音頻文件中每個時刻的音頻符合下述至少一項時，確定出該時刻的音頻為無效音頻：特征值低于預設的空白音頻閾值、頻率與預設的噪聲音頻相匹配、音源方向與指定方向不一致；進而確定出無效音頻所在的文件片段。

結合第二方面的第一種實現(xiàn)方式，在第二方面的第二種實現(xiàn)方式中，無效音頻確定模塊具體用于當音頻文件中每個時刻采樣得到的音頻的數(shù)值低于預設的空白音頻閾值時，確定出該時刻的音頻為無效音頻；其中，音頻文件中每個時刻的音頻的特征值具體為該時刻采樣得到的音頻的數(shù)值。

結合第二方面的第二種實現(xiàn)方式，在第二方面的第三種實現(xiàn)方式中，無效音頻確定模塊具體用于當音頻文件為用戶方錄音得到的錄音文件時，將該錄音文件中數(shù)值低于第一空白音頻閾值的各時刻的音頻，都確定為無效音頻；或者，當音頻文件為服務方提供的音樂文件時，將該音樂文件中數(shù)值低于第二空白音頻閾值的各時刻的音頻，都確定為無效音頻；其中，第一空白音頻閾值高于第二空白音頻閾值。

結合第二方面的第一種實現(xiàn)方式，在第二方面的第四種實現(xiàn)方式中，無效音頻確定模塊具體用于當音頻文件中多個時刻的音頻的頻率保持基本不變時，確定出該多個時刻的音頻都為無效音頻；當音頻文件中多個時刻的音頻的頻率的變化規(guī)律與已知噪聲的變化規(guī)律相匹配時，確定出該多個時刻的音頻都為無效音頻。

結合第二方面的第一種實現(xiàn)方式，在第二方面的第五種實現(xiàn)方式中，無效音頻確定模塊具體用于當音頻文件為多個音頻采集設備采集指定方向的聲音所得時，將該音頻文件中與指定方向不一致的音源對應的音頻，確定為無效音頻。

結合第二方面或第二方面的第一至五種實現(xiàn)方式中任意一種實現(xiàn)方式，在第二方面的第六種實現(xiàn)方式中，音頻文件裁剪模塊還用于根據(jù)預設的銜接時長，對音頻文件中無效音頻所在的每個文件片段的時長進行裁剪；根據(jù)經過裁剪的音頻文件的各文件片段，生成裁剪后的音頻文件。

結合第二方面的第六種實現(xiàn)方式，在第二方面的第七種實現(xiàn)方式中，音頻文件裁剪模塊還用于當音頻文件為多媒體文件中的音頻流文件時，將經過裁剪的音頻流文件的各文件片段，匹配到該多媒體文件的播放時間軸上。

第三方面，本發(fā)明實施例提供了一種終端設備，該終端設備具有實現(xiàn)上述第一方面中音頻文件的裁剪方法行為的功能。所述功能可以通過硬件實現(xiàn)，也可以通過硬件執(zhí)行相應的軟件實現(xiàn)。所述硬件或軟件包括一個或多個與上述功能相對應的模塊。

在一個可能的設計中，終端設備的結構中包括：觸敏顯示器、一個或多個處理器、存儲器和一個或多個應用程序，其中一個或多個應用程序被存儲在存儲器中并被配置為由一個或多個處理器執(zhí)行，一個或多個應用程序配置用于：

確定出音頻文件中的無效音頻及其所在的文件片段；

對音頻文件中無效音頻所在的文件片段進行裁剪，生成裁剪后的音頻文件。

第四方面，本發(fā)明實施例提供了一種計算機存儲介質，用于儲存為上述音頻文件的裁剪裝置所用的計算機軟件指令，其包含用于執(zhí)行上述方面為音頻文件的裁剪裝置所設計的程序。

相對于現(xiàn)有技術，本發(fā)明提供的方案，可以自動確定出音頻文件中的無效音頻、以及無效音頻所在的文件片段；然后對音頻文件中無效音頻所在的文件片段進行裁剪，相當于對音頻文件中的無效音頻進行了濾除，使得生成的裁剪后的音頻文件中保留了絕大部分的有效音頻。從而在保留音頻文件中有效音頻的情況下，減小了音頻文件所占用的存儲空間的大小，提升存儲音頻文件的設備的存儲空間的利用效率水平。并且，在播放音頻文件的過程中，節(jié)省了播放音頻文件中無效音頻的時間，節(jié)省了用戶花費在聆聽無效音頻上的時間和精力，提升了音頻文件的播放效率，有利于提升用戶從播放的音頻中獲取信息的效率，從而可以提升用戶體驗。

而且，本發(fā)明的實施例中，基于預設的空白音頻閾值、噪聲音頻、音源的指定方向，確定出音頻文件中每個時刻的音頻是否為無效音頻?？梢蕴嵘_定無效音頻的精度和效率；有利于在不影響音頻文件中有效音頻的情況下，裁剪無效音頻所在的文件片段，減小音頻文件所占的存儲空間。

進一步，本發(fā)明的實施例中，在裁剪無效音頻所在的文件片段的過程中，保留預設的銜接時長的部分。合理的設置語境銜接時長可以使得前后語句銜接順暢，有助于更加充分地表達語義、感情色彩和場景氛圍等等；合理地設置音樂聲之間的音樂銜接時長，能夠更加充分地表述情感、烘托場景氛圍和進行諸如篇章轉換的故事性表達等等，有利于給聽眾帶來充分的音樂享受和想象空間。

本發(fā)明的這些方面或其他方面在以下實施例的描述中會更加簡明易懂。

附圖說明

為了更清楚地說明本發(fā)明實施例中的技術方案，下面將對實施例描述中所需要使用的附圖作簡單地介紹，顯而易見地，下面描述中的附圖僅僅是本發(fā)明的一些實施例，對于本領域技術人員來講，在不付出創(chuàng)造性勞動的前提下，還可以根據(jù)這些附圖獲得其他的附圖。

圖1示出了本發(fā)明實施例的音頻文件的裁剪方法的流程示意圖；

圖2示出了本發(fā)明實施例的音頻文件的裁剪裝置的內部結構的框架示意圖；

圖3示出了本發(fā)明實施例的終端設備的內部結構的框圖。

具體實施方式

為了使本技術領域的人員更好地理解本發(fā)明方案，下面將結合本發(fā)明實施例中的附圖，對本發(fā)明實施例中的技術方案進行清楚、完整地描述。

在本發(fā)明的說明書和權利要求書及上述附圖中的描述的一些流程中，包含了按照特定順序出現(xiàn)的多個操作，但是應該清楚了解，這些操作可以不按照其在本文中出現(xiàn)的順序來執(zhí)行或并行執(zhí)行，操作的序號如101、102等，僅僅是用于區(qū)分開各個不同的操作，序號本身不代表任何的執(zhí)行順序。另外，這些流程可以包括更多或更少的操作，并且這些操作可以按順序執(zhí)行或并行執(zhí)行。需要說明的是，本文中的“第一”、“第二”等描述，是用于區(qū)分不同的消息、設備、模塊等，不代表先后順序，也不限定“第一”和“第二”是不同的類型。

下面將結合本發(fā)明實施例中的附圖，對本發(fā)明實施例中的技術方案進行清楚、完整地描述，顯然，所描述的實施例僅僅是本發(fā)明一部分實施例，而不是全部的實施例。基于本發(fā)明中的實施例，本領域技術人員在沒有作出創(chuàng)造性勞動前提下所獲得的所有其他實施例，都屬于本發(fā)明保護的范圍。

本技術領域技術人員可以理解，這里所使用的“終端”、“終端設備”既包括無線信號接收器的設備，其僅具備無發(fā)射能力的無線信號接收器的設備，又包括接收和發(fā)射硬件的設備，其具有能夠在雙向通信鏈路上，進行雙向通信的接收和發(fā)射硬件的設備。這種設備可以包括：蜂窩或其他通信設備，其具有單線路顯示器或多線路顯示器或沒有多線路顯示器的蜂窩或其他通信設備；pcs(personalcommunicationsservice，個人通信系統(tǒng))，其可以組合語音、數(shù)據(jù)處理、傳真和/或數(shù)據(jù)通信能力；pda(personaldigitalassistant，個人數(shù)字助理)，其可以包括射頻接收器、尋呼機、互聯(lián)網(wǎng)/內聯(lián)網(wǎng)訪問、網(wǎng)絡瀏覽器、記事本、日歷和/或gps(globalpositioningsystem，全球定位系統(tǒng))接收器；常規(guī)膝上型和/或掌上型計算機或其他設備，其具有和/或包括射頻接收器的常規(guī)膝上型和/或掌上型計算機或其他設備。這里所使用的“終端”、“終端設備”可以是便攜式、可運輸、安裝在交通工具(航空、海運和/或陸地)中的，或者適合于和/或配置為在本地運行，和/或以分布形式，運行在地球和/或空間的任何其他位置運行。這里所使用的“終端”、“終端設備”還可以是通信終端、上網(wǎng)終端、音樂/視頻播放終端，例如可以是pda、mid(mobileinternetdevice，移動互聯(lián)網(wǎng)設備)和/或具有音樂/視頻播放功能的移動電話，也可以是智能電視、機頂盒等設備。

本發(fā)明的發(fā)明人經過研究發(fā)現(xiàn)，對于音頻文件中的錄音文件，一種現(xiàn)有方案是，保存錄音時間段內所有采集到的內容(包括空白音頻、噪聲等等)，生成現(xiàn)有的錄音文件。有些方案會在錄音結束后向用戶提供手動的裁剪功能，用戶需要自行查找到錄音中的空白音頻和噪聲等無效內容，然而再進行手動裁剪、保持；操作繁瑣，工作量較大，導致音頻文件的裁剪效率低下，容易造成用戶體驗的降低。

基于上述發(fā)現(xiàn)，本發(fā)明實施例提供了音頻文件的裁剪方法，該方法的流程示意圖如圖1所示，包括：s101確定出音頻文件中的無效音頻及其所在的文件片段；s102對音頻文件中無效音頻所在的文件片段進行裁剪，生成裁剪后的音頻文件。

無效音頻包括下述至少一項：空白音頻、噪聲、來源于非指定音源的音頻。除了無效音頻之外的音頻為有效音頻。例如，有效音頻可以包括：人聲、樂器聲、電子合成的音樂、大自然的背景聲音、社會生活的背景聲音等等。

本發(fā)明實施例中，自動確定出音頻文件中的無效音頻、以及無效音頻所在的文件片段；然后對音頻文件中無效音頻所在的文件片段進行裁剪，相當于對音頻文件中的無效音頻進行了濾除，使得生成的裁剪后的音頻文件中保留了絕大部分的有效音頻。從而在保留音頻文件中有效音頻的情況下，減小了音頻文件所占用的存儲空間的大小，提升存儲音頻文件的設備的存儲空間的利用效率水平。并且，在播放音頻文件的過程中，節(jié)省了播放音頻文件中無效音頻的時間，節(jié)省了用戶花費在聆聽無效音頻上的時間和精力，提升了音頻文件的播放效率，有利于提升用戶從播放的音頻中獲取信息的效率，從而可以提升用戶體驗。

下面展開介紹本發(fā)明實施例中的音頻文件的裁剪方法。

上述步驟s101中，當音頻文件中每個時刻的音頻符合下述至少一項時，確定出該時刻的音頻為無效音頻：特征值低于預設的空白音頻閾值、頻率與預設的噪聲音頻相匹配、音源方向與指定方向不一致；進而確定出無效音頻所在的文件片段。

較佳地，當音頻文件中每個時刻的音頻的特征值低于預設的空白音頻閾值時，確定出該時刻的音頻為無效音頻。

具體地，本發(fā)明的發(fā)明人經過研究發(fā)現(xiàn)，音頻文件的生成過程大體如下：終端設備通過內置或外接的音頻采集設備，例如麥克風，采集聲音，得到連續(xù)的模擬的初始音頻電信號；根據(jù)指定的位深度和采樣頻率，對連續(xù)的模擬的初始音頻電信號進行模數(shù)轉換，得到離散的數(shù)字的音頻信號，生成音頻文件。

常用的采樣頻率包括8khz(千赫茲)、11.025khz、22.05khz、16khz、37.8khz、44.1khz、或48khz等。因此，本發(fā)明實施例的音頻文件中的音頻在時間軸上是離散的。

本發(fā)明實施例中，數(shù)字化的音頻文件中每個時刻的音頻，包括該時刻的頻譜，即多個頻率各自的聲音強度對應的電信號強度值。

本發(fā)明實施例中，根據(jù)每個時刻的各頻率各自的聲音強度對應電信號強度值的總和，確定出該時刻采樣得到的音頻的數(shù)值，作為該時刻的音頻的特征值。當一個時刻的音頻包含的頻率越多時，該音頻的數(shù)值(特征值)就越大。

將音頻文件中每個時刻采樣得到的音頻的數(shù)值與預設的空白音頻閾值進行比較。當音頻文件中每個時刻采樣得到的音頻的數(shù)值低于預設的空白音頻閾值時，可以認為該時刻不存在音頻(或該時刻的音頻是空白音頻)，確定出該時刻的音頻為無效音頻。其中，本領域技術人員可以根據(jù)實驗數(shù)據(jù)、歷史數(shù)據(jù)、經驗數(shù)據(jù)、和/或實際情況，來預先確定出空白音頻閾值。

進一步，當音頻文件中每個時刻采樣得到的音頻的數(shù)值低于預設的空白音頻閾值時，確定出該時刻的音頻為無效音頻中的空白音頻。

當音頻文件中每個時刻采樣得到的音頻的數(shù)值不低于預設的空白音頻閾值時，可以認為該時刻存在音頻，確定出該時刻的音頻為有效音頻。

更優(yōu)的，本發(fā)明的發(fā)明人考慮到，音頻文件可以細分出多個種類的文件。例如，錄音文件和音樂文件。錄音文件是指用戶方錄音得到的錄音文件，包括終端設備的用戶自行錄制的錄音文件、以及其他用戶錄制并傳輸至該用戶終端設備的錄影文件等等。音樂文件是指服務方制作、發(fā)行和/或提供的音樂文件。

較佳地，將空白音頻閾值細分出第一空白音頻閾值、和第二空白音頻閾值，并使得第一空白音頻閾值高于第二空白音頻閾值。

當音頻文件為用戶方錄音得到的錄音文件時，將該錄音文件中各時刻的音頻的數(shù)值，分別與第一空白音頻閾值的比較；將該錄音文件中數(shù)值低于第一空白音頻閾值的各時刻的音頻，都確定為無效音頻中的空白音頻。

可以理解，由于普通用戶通常不具有專業(yè)的音頻采集設備、不具備專業(yè)的后期音頻處理能力，因此錄音文件在某些頻段的噪聲水平較高。利用數(shù)值較高的第一空白音頻閾值，有利于后續(xù)裁剪過程中去除錄音文件中的噪聲，減小錄音文件所占存儲空間，并且可以濃縮錄音文件的有效音頻，提升錄音文件的回放效率。

或者，當音頻文件為服務方提供的音樂文件時，將該錄音文件中各時刻的音頻的數(shù)值，分別與第二空白音頻閾值的比較；將該音樂文件中數(shù)值低于第二空白音頻閾值的各時刻的音頻，都確定為無效音頻中的空白音頻。

可以理解，由于服務方通常具有專業(yè)的音頻采集設備、專業(yè)的后去音頻處理設備和技術力量，因此音樂文件中的噪聲水平非常低，很可能還包括一些聲音強度較小(聲音較為細微)的音效。因此，利用數(shù)值較低的第二空白音頻閾值，可以在后續(xù)的裁剪過程中在保留較為細微的聲效的情況下更好的去除音頻文件中的噪聲。

進一步，本發(fā)明實施例中還提供了用戶方錄音得到的錄音文件的識別方法。例如，當檢測到用戶向錄音軟件輸入的涉及錄音的指令或操作時，將該錄音軟件對應輸出的音頻文件確定為錄音文件。再如，云端服務器預先收集大量的用戶方錄音得到的錄音文件作為樣本錄音文件，確定出這些樣本錄影文件中的聲音特征，訓練出錄音文件的聲音特征模型；由終端設備基于待識別的音頻文件與錄音文件的聲音特征模型之間的相似度，識別出待識別的音頻文件是否是錄音文件。

較佳地，當音頻文件中每個時刻的音頻的頻率與預設的噪聲音頻相匹配時，確定出該時刻的音頻為無效音頻。

具體地，本發(fā)明的發(fā)明人進行研究發(fā)現(xiàn)，無效音頻中的噪聲可以細分為很多類型，可以包括固定頻率的噪聲、和特定頻率的噪聲等。固定頻率的噪聲是指在一段時間內保持一個頻率；例如空調運行時發(fā)出的嗡嗡聲。特定頻率的噪聲是指在一段時間內頻率有規(guī)律地發(fā)生變化；例如汽車、火車或飛機等交通工具的特定背景音。

因此，對音頻文件中多個時刻的音頻的頻率進行檢測。

當音頻文件中多個時刻的音頻的頻率保持基本不變時，確定出該多個時刻的音頻都為無效音頻。進一步，當檢測出音頻文件中多個時刻的音頻的頻率保持基本不變時，確定出該多個時刻的音頻都為無效音頻中的噪聲。

當音頻文件中多個時刻的音頻的頻率的變化規(guī)律與已知噪聲的變化規(guī)律相匹配時，確定出該多個時刻的音頻都為無效音頻。進一步，當檢測出音頻文件中多個時刻的音頻的頻率的變化規(guī)律與已知噪聲的變化規(guī)律相匹配時，確定出該多個時刻的音頻都為無效音頻中的噪聲。

更優(yōu)的，本發(fā)明的發(fā)明人注意到，很多場合下可能會采用多個音頻采集設備(例如麥克風)采集指定方向的聲音；然而在采集過程中，不可避免地會采集其它方向的聲音。因此，后續(xù)生成的音頻文件中的音頻，既包括指定方向的(聲音對應的)音頻，也包括其它方向的音頻。而其他方向的音頻實際上是不需要的。

例如，會議上，需要保留的是朝向講臺處發(fā)言人方向(即指定方向)所采集的音頻，但是不可避免地會采集到朝向臺下方向(即出來指定方向的其它方向)的與會者的咳嗽聲、細語聲、肢體與物體接觸的聲音等等不需要的音頻，屬于無效音頻。音頻采集設備越靈敏，音頻文件中包含的其它方向的無效音頻的成分越多。

因此，當音頻文件為多個音頻采集設備采集指定方向的聲音所得到的時，對音頻的方向進行檢測；將該音頻文件中與指定方向不一致的音源對應的音頻，確定為無效音頻。進一步，將該音頻文件中與指定方向不一致的音源對應的音頻，確定為無效音頻中的噪聲。

較佳地，指定方向可以基于用戶輸入的指定方向相關指令的方式獲得。也可以由云端服務器預先收集大量的已知指定方向的音頻文件作為樣本音頻文件，確定出這些樣本音頻文件中的音頻的方向特征，訓練出音頻文件的音頻方向特征模型；由終端設備基于待識別的音頻文件與音頻文件的音頻方向特征模型之間的相似度，識別出待識別的音頻文件中的指定方向。

基于上述從音頻文件中確定出的無效音頻，確定出無效音頻所在的文件片段。較佳地，確定出無效音頻所在的文件片段的起始時刻和結束時刻。

上述步驟s102中，對音頻文件中無效音頻所在的文件片段進行裁剪，生成裁剪后的音頻文件進行保存。

具體地，將無效音頻所在的文件片段從音頻文件中裁剪掉，將剩余的文件片段拼接為裁剪后的音頻文件進行保存。

可以理解，剩余文件片段包含了原音頻文件的有效音頻，裁剪拼接的過程，實際上是濾除原音頻文件中的無效音頻的過程。實現(xiàn)在保留原音頻文件的有效音頻的情況下減小音頻文件所占的存儲空間；并播放裁剪后的音頻文件過程中，播放的都是有效音頻，提升了播放音頻文件的效率。

更優(yōu)的，本發(fā)明的發(fā)明人經過研究發(fā)現(xiàn)，為了提升播放音頻文件時作為聽眾的用戶的體驗，音頻之間實際上需要設置一些合適的語境銜接時長。

本發(fā)明實施例中，根據(jù)預設的銜接時長，對音頻文件中無效音頻所在的每個文件片段的時長進行裁剪；根據(jù)經過裁剪的音頻文件的各文件片段，生成裁剪后的音頻文件。

本領域技術人員可以根據(jù)實驗數(shù)據(jù)、歷史數(shù)據(jù)、經驗數(shù)據(jù)、應用場景和/或實際情況，預先確定出銜接時長。銜接時長可以包括語境銜接時長、和音樂銜接時長。較佳地，語境銜接時長可以設置為1-10s(秒)范圍內的某一時長。

將音頻文件中無效音頻所在的每個文件片段的時長與預設的銜接時長進行比較；當該文件片段的時長超過銜接時長，將該文件片段中超出銜接時長的部分裁剪掉；將經過裁剪的各文件片段、以及未經過裁剪的各文件片段，拼接為裁剪后的音頻文件進行保存。進一步，從無效音頻所在的文件片段的結束時刻開始延時間軸向前，裁剪掉超過銜接時長的部分。

較佳地，對于對話的人聲而言，根據(jù)正常對話語境的停頓，設置語境銜接時間。將音頻文件中無效音頻所在的每個文件片段的時長與語境銜接時間進行比較；當該文件片段的時長超過語境銜接時間時，保留從該文件片段的起始時刻開始的語境銜接時間的部分，將超出語境銜接時間的時間段對應的部分裁剪掉；將經過裁剪的各文件片段，拼接為裁剪后的音頻文件進行保存。

例如，從錄音文件中確定出空白音頻所在的文件片段，該文件片段的時刻從00:05至01:10；當語境銜接時間為2s(秒)時，裁剪掉00:07至01:10時段的空白音頻部分，保留00:05至00:06時段的空白音頻部分；將保留的空白音頻部分與原有的其它文件片段進行拼接，例如，將00:05至00:06時段的空白音頻部分，直接與以01:11為起始時刻的音頻文件片段進行拼接。本例中音頻的單位時間為1s(秒)，實際上本例適用于任何單位時間，例如適用于0.1s、0.01s、毫秒、微秒、或納秒等等，本領域技術人員可以根據(jù)實際情況確定單位時間。

可以理解，對于人聲而言，人聲語句之間往往需要根據(jù)語境產生一定時長的停頓，即語境銜接時長(例如2s)，該語境銜接時長為人們按照正常語速說話時的停頓時間，合理的設置語境銜接時長可以使得停頓前后語句銜接順暢，有助于更加充分地表達語義、感情色彩和場景氛圍等等。

較佳地，對于音樂而言，將音頻文件中無效音頻所在的每個文件片段的時長與音樂銜接時長進行比較；當該文件片段的時長超過音樂銜接時長時，保留從該文件片段的起始時刻開始的音樂銜接時長的部分，將超出音樂銜接時長的時間段對應的部分裁剪掉；將經過裁剪的各文件片段、以及未經過裁剪的各文件片段，拼接為裁剪后的音頻文件進行保存。進一步，可以根據(jù)音樂的類型、樂器的種類和/或演奏的場景，進一步細分音樂銜接時長。

可以理解，對于音樂而言，很多情況下需要在音樂聲之間設置一些合適時長的停頓(即音樂銜接時長)。因此，合理地設置音樂聲之間的音樂銜接時長，能夠更加充分地表述情感、烘托場景氛圍和進行諸如篇章轉換的故事性表達等等，有利于給聽眾帶來充分的音樂享受和想象空間。

更優(yōu)的，本發(fā)明實施例的音頻文件還包括音頻流文件。

具體地，多媒體文件中通常包括：視頻流文件和音頻流文件；可能還包括字幕文件等等。在播放多媒體文件時，音頻流文件通常與視頻流文件等其它文件按照同一個播放時間軸進行播放。

因此，當音頻文件為多媒體文件中的音頻流文件時，可以利用上述方法確定出音頻流文件中的無效音頻、以及無效音頻所在的文件片段；對音頻流文件中無效音頻所在的文件片段進行裁剪，得到經過裁剪的該音頻流文件的各文件片段；將經過裁剪的音頻流文件的各文件片段，匹配到該多媒體文件的播放時間軸上；將經過裁剪的音頻流文件中各文件片段、以及各文件片段相匹配的播放時刻對應保存。這樣，既不影響多媒體文件的播放效果，又減少了音頻流文件的大小，節(jié)省了音頻流文件所占的存儲空間。

基于上述音頻文件的裁剪方法，本發(fā)明實施例中還提供了音頻文件的裁剪裝置，該裝置的內部結構的框架示意圖如圖2所示，包括：無效音頻確定模塊201和音頻文件裁剪模塊202。

其中，無效音頻確定模塊201用于確定出音頻文件中的無效音頻及其所在的文件片段。

音頻文件裁剪模塊202用于對音頻文件中無效音頻所在的文件片段進行裁剪，生成裁剪后的音頻文件。

較佳地，無效音頻確定模塊201具體用于當音頻文件中每個時刻的音頻符合下述至少一項時，確定出該時刻的音頻為無效音頻：特征值低于預設的空白音頻閾值、頻率與預設的噪聲音頻相匹配、音源方向與指定方向不一致；進而確定出無效音頻所在的文件片段。

較佳地，無效音頻確定模塊201具體用于當音頻文件中每個時刻采樣得到的音頻的數(shù)值低于預設的空白音頻閾值時，確定出該時刻的音頻為無效音頻；其中，音頻文件中每個時刻的音頻的特征值具體為該時刻采樣得到的音頻的數(shù)值。

較佳地，無效音頻確定模塊201具體用于當音頻文件為用戶方錄音得到的錄音文件時，將該錄音文件中數(shù)值低于第一空白音頻閾值的各時刻的音頻，都確定為無效音頻；或者，當音頻文件為服務方提供的音樂文件時，將該音樂文件中數(shù)值低于第二空白音頻閾值的各時刻的音頻，都確定為無效音頻；其中，第一空白音頻閾值高于第二空白音頻閾值。

較佳地，無效音頻確定模塊201具體用于當音頻文件中多個時刻的音頻的頻率保持基本不變時，確定出該多個時刻的音頻都為無效音頻；當音頻文件中多個時刻的音頻的頻率的變化規(guī)律與已知噪聲的變化規(guī)律相匹配時，確定出該多個時刻的音頻都為無效音頻。

較佳地，無效音頻確定模塊201具體用于當音頻文件為多個音頻采集設備采集指定方向的聲音所得時，將該音頻文件中與指定方向不一致的音源對應的音頻，確定為無效音頻。

較佳地，音頻文件裁剪模塊202還用于根據(jù)預設的銜接時長，對音頻文件中無效音頻所在的每個文件片段的時長進行裁剪；根據(jù)經過裁剪的音頻文件的各文件片段，生成裁剪后的音頻文件。

較佳地，音頻文件裁剪模塊202還用于當音頻文件為多媒體文件中的音頻流文件時，將經過裁剪的音頻流文件的各文件片段，匹配到該多媒體文件的播放時間軸上。

上述無效音頻確定模塊201和音頻文件裁剪模塊202功能的實現(xiàn)方法，可以參考上述音頻文件的裁剪方法中的具體內容，此處不再贅述。

本發(fā)明實施例還提供了終端設備，如圖3所示，為了便于說明，僅示出了與本發(fā)明實施例相關的部分，具體技術細節(jié)未揭示的，請參照本發(fā)明實施例方法部分。該終端可以為包括手機、平板電腦、pda(personaldigitalassistant，個人數(shù)字助理)、pos(pointofsales，銷售終端)、車載電腦等任意終端設備，以終端為手機為例：

圖3示出的是與本發(fā)明實施例提供的終端相關的手機的部分結構的框圖。參考圖3，手機包括：射頻(radiofrequency，rf)電路310、存儲器320、輸入單元330、顯示單元340、傳感器350、音頻電路360、無線保真(wirelessfidelity，wifi)模塊370、處理器380、以及電源390等部件。本領域技術人員可以理解，圖3中示出的手機結構并不構成對手機的限定，可以包括比圖示更多或更少的部件，或者組合某些部件，或者不同的部件布置。

下面結合圖3對手機的各個構成部件進行具體的介紹：

rf電路310可用于收發(fā)信息或通話過程中，信號的接收和發(fā)送，特別地，將基站的下行信息接收后，給處理器380處理；另外，將設計上行的數(shù)據(jù)發(fā)送給基站。通常，rf電路310包括但不限于天線、至少一個放大器、收發(fā)信機、耦合器、低噪聲放大器(lownoiseamplifier，lna)、雙工器等。此外，rf電路310還可以通過無線通信與網(wǎng)絡和其他設備通信。上述無線通信可以使用任一通信標準或協(xié)議，包括但不限于全球移動通訊系統(tǒng)(globalsystemofmobilecommunication，gsm)、通用分組無線服務(generalpacketradioservice，gprs)、碼分多址(codedivisionmultipleaccess，cdma)、寬帶碼分多址(widebandcodedivisionmultipleaccess,wcdma)、長期演進(longtermevolution，lte)、電子郵件、短消息服務(shortmessagingservice，sms)等。

存儲器320可用于存儲軟件程序以及模塊，處理器380通過運行存儲在存儲器320的軟件程序以及模塊，從而執(zhí)行手機的各種功能應用以及數(shù)據(jù)處理。存儲器320可主要包括存儲程序區(qū)和存儲數(shù)據(jù)區(qū)，其中，存儲程序區(qū)可存儲操作系統(tǒng)、至少一個功能所需的應用程序(比如聲音播放功能、圖像播放功能等)等；存儲數(shù)據(jù)區(qū)可存儲根據(jù)手機的使用所創(chuàng)建的數(shù)據(jù)(比如音頻數(shù)據(jù)、電話本等)等。此外，存儲器320可以包括高速隨機存取存儲器，還可以包括非易失性存儲器，例如至少一個磁盤存儲器件、閃存器件、或其他易失性固態(tài)存儲器件。

輸入單元330可用于接收輸入的數(shù)字或字符信息，以及產生與手機的用戶設置以及功能控制有關的鍵信號輸入。具體地，輸入單元330可包括觸控面板331以及其他輸入設備332。觸控面板331，也稱為觸摸屏，可收集用戶在其上或附近的觸摸操作(比如用戶使用手指、觸筆等任何適合的物體或附件在觸控面板331上或在觸控面板331附近的操作)，并根據(jù)預先設定的程式驅動相應的連接裝置。可選的，觸控面板331可包括觸摸檢測裝置和觸摸控制器兩個部分。其中，觸摸檢測裝置檢測用戶的觸摸方位，并檢測觸摸操作帶來的信號，將信號傳送給觸摸控制器；觸摸控制器從觸摸檢測裝置上接收觸摸信息，并將它轉換成觸點坐標，再送給處理器380，并能接收處理器380發(fā)來的命令并加以執(zhí)行。此外，可以采用電阻式、電容式、紅外線以及表面聲波等多種類型實現(xiàn)觸控面板331。除了觸控面板331，輸入單元330還可以包括其他輸入設備332。具體地，其他輸入設備332可以包括但不限于物理鍵盤、功能鍵(比如音量控制按鍵、開關按鍵等)、軌跡球、鼠標、操作桿等中的一種或多種。

顯示單元340可用于顯示由用戶輸入的信息或提供給用戶的信息以及手機的各種菜單。顯示單元340可包括顯示面板341，可選的，可以采用液晶顯示器(liquidcrystaldisplay，lcd)、有機發(fā)光二極管(organiclight-emittingdiode,oled)等形式來配置顯示面板341。進一步的，觸控面板331可覆蓋顯示面板341，當觸控面板331檢測到在其上或附近的觸摸操作后，傳送給處理器380以確定觸摸事件的類型，隨后處理器380根據(jù)觸摸事件的類型在顯示面板341上提供相應的視覺輸出。雖然在圖3中，觸控面板331與顯示面板341是作為兩個獨立的部件來實現(xiàn)手機的輸入和輸入功能，但是在某些實施例中，可以將觸控面板331與顯示面板341集成而實現(xiàn)手機的輸入和輸出功能。

手機還可包括至少一種傳感器350，比如光傳感器、運動傳感器以及其他傳感器。具體地，光傳感器可包括環(huán)境光傳感器及接近傳感器，其中，環(huán)境光傳感器可根據(jù)環(huán)境光線的明暗來調節(jié)顯示面板341的亮度，接近傳感器可在手機移動到耳邊時，關閉顯示面板341和/或背光。作為運動傳感器的一種，加速計傳感器可檢測各個方向上(一般為三軸)加速度的大小，靜止時可檢測出重力的大小及方向，可用于識別手機姿態(tài)的應用(比如橫豎屏切換、相關游戲、磁力計姿態(tài)校準)、振動識別相關功能(比如計步器、敲擊)等；至于手機還可配置的陀螺儀、氣壓計、濕度計、溫度計、紅外線傳感器等其他傳感器，在此不再贅述。

音頻電路360、揚聲器361，傳聲器362可提供用戶與手機之間的音頻接口。音頻電路360可將接收到的音頻數(shù)據(jù)轉換后的電信號，傳輸?shù)綋P聲器361，由揚聲器361轉換為聲音信號輸出；另一方面，傳聲器362將收集的聲音信號轉換為電信號，由音頻電路360接收后轉換為音頻數(shù)據(jù)，再將音頻數(shù)據(jù)輸出處理器380處理后，經rf電路310以發(fā)送給比如另一手機，或者將音頻數(shù)據(jù)輸出至存儲器320以便進一步處理。

wifi屬于短距離無線傳輸技術，手機通過wifi模塊370可以幫助用戶收發(fā)電子郵件、瀏覽網(wǎng)頁和訪問流式媒體等，它為用戶提供了無線的寬帶互聯(lián)網(wǎng)訪問。雖然圖3示出了wifi模塊370，但是可以理解的是，其并不屬于手機的必須構成，完全可以根據(jù)需要在不改變發(fā)明的本質的范圍內而省略。

處理器380是手機的控制中心，利用各種接口和線路連接整個手機的各個部分，通過運行或執(zhí)行存儲在存儲器320內的軟件程序和/或模塊，以及調用存儲在存儲器320內的數(shù)據(jù)，執(zhí)行手機的各種功能和處理數(shù)據(jù)，從而對手機進行整體監(jiān)控?？蛇x的，處理器380可包括一個或多個處理單元；優(yōu)選的，處理器380可集成應用處理器和調制解調處理器，其中，應用處理器主要處理操作系統(tǒng)、用戶界面和應用程序等，調制解調處理器主要處理無線通信?？梢岳斫獾氖?，上述調制解調處理器也可以不集成到處理器380中。

手機還包括給各個部件供電的電源390(比如電池)，優(yōu)選的，電源可以通過電源管理系統(tǒng)與處理器380邏輯相連，從而通過電源管理系統(tǒng)實現(xiàn)管理充電、放電、以及功耗管理等功能。

盡管未示出，手機還可以包括攝像頭、藍牙模塊等，在此不再贅述。

此外，盡管未示出，本發(fā)明實施例中以手機為代表的終端設備，還包括內置的至少一個音頻采集裝置、或者外接的至少一個音頻采集裝置。

在本發(fā)明實施例中，該終端所包括的處理器380還具有以下功能：

運行一個或多個程序用于確定出音頻文件中的無效音頻及其所在的文件片段；對音頻文件中無效音頻所在的文件片段進行裁剪，生成裁剪后的音頻文件。

較佳地，運行一個或多個程序用于當音頻文件中每個時刻的音頻符合下述至少一項時，確定出該時刻的音頻為無效音頻：特征值低于預設的空白音頻閾值、頻率與預設的噪聲音頻相匹配、音源方向與指定方向不一致；進而確定出無效音頻所在的文件片段。

較佳地，運行一個或多個程序用于當音頻文件中每個時刻采樣得到的音頻的數(shù)值低于預設的空白音頻閾值時，確定出該時刻的音頻為無效音頻；其中，音頻文件中每個時刻的音頻的特征值具體為該時刻采樣得到的音頻的數(shù)值。

較佳地，運行一個或多個程序用于當音頻文件為用戶方錄音得到的錄音文件時，將該錄音文件中數(shù)值低于第一空白音頻閾值的各時刻的音頻，都確定為無效音頻；或者，當音頻文件為服務方提供的音樂文件時，將該音樂文件中數(shù)值低于第二空白音頻閾值的各時刻的音頻，都確定為無效音頻；其中，第一空白音頻閾值高于第二空白音頻閾值。

較佳地，運行一個或多個程序用于當音頻文件中多個時刻的音頻的頻率保持基本不變時，確定出該多個時刻的音頻都為無效音頻；當音頻文件中多個時刻的音頻的頻率的變化規(guī)律與已知噪聲的變化規(guī)律相匹配時，確定出該多個時刻的音頻都為無效音頻。

較佳地，運行一個或多個程序用于當音頻文件為多個音頻采集設備采集指定方向的聲音所得時，將該音頻文件中與指定方向不一致的音源對應的音頻，確定為無效音頻。

較佳地，運行一個或多個程序用于根據(jù)預設的銜接時長，對音頻文件中無效音頻所在的每個文件片段的時長進行裁剪；根據(jù)經過裁剪的音頻文件的各文件片段，生成裁剪后的音頻文件。

較佳地，運行一個或多個程序用于當音頻文件為多媒體文件中的音頻流文件時，將經過裁剪的音頻流文件的各文件片段，匹配到該多媒體文件的播放時間軸上。

所屬領域的技術人員可以清楚地了解到，為描述的方便和簡潔，上述描述的系統(tǒng)，裝置和單元的具體工作過程，可以參考前述方法實施例中的對應過程，在此不再贅述。

在本申請所提供的幾個實施例中，應該理解到，所揭露的系統(tǒng)，裝置和方法，可以通過其它的方式實現(xiàn)。例如，以上所描述的裝置實施例僅僅是示意性的，例如，所述單元的劃分，僅僅為一種邏輯功能劃分，實際實現(xiàn)時可以有另外的劃分方式，例如多個單元或組件可以結合或者可以集成到另一個系統(tǒng)，或一些特征可以忽略，或不執(zhí)行。另一點，所顯示或討論的相互之間的耦合或直接耦合或通信連接可以是通過一些接口，裝置或單元的間接耦合或通信連接，可以是電性，機械或其它的形式。

所述作為分離部件說明的單元可以是或者也可以不是物理上分開的，作為單元顯示的部件可以是或者也可以不是物理單元，即可以位于一個地方，或者也可以分布到多個網(wǎng)絡單元上?？梢愿鶕?jù)實際的需要選擇其中的部分或者全部單元來實現(xiàn)本實施例方案的目的。

另外，在本發(fā)明各個實施例中的各功能單元可以集成在一個處理單元中，也可以是各個單元單獨物理存在，也可以兩個或兩個以上單元集成在一個單元中。上述集成的單元既可以采用硬件的形式實現(xiàn)，也可以采用軟件功能單元的形式實現(xiàn)。

本領域普通技術人員可以理解上述實施例的各種方法中的全部或部分步驟是可以通過程序來指令相關的硬件來完成，該程序可以存儲于一計算機可讀存儲介質中，存儲介質可以包括：只讀存儲器(rom，readonlymemory)、隨機存取存儲器(ram，randomaccessmemory)、磁盤或光盤等。

本領域普通技術人員可以理解實現(xiàn)上述實施例方法中的全部或部分步驟是可以通過程序來指令相關的硬件完成，所述的程序可以存儲于一種計算機可讀存儲介質中，上述提到的存儲介質可以是只讀存儲器，磁盤或光盤等。

以上對本發(fā)明所提供的一種終端設備進行了詳細介紹，對于本領域的一般技術人員，依據(jù)本發(fā)明實施例的思想，在具體實施方式及應用范圍上均會有改變之處，綜上所述，本說明書內容不應理解為對本發(fā)明的限制。

完整全部詳細技術資料下載

當前第1頁1 2

該技術已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術所有人。
技術研發(fā)人員：周鋒春
技術所有人：北京奇虎科技有限公司
我是此專利的發(fā)明人

上一篇：一種用于軟基地質的現(xiàn)澆梁膺架的制作方法與工藝
上一篇：一種MP4文件生成方法及裝置與流程

該領域下的技術專家
如您需求助技術專家，請點此查看客服電話進行咨詢。
1、畢老師：機構動力學與控制
2、袁老師：1.計算機視覺 2.無線網(wǎng)絡及物聯(lián)網(wǎng)
3、王老師：1.計算機網(wǎng)絡安全 2.計算機仿真技術
4、王老師：1.網(wǎng)絡安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應用
5、張老師：1.機械設計的應力分析、強度校核的計算機仿真 2.生物反應器研制 3.生物力學
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關技術

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

音頻文件的裁剪方法、裝置及終端設備與流程

音頻文件的裁剪方法、裝置及終端設備與流程