特定人群的個性化彩鈴自動審核方法及系統(tǒng)的制作方法
【專利摘要】本發(fā)明公開了一種特定人群的個性化彩鈴自動審核方法,包括以下步驟:接收待審核的彩鈴;從彩鈴中提取語音;提取語音的音頻特征,根據(jù)音頻特征判斷語音對應的聲音是否來自預設人群;以及如果是,則判斷彩鈴未通過審核,否則判斷彩鈴通過審核,并將通過審核的彩鈴上傳至服務器。本發(fā)明的方法能夠自動、快速、準確地提取出不合格的彩鈴,效率高、成本低。本發(fā)明還提供了一種特定人群的個性化彩鈴自動審核系統(tǒng)。
【專利說明】特定人群的個性化彩鈴自動審核方法及系統(tǒng)
【技術領域】
[0001]本發(fā)明涉及音頻信號處理【技術領域】,特別涉及一種特定人群的個性化彩鈴自動審核方法及系統(tǒng)。
【背景技術】
[0002]個性化鈴音是使用了智能語音技術、滿足用戶親自動手、便捷制作個性內(nèi)容的鈴音、實現(xiàn)個人情感訴求的一項增值業(yè)務。個性化鈴音業(yè)務提供了豐富多彩的鈴音制作方式,可以通過特色的TTS (Text To Speech,從文本到語言)、預置鈴音下載、錄制、剪裁方式制作個性化鈴音。
[0003]而用戶制作的彩鈴質(zhì)量良莠不齊,部分用戶為了滿足自己所謂的個性,制作的彩鈴中,往往會出現(xiàn)惡意使用名人或者敏感人群的聲音制作彩鈴,彩鈴審核人員較難進行全面的判斷。會導致惡意的彩鈴流入市場,引起不必要的麻煩。
[0004]同時人工審核也受條件制約,不同的審核人員在不同的環(huán)境中,審核出的結論也不盡相同,隨著業(yè)務量逐漸增加,彩鈴企業(yè)也無法負擔不斷增長的審核業(yè)務人力成本,如圖1所示,為目前人工審核彩鈴的流程示意圖。
【發(fā)明內(nèi)容】
[0005]本發(fā)明旨在至少在一定程度上解決上述相關技術中的技術問題之一。
[0006]為此,本發(fā)明的一個目的在于提出一種特定人群的個性化彩鈴自動審核方法,該方法能夠自動、快速、準確地提取出不合格的彩鈴,效率高、成本低。
[0007]本發(fā)明的另一個目的在于提供一種特定人群的個性化彩鈴自動審核系統(tǒng)。
[0008]為達到上述目的,本發(fā)明第一方面的實施例提出了一種特定人群的個性化彩鈴自動審核方法,包括以下步驟:接收待審核的彩鈴;從所述彩鈴中提取語音;提取所述語音的音頻特征,根據(jù)所述音頻特征判斷所述語音對應的聲音是否來自預設人群;以及如果是,則判斷所述彩鈴未通過審核,否則判斷所述彩鈴通過審核,并將通過審核的彩鈴上傳至服務器。
[0009]根據(jù)本發(fā)明實施例的特定人群的個性化彩鈴自動審核方法,對待審核彩鈴的頻譜進行分析,提取出說話語音的音頻特征,并判斷該語音是否屬于預設人群,如果是,則判定待審核的彩鈴未通過審核,否則該彩鈴通過審核,然后將審核通過的彩鈴上傳至服務器。因此,該方法能夠快速、準確地提取出不合格(如包含預設人群的語音)的彩鈴,效率高、成本低。
[0010]另外,根據(jù)本發(fā)明上述實施例的特定人群的個性化彩鈴自動審核方法還可以具有如下附加的技術特征:
[0011]在本發(fā)明的一個實施例中,所述從所述彩鈴中提取語音的步驟包括:利用音頻分類器對所述彩鈴進行頻譜分析,以從所述彩鈴中分離所述語音和鈴音。
[0012]在本發(fā)明的一個實施例中,所述提取所述語音的音頻特征,根據(jù)所述音頻特征判斷所述語音對應的聲音是否來自預設人群,進一步包括:提取所述語音的音頻特征;根據(jù)所述語音的音頻特征和來自所述預設人群的語音的音頻特征得到聲紋相似度;如果所述聲紋相似度大于預設閾值,則判斷所述語音對應的聲音來自所述預設人群。
[0013]在本發(fā)明的一個實施例中,所述音頻特征包括MFCC特征。
[0014]在本發(fā)明的一個實施例中,在從所述彩鈴中提取語音之前,還包括:對所述彩鈴進行噪音過濾。
[0015]本發(fā)明第二方面的實施例還提供了一種特定人群的個性化彩鈴自動審核系統(tǒng),包括:上傳方,用于上傳所述待審核的彩鈴;審核方,用于從所述待審核的彩鈴中提取語音,并提取所述語音的音頻特征,根據(jù)所述音頻特征判斷所述語音對應的聲音是否來自預設人群,以及在判斷所述語音對應的聲音來自預設人群時,判斷所述彩鈴未通過審核,否則判斷所述彩鈴通過審核;彩鈴服務器,用于接收并保存所述審核方審核通過的彩鈴。
[0016]根據(jù)本發(fā)明實施例的特定人群的個性化彩鈴自動審核系統(tǒng),對待審核彩鈴的頻譜進行分析,提取出說話語音的音頻特征,并判斷該語音是否屬于預設人群,如果是,則判定待審核的彩鈴未通過審核,否則該彩鈴通過審核,然后將審核通過的彩鈴上傳至服務器。因此,該系統(tǒng)能夠快速、準確地提取出不合格(如包含預設人群的語音)的彩鈴,效率高、成本低。
[0017]另外,根據(jù)本發(fā)明上述實施例的特定人群的個性化彩鈴自動審核系統(tǒng)還可以具有如下附加的技術特征:
[0018]在本發(fā)明的一個實施例中,所述審核方利用音頻分類器對所述彩鈴進行頻譜分析,以從所述彩鈴中分離所述語音和鈴音。
[0019]在本發(fā)明的一個實施例中,所述審核方提取所述語音的音頻特征,根據(jù)所述音頻特征判斷所述語音對應的聲音是否來自預設人群,進一步包括:提取所述語音的音頻特征;根據(jù)所述語音的音頻特征和來自所述預設人群的語音的音頻特征得到聲紋相似度;如果所述聲紋相似度大于預設閾值,則判斷所述語音對應的聲音來自所述預設人群。
[0020]在本發(fā)明的一個實施例中,所述音頻特征包括MFCC特征。
[0021]在本發(fā)明的一個實施例中,所述審核方還用于在從所述彩鈴中提取語音之前,對所述彩鈴進行噪音過濾。
[0022]本發(fā)明附加的方面和優(yōu)點將在下面的描述中部分給出,部分將從下面的描述中變得明顯,或通過本發(fā)明的實踐了解到。
【專利附圖】
【附圖說明】
[0023]本發(fā)明的上述和/或附加的方面和優(yōu)點從結合下面附圖對實施例的描述中將變得明顯和容易理解,其中:
[0024]圖1為目前傳統(tǒng)的人工審核彩鈴的流程示意圖;
[0025]圖2為根據(jù)本發(fā)明一個實施例的特定人群的個性化彩鈴自動審核方法的流程圖;
[0026]圖3為根據(jù)本發(fā)明另一個實施例特定人群的個性化彩鈴自動審核方法的流程示意圖;
[0027]圖4為根據(jù)本發(fā)明一個實施例聲紋檢測的原理示意圖;
[0028]圖5為根據(jù)本發(fā)明一個實施例的提取音頻特征的流程示意圖;
[0029]圖6為根據(jù)本發(fā)明一個實施例UBM模型和說話人模型示意圖;以及
[0030]圖7為根據(jù)本發(fā)明一個實施例的特定人群的個性化彩鈴自動審核系統(tǒng)的結構框圖。
【具體實施方式】
[0031]下面詳細描述本發(fā)明的實施例,所述實施例的示例在附圖中示出,其中自始至終相同或類似的標號表示相同或類似的元件或具有相同或類似功能的元件。下面通過參考附圖描述的實施例是示例性的,旨在用于解釋本發(fā)明,而不能理解為對本發(fā)明的限制。
[0032]此外,術語“第一”、“第二”僅用于描述目的,而不能理解為指示或暗示相對重要性或者隱含指明所指示的技術特征的數(shù)量。由此,限定有“第一”、“第二”的特征可以明示或者隱含地包括一個或者更多個該特征。在本發(fā)明的描述中,“多個”的含義是兩個或兩個以上,除非另有明確具體的限定。
[0033]在本發(fā)明中,除非另有明確的規(guī)定和限定,術語“安裝”、“相連”、“連接”、“固定”等術語應做廣義理解,例如,可以是固定連接,也可以是可拆卸連接,或一體地連接;可以是機械連接,也可以是電連接;可以是直接相連,也可以通過中間媒介間接相連,可以是兩個元件內(nèi)部的連通。對于本領域的普通技術人員而言,可以根據(jù)具體情況理解上述術語在本發(fā)明中的具體含義。
[0034]在本發(fā)明中,除非另有明確的規(guī)定和限定,第一特征在第二特征之“上”或之“下”可以包括第一和第二特征直接接觸,也可以包括第一和第二特征不是直接接觸而是通過它們之間的另外的特征接觸。而且,第一特征在第二特征“之上”、“上方”和“上面”包括第一特征在第二特征正上方和斜上方,或僅僅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”包括第一特征在第二特征正上方和斜上方,或僅僅表示第一特征水平高度小于第二特征。
[0035]下面參照附圖描述根據(jù)本發(fā)明實施例的特定人群的個性化彩鈴自動審核方法及系統(tǒng)。
[0036]圖2為根據(jù)本發(fā)明一個實施例的特定人群的個性化彩鈴自動審核方法的流程圖。圖3為根據(jù)本發(fā)明另一個實施例的特定人群的個性化彩鈴自動審核方法的流程示意圖。結合圖2和圖3所示,該方法包括以下步驟:
[0037]步驟S201,接收待審核的彩鈴。
[0038]步驟S202,從彩鈴中提取語音。
[0039]具體地說,結合圖4所示,例如利用音頻分類器對彩鈴進行頻譜分析,以從彩鈴中分離語音和鈴音。其中,音頻分類器以MFCC為特征向量,采用GMM-UBM模型,在已訓練好的音樂和語音(說話)兩個混合高斯模型上,對待審核彩鈴進行后驗概率統(tǒng)計,通過其后驗概率的分布,來確定彩鈴的音頻屬性。其中,例如將音頻分為音樂和說話(語音)兩個類型。也即,該步驟將說話部分從彩鈴中分離出來。
[0040]另外,在本發(fā)明的實施例中,在從彩鈴中提取語音之前,首先對彩鈴進行噪音過濾。
[0041]步驟S203,提取語音的音頻特征,根據(jù)音頻特征判斷語音對應的聲音是否來自預設人群。
[0042]在本發(fā)明的一個實施例中,結合圖4所示,該步驟S203進一步包括:
[0043]步驟1:提取語音的音頻特征。
[0044]步驟2:根據(jù)語音的音頻特征和來自預設人群的語音的音頻特征得到聲紋相似度。
[0045]具體地說,聲紋(Voiaprint)是用電聲學儀器顯示的攜帶言語信息的聲波頻譜,聲紋不僅具有特定性,而且有相對穩(wěn)定性的特點。因此,可采取GMM-UBM模型,進行聲紋檢測。首先進行語音的音頻特征提取,然后采用MAP (Maximum a Poster1ri,最大后驗概率)準側(cè),先驗分布來自于通用背景模型UBM,然后提取目標音頻的特征,采用對數(shù)似然比得分取代似然度得分,以獲得聲紋的相似度。其中,預設閾值根據(jù)實際需求預先設定。
[0046]步驟3:如果聲紋相似度大于預設閾值,則判斷語音對應的聲音來自預設人群。
[0047]其中,在本發(fā)明的一個實施例中,所述的音頻特征包括MFCC特征,同時,輔以音高、清濁音等,如圖5所示。具體而言,MFCC是一種聽覺感知頻域倒譜參數(shù),該參數(shù)從人耳對聲音頻率高低的非線性心理感覺角度反映了語音短時幅度譜的特征。
[0048]步驟S204,如果是,則判斷彩鈴未通過審核,否則判斷彩鈴通過審核,并將通過審核的彩鈴上傳至服務器。
[0049]關于上述的UBM模型,結合圖6所示。具體地說,同傳統(tǒng)的語音識別一樣,訓練數(shù)據(jù)的數(shù)量是影響模式識別系統(tǒng)性能的重要因素,但在聲紋檢測上面,該問題表現(xiàn)的更加突出。聲紋系統(tǒng)需要對每個敏感人都要建立一套對應的模型,但是現(xiàn)實情況下要做到大量收集每個敏感人的語音信息,尤其是反動人群(預設人群)的音頻數(shù)據(jù),是相當困難的。所以本發(fā)明實施例的做法是先訓練一個通用的說話人模型,然后將目標說話人的數(shù)據(jù)使用自適應的方法,映射到目標說話人上面。
[0050]說話人的模型是在UBM的基礎上利用說話人的數(shù)據(jù)進行適當?shù)卣{(diào)整,也就是自適應的方法。一般而言,自適應的方法有多種多樣,有最大似然線性回歸(Maximumlikelihood linear regress1n, MLLR),最大后驗概率(Maximum a Poster1ri,MAP)等方法。在語音數(shù)據(jù)相對較少的情況下,MLLR能夠取得更好的性能,在語音數(shù)據(jù)超過30秒以上時,MAP能夠取得更好的性能,因為彩鈴中的音頻數(shù)據(jù)往往大于30秒,故本發(fā)明的實施例中采用MAP的方案。
[0051]綜上所述,通過這一系列流程后,該方法能夠?qū)⒚舾腥巳旱男畔z測出來,隨著用戶彩鈴的數(shù)量與質(zhì)量不斷積累,可以用此數(shù)據(jù)去迭代訓練系統(tǒng)中的相關GMM-UBM模型,可以使得檢測效果越來越好。
[0052]綜上,本發(fā)明實施例的方法的原理概述如下:首先對待審核彩鈴進行頻譜分析,分離出說話語音的部分,然后對彩鈴中包含說話語音的部分進行聲紋分析,判別說話人是不是預設人群,預設人群為預先設定的一類特定人群。如果說話人屬于預設人群,則該彩鈴審核不通過,如果說話人不屬于預設人群,則該彩鈴審核通過,并上傳至服務器中。
[0053]根據(jù)本發(fā)明實施例的特定人群的個性化彩鈴自動審核方法,對待審核彩鈴的頻譜進行分析,提取出說話語音的音頻特征,并判斷該語音是否屬于預設人群,如果是,則判定待審核的彩鈴未通過審核,否則該彩鈴通過審核,然后將審核通過的彩鈴上傳至服務器。因此,該方法能夠自動、快速、準確地提取出不合格(如包含預設人群的語音)的彩鈴,效率高、成本低,另外,該方法可實現(xiàn)分布式部署,可擴展性強,便于企業(yè)級大數(shù)據(jù)量的彩鈴的分析處理。
[0054]本發(fā)明的進一步實施例還提供了一種特定人群的個性化彩鈴自動審核系統(tǒng)。
[0055]圖7為根據(jù)本發(fā)明一個實施例的特定人群的個性化彩鈴自動審核系統(tǒng)的結構框圖。如圖7所示,該系統(tǒng)700包括:上傳方710、審核方720和彩鈴服務器730。
[0056]其中,上傳方710用于上傳待審核的彩鈴。審核方720用于從待審核的彩鈴中提取語音,并提取語音的音頻特征,根據(jù)音頻特征判斷語音對應的聲音是否來自預設人群,以及在判斷語音對應的聲音來自預設人群時,判斷彩鈴未通過審核,否則判斷彩鈴通過審核。彩鈴服務器730用于接收并保存審核方審核通過的彩鈴。
[0057]具體地說,結合圖4所示,在本發(fā)明的一個實施例中,審核方720例如利用音頻分類器對彩鈴進行頻譜分析,以從彩鈴中分離語音和鈴音。其中,音頻分類器以MFCC為特征向量,采用GMM-UBM模型,在已訓練好的音樂和語音(說話)兩個混合高斯模型上,對待審核彩鈴進行后驗概率統(tǒng)計,通過其后驗概率的分布,來確定彩鈴的音頻屬性。其中,例如將音頻分為音樂和說話(語音)兩個類型。也即,該步驟將說話部分從彩鈴中分離出來。
[0058]在本發(fā)明的另一個實施例中,審核方720提取語音的音頻特征,根據(jù)音頻特征判斷語音對應的聲音是否來自預設人群,具體包括:提取語音的音頻特征,然后根據(jù)語音的音頻特征和來自預設人群的語音的音頻特征得到聲紋相似度,如果聲紋相似度大于預設閾值,則判斷語音對應的聲音來自預設人群。
[0059]具體地說,聲紋(Voiaprint)是用電聲學儀器顯示的攜帶言語信息的聲波頻譜,聲紋不僅具有特定性,而且有相對穩(wěn)定性的特點。因此,可采取GMM-UBM模型,進行聲紋檢測。首先進行語音的音頻特征提取,然后采用MAP準側(cè),先驗分布來自于通用背景模型UBM,然后提取目標音頻的特征,采用對數(shù)似然比得分取代似然度得分,以獲得聲紋的相似度。其中,預設閾值根據(jù)實際需求預先設定。
[0060]在上述示例中,音頻特征包括MFCC特征,同時,輔以音高、清池音等,如圖5所示。具體而言,MFCC是一種聽覺感知頻域倒譜參數(shù),該參數(shù)從人耳對聲音頻率高低的非線性心理感覺角度反映了語音短時幅度譜的特征。
[0061]在本發(fā)明的一個實施例中,審核方720還用于在從彩鈴中提取語音之前,對彩鈴進行噪音過濾。
[0062]關于上述的UBM模型,結合圖6所示。具體地說,同傳統(tǒng)的語音識別一樣,訓練數(shù)據(jù)的數(shù)量是影響模式識別系統(tǒng)性能的重要因素,但在聲紋檢測上面,該問題表現(xiàn)的更加突出。聲紋系統(tǒng)需要對每個敏感人都要建立一套對應的模型,但是現(xiàn)實情況下要做到大量收集每個敏感人的語音信息,尤其是反動人群(預設人群)的音頻數(shù)據(jù),是相當困難的。所以本發(fā)明實施例的做法是先訓練一個通用的說話人模型,然后將目標說話人的數(shù)據(jù)使用自適應的方法,映射到目標說話人上面。
[0063]說話人的模型是在UBM的基礎上利用說話人的數(shù)據(jù)進行適當?shù)卣{(diào)整,也就是自適應的方法。一般而言,自適應的方法有多種多樣,有最大似然線性回歸(Maximumlikelihood linear regress1n, MLLR),最大后驗概率MAP等方法。在語音數(shù)據(jù)相對較少的情況下,MLLR能夠取得更好的性能,在語音數(shù)據(jù)超過30秒以上時,MAP能夠取得更好的性能,因為彩鈴中的音頻數(shù)據(jù)往往大于30秒,故本發(fā)明的實施例中采用MAP的方案。
[0064]綜上所述,通過這一系列流程后,該系統(tǒng)能夠?qū)⒚舾腥巳?預設人群)的信息檢測出來,隨著用戶彩鈴的數(shù)量與質(zhì)量不斷積累,可以用此數(shù)據(jù)去迭代訓練系統(tǒng)中的相關GMM-UBM I旲型,可以使得檢測效果越來越好。
[0065]綜上,本發(fā)明實施例的系統(tǒng)700的原理概述如下:首先對待審核彩鈴進行頻譜分析,分離出說話語音的部分,然后對彩鈴中包含說話語音的部分進行聲紋分析,判別說話人是不是預設人群,預設人群為預先設定的一類特定人群。如果說話人屬于預設人群,則該彩鈴審核不通過,如果說話人不屬于預設人群,則該彩鈴審核通過,并上傳至彩鈴服務器中。
[0066]根據(jù)本發(fā)明實施例的特定人群的個性化彩鈴自動審核系統(tǒng),對待審核彩鈴的頻譜進行分析,提取出說話語音的音頻特征,并判斷該語音是否屬于預設人群,如果是,則判定待審核的彩鈴未通過審核,否則該彩鈴通過審核,然后將審核通過的彩鈴上傳至服務器。因此,該系統(tǒng)能夠自動、快速、準確地提取出不合格(如包含預設人群的語音)的彩鈴,效率高、成本低,另外,該系統(tǒng)可實現(xiàn)分布式部署,可擴展性強,便于企業(yè)級大數(shù)據(jù)量的彩鈴的分析處理。
[0067]流程圖中或在此以其他方式描述的任何過程或方法描述可以被理解為,表示包括一個或更多個用于實現(xiàn)特定邏輯功能或過程的步驟的可執(zhí)行指令的代碼的模塊、片段或部分,并且本發(fā)明的優(yōu)選實施方式的范圍包括另外的實現(xiàn),其中可以不按所示出或討論的順序,包括根據(jù)所涉及的功能按基本同時的方式或按相反的順序,來執(zhí)行功能,這應被本發(fā)明的實施例所屬【技術領域】的技術人員所理解。
[0068]在流程圖中表示或在此以其他方式描述的邏輯和/或步驟,例如,可以被認為是用于實現(xiàn)邏輯功能的可執(zhí)行指令的定序列表,可以具體實現(xiàn)在任何計算機可讀介質(zhì)中,以供指令執(zhí)行系統(tǒng)、裝置或設備(如基于計算機的系統(tǒng)、包括處理器的系統(tǒng)或其他可以從指令執(zhí)行系統(tǒng)、裝置或設備取指令并執(zhí)行指令的系統(tǒng))使用,或結合這些指令執(zhí)行系統(tǒng)、裝置或設備而使用。就本說明書而言,"計算機可讀介質(zhì)"可以是任何可以包含、存儲、通信、傳播或傳輸程序以供指令執(zhí)行系統(tǒng)、裝置或設備或結合這些指令執(zhí)行系統(tǒng)、裝置或設備而使用的裝置。計算機可讀介質(zhì)的更具體的示例(非窮盡性列表)包括以下:具有一個或多個布線的電連接部(電子裝置),便攜式計算機盤盒(磁裝置),隨機存取存儲器(RAM),只讀存儲器(R0M),可擦除可編輯只讀存儲器(EPR0M或閃速存儲器),光纖裝置,以及便攜式光盤只讀存儲器(⑶ROM)。另外,計算機可讀介質(zhì)甚至可以是可在其上打印所述程序的紙或其他合適的介質(zhì),因為可以例如通過對紙或其他介質(zhì)進行光學掃描,接著進行編輯、解譯或必要時以其他合適方式進行處理來以電子方式獲得所述程序,然后將其存儲在計算機存儲器中。
[0069]應當理解,本發(fā)明的各部分可以用硬件、軟件、固件或它們的組合來實現(xiàn)。在上述實施方式中,多個步驟或方法可以用存儲在存儲器中且由合適的指令執(zhí)行系統(tǒng)執(zhí)行的軟件或固件來實現(xiàn)。例如,如果用硬件來實現(xiàn),和在另一實施方式中一樣,可用本領域公知的下列技術中的任一項或他們的組合來實現(xiàn):具有用于對數(shù)據(jù)信號實現(xiàn)邏輯功能的邏輯門電路的離散邏輯電路,具有合適的組合邏輯門電路的專用集成電路,可編程門陣列(PGA),現(xiàn)場可編程門陣列(FPGA)等。
[0070]本【技術領域】的普通技術人員可以理解實現(xiàn)上述實施例方法攜帶的全部或部分步驟是可以通過程序來指令相關的硬件完成,所述的程序可以存儲于一種計算機可讀存儲介質(zhì)中,該程序在執(zhí)行時,包括方法實施例的步驟之一或其組合。[0071 ] 此外,在本發(fā)明各個實施例中的各功能單元可以集成在一個處理模塊中,也可以是各個單元單獨物理存在,也可以兩個或兩個以上單元集成在一個模塊中。上述集成的模塊既可以采用硬件的形式實現(xiàn),也可以采用軟件功能模塊的形式實現(xiàn)。所述集成的模塊如果以軟件功能模塊的形式實現(xiàn)并作為獨立的產(chǎn)品銷售或使用時,也可以存儲在一個計算機可讀取存儲介質(zhì)中。
[0072]上述提到的存儲介質(zhì)可以是只讀存儲器,磁盤或光盤等。
[0073]在本說明書的描述中,參考術語“一個實施例”、“一些實施例”、“示例”、“具體示例”、或“一些示例”等的描述意指結合該實施例或示例描述的具體特征、結構、材料或者特點包含于本發(fā)明的至少一個實施例或示例中。在本說明書中,對上述術語的示意性表述不一定指的是相同的實施例或示例。而且,描述的具體特征、結構、材料或者特點可以在任何的一個或多個實施例或示例中以合適的方式結合。
[0074]盡管上面已經(jīng)示出和描述了本發(fā)明的實施例,可以理解的是,上述實施例是示例性的,不能理解為對本發(fā)明的限制,本領域的普通技術人員在不脫離本發(fā)明的原理和宗旨的情況下在本發(fā)明的范圍內(nèi)可以對上述實施例進行變化、修改、替換和變型。
【權利要求】
1.一種特定人群的個性化彩鈴自動審核方法,其特征在于,包括以下步驟: 接收待審核的彩鈴; 從所述彩鈴中提取語音; 提取所述語音的音頻特征,根據(jù)所述音頻特征判斷所述語音對應的聲音是否來自預設人群;以及 如果是,則判斷所述彩鈴未通過審核,否則判斷所述彩鈴通過審核,并將通過審核的彩鈴上傳至服務器。
2.根據(jù)權利要求1所述的特定人群的個性化彩鈴自動審核方法,其特征在于,所述從所述彩鈴中提取語音的步驟包括: 利用音頻分類器對所述彩鈴進行頻譜分析,以從所述彩鈴中分離所述語音和鈴音。
3.根據(jù)權利要求1所述的特定人群的個性化彩鈴自動審核方法,其特征在于,所述提取所述語音的音頻特征,根據(jù)所述音頻特征判斷所述語音對應的聲音是否來自預設人群,進一步包括: 提取所述語音的音頻特征; 根據(jù)所述語音的音頻特征和來自所述預設人群的語音的音頻特征得到聲紋相似度; 如果所述聲紋相似度大于預設閾值,則判斷所述語音對應的聲音來自所述預設人群。
4.根據(jù)權利要求4所述的特定人群的個性化彩鈴自動審核方法,其特征在于,所述音頻特征包括MFCC特征。
5.根據(jù)權利要求1-4任一項所述的特定人群的個性化彩鈴自動審核方法,其特征在于,在從所述彩鈴中提取語音之前,還包括:對所述彩鈴進行噪音過濾。
6.一種特定人群的個性化彩鈴自動審核系統(tǒng),其特征在于,包括: 上傳方,用于上傳待審核的彩鈴; 審核方,用于從所述待審核的彩鈴中提取語音,并提取所述語音的音頻特征,根據(jù)所述音頻特征判斷所述語音對應的聲音是否來自預設人群,以及在判斷所述語音對應的聲音來自預設人群時,判斷所述彩鈴未通過審核,否則判斷所述彩鈴通過審核; 彩鈴服務器,用于接收并保存所述審核方審核通過的彩鈴。
7.根據(jù)權利要求6所述的特定人群的個性化彩鈴自動審核系統(tǒng),其特征在于,所述審核方利用音頻分類器對所述彩鈴進行頻譜分析,以從所述彩鈴中分離所述語音和鈴音。
8.根據(jù)權利要求6所述的特定人群的個性化彩鈴自動審核系統(tǒng),其特征在于,所述審核方提取所述語音的音頻特征,根據(jù)所述音頻特征判斷所述語音對應的聲音是否來自預設人群,進一步包括: 提取所述語音的音頻特征; 根據(jù)所述語音的音頻特征和來自所述預設人群的語音的音頻特征得到聲紋相似度; 如果所述聲紋相似度大于預設閾值,則判斷所述語音對應的聲音來自所述預設人群。
9.根據(jù)權利要求8所述的特定人群的個性化彩鈴自動審核系統(tǒng),其特征在于,所述音頻特征包括MFCC特征。
10.根據(jù)權利要求6-9任一項所述的特定人群的個性化彩鈴自動審核系統(tǒng),其特征在于,所述審核方還用于在從所述彩鈴中提取語音之前,對所述彩鈴進行噪音過濾。
【文檔編號】G10L17/02GK104361891SQ201410654825
【公開日】2015年2月18日 申請日期:2014年11月17日 優(yōu)先權日:2014年11月17日
【發(fā)明者】王瑞 申請人:科大訊飛股份有限公司