一種基于深度學(xué)習(xí)的音樂播放方法
【專利摘要】本發(fā)明公開了一種基于深度學(xué)習(xí)的音樂播放方法,包括以下步驟:S1.用戶輸入檢索語音;S2.將輸入的檢索語音轉(zhuǎn)換為文本內(nèi)容,提取和記錄檢索語音的音樂旋律;S3.利用文本內(nèi)容在音樂庫中檢索對應(yīng)的歌曲;S4.判斷檢索得到的歌曲是否唯一;S5.將檢索到的歌曲和檢索語音的音樂旋律進行匹配,根據(jù)匹配程度的高低生成歌曲列表,用戶選擇目標音樂來進行播放;S6.根據(jù)用戶的檢索語音和用戶選擇的目標音樂對用戶語音習(xí)慣進行深度學(xué)習(xí)。本發(fā)明將檢索語音轉(zhuǎn)換為文本來進行歌曲檢索,通過音樂旋律來判斷檢索到的歌曲匹配程度,提高檢索的準確度,方便用戶對音樂的選擇;根據(jù)用戶的檢索語音和用戶選擇的目標音樂對用戶語音習(xí)慣進行深度學(xué)習(xí),進一步提高了檢索的準確性。
【專利說明】
一種基于深度學(xué)習(xí)的音樂播放方法
技術(shù)領(lǐng)域
[0001]本發(fā)明涉及一種基于深度學(xué)習(xí)的音樂播放方法。
【背景技術(shù)】
[0002]音樂是人情感的一種直接表現(xiàn),在當(dāng)今環(huán)境下,音樂已經(jīng)成為人們生活必不可缺的一部分,音樂的獲取和播放也越來越受到人們的重視。
[0003]現(xiàn)有技術(shù)中,大多數(shù)時候通過文字輸入進行音樂搜索的播放,但是很多時候,這種音樂搜索和播放的方式并不方便,例如,開車時手動進行文字輸入會影響安全;針對情況,基于語音識別進行音樂搜索的播放的技術(shù)也漸漸被研發(fā)出來,“聽音識曲”成為了一種重要的音樂搜索方式,但現(xiàn)有的語音識別技術(shù)僅僅是將語音轉(zhuǎn)換為文本進行搜索,并不涉及音樂旋律的檢測,同時不同用戶的語音習(xí)慣不同,也造成搜索不準確。
【發(fā)明內(nèi)容】
[0004]本發(fā)明的目的在于克服現(xiàn)有技術(shù)的不足,提供一種基于深度學(xué)習(xí)的音樂播放方法,將檢索語音轉(zhuǎn)換為文本內(nèi)容來進行歌曲檢索,通過音樂旋律來判斷檢索到的歌曲匹配程度,能夠顯著提高檢索的準確度,方便用戶對音樂的選擇;同時根據(jù)用戶的檢索語音和用戶選擇的目標音樂對用戶語音習(xí)慣進行深度學(xué)習(xí),進一步提高了檢索的準確性。
[0005]本發(fā)明的目的是通過以下技術(shù)方案來實現(xiàn)的:一種基于深度學(xué)習(xí)的音樂播放方法,包括以下步驟:
51.用戶輸入檢索語音;
52.將輸入的檢索語音轉(zhuǎn)換為文本內(nèi)容,提取和記錄檢索語音的音樂旋律;
53.利用文本內(nèi)容在音樂庫中檢索對應(yīng)的歌曲;
54.判斷檢索得到的歌曲是否唯一;
(1)如果檢索得到的音樂唯一,播放對應(yīng)音樂;
(2)如果檢索得到的音樂不唯一,跳轉(zhuǎn)至步驟S5;
55.將檢索到的歌曲和檢索語音的音樂旋律進行匹配,根據(jù)匹配程度的高低生成歌曲列表,用戶選擇目標音樂來進行播放;
56.根據(jù)用戶的檢索語音和用戶選擇的目標音樂對用戶語音習(xí)慣進行深度學(xué)習(xí)。
[0006]步驟SI中,用戶通過哼唱的方式輸入檢索語音。
[0007]所述的檢索語音的持續(xù)輸入時間不小于5秒。
[0008]所述的步驟S2包括以下子步驟:
521.利用語音端點檢測技術(shù)對檢索語音進行分段,得到分段的檢索語音;
522.根據(jù)將分段的檢索語音轉(zhuǎn)換為文本內(nèi)容;
523.利用音樂旋律提取算法得到并記錄檢索語音的音樂旋律。
[0009]所述的步驟S5包括以下步驟:
S51.基于音樂旋律匹配算法,將檢索到的每一首歌曲分別與檢索語音進行音樂旋律匹配;
552.將檢索到的歌曲按照匹配程度從高到低的順序排列,生成歌曲列表;
553.用戶選擇目標音樂來進行播放。
[0010]所述的步驟S6包括以下子步驟:
S61.提取用戶選擇的目標音樂歌詞中與檢索語音對應(yīng)的目標文本;
S63.將檢索語音與目標文本進行匹配,得到用戶對目標文本中每個文字發(fā)音習(xí)慣,并進行深度學(xué)習(xí)。
[0011]本發(fā)明的有益效果是:將檢索語音轉(zhuǎn)換為文本內(nèi)容來進行歌曲檢索,通過音樂旋律來判斷檢索到的歌曲匹配程度,能夠顯著提高檢索的準確度,方便用戶對音樂的選擇;同時根據(jù)用戶的檢索語音和用戶選擇的目標音樂對用戶語音習(xí)慣進行深度學(xué)習(xí),進一步提高了檢索的準確性。
【附圖說明】
[0012]圖1為本發(fā)明的流程圖。
【具體實施方式】
[0013]下面結(jié)合附圖進一步詳細描述本發(fā)明的技術(shù)方案,但本發(fā)明的保護范圍不局限于以下所述。
[0014]如圖1所示,一種基于深度學(xué)習(xí)的音樂播放方法,其特征在于:
51.用戶輸入檢索語音;
52.將輸入的檢索語音轉(zhuǎn)換為文本內(nèi)容,提取和記錄檢索語音的音樂旋律;
53.利用文本內(nèi)容在音樂庫中檢索對應(yīng)的歌曲;
54.判斷檢索得到的歌曲是否唯一;
(1)如果檢索得到的音樂唯一,播放對應(yīng)音樂;
(2)如果檢索得到的音樂不唯一,跳轉(zhuǎn)至步驟S5;
55.將檢索到的歌曲和檢索語音的音樂旋律進行匹配,根據(jù)匹配程度的高低生成歌曲列表,用戶選擇目標音樂來進行播放;
56.根據(jù)用戶的檢索語音和用戶選擇的目標音樂對用戶語音習(xí)慣進行深度學(xué)習(xí)。
[0015]步驟SI中用戶通過哼唱的方式輸入檢索語音。
[0016]所述的檢索語音的持續(xù)輸入時間不小于5秒。
[0017]所述的步驟S2包括以下子步驟:
521.利用語音端點檢測技術(shù)對檢索語音進行分段,得到分段的檢索語音;
522.根據(jù)將分段的檢索語音轉(zhuǎn)換為文本內(nèi)容;
523.利用音樂旋律提取算法得到并記錄檢索語音的音樂旋律。
[0018]所述的步驟S5包括以下步驟:
551.基于音樂旋律匹配算法,將檢索到的每一首歌曲分別與檢索語音進行音樂旋律匹配;
552.將檢索到的歌曲按照匹配程度從高到低的順序排列,生成歌曲列表;
553.用戶選擇目標音樂來進行播放。
[0019]所述的步驟S6包括以下子步驟:
S61.提取用戶選擇的目標音樂歌詞中與檢索語音對應(yīng)的目標文本;
S63.將檢索語音與目標文本進行匹配,得到用戶對目標文本中每個文字發(fā)音習(xí)慣,并進行深度學(xué)習(xí)。
[0020]實施例一,本實施例是通過安裝于手機上的客戶端來實現(xiàn)的,客戶端通過無線網(wǎng)絡(luò)連接到音樂庫(音樂庫中所有歌曲均具有歌詞);首先,用戶進行檢索語音輸入時,客戶端通過調(diào)用手機的拾音器件獲得檢索語音;將檢索語音轉(zhuǎn)換為文本內(nèi)容,并利用音樂旋律提取算法得到并記錄檢索語音的音樂旋律,
進一步地,如果檢索語音不進行分段,轉(zhuǎn)換為的文本內(nèi)容是一系列的文字,并沒有分隔符號,故需要在轉(zhuǎn)換為文本前利用語音端點檢測技術(shù)對檢索語音進行分段,分段后在進行文本轉(zhuǎn)換。
[0021]在將檢索語音轉(zhuǎn)換為文本后,客戶端在音樂庫中檢索:歌詞帶有相應(yīng)文本的歌曲,如果得到的結(jié)果唯一,直接自動播放;如果得到的結(jié)果不唯一,則客戶端通過音樂旋律匹配算法,將檢索到的歌曲和檢索語音的音樂旋律進行匹配,根據(jù)匹配程度的高低生成歌曲列表,用戶選擇目標音樂來進行播放。
[0022]由于不同的用戶具有不同的發(fā)音習(xí)慣,如果按照標準發(fā)音進行文本轉(zhuǎn)換,則并不能夠很好給出用戶需要的音樂,因此,需要對用戶自身的發(fā)音習(xí)慣進行學(xué)習(xí),例如,“四”、“十”、“是”這些文字不容易被分辨,在第一次出現(xiàn)時,客戶端智能檢索出所有可能供用戶選擇,并根據(jù)用戶選擇來確定用戶實際上檢索的是包含哪個文字的歌曲,得到用戶對相應(yīng)文字的習(xí)慣性發(fā)音,并進行深度學(xué)習(xí);因此,本發(fā)明的方法使用時間越長,檢索結(jié)果越準確。
【主權(quán)項】
1.一種基于深度學(xué)習(xí)的音樂播放方法,其特征在于:包括以下步驟: 51.用戶輸入檢索語音; 52.將輸入的檢索語音轉(zhuǎn)換為文本內(nèi)容,提取和記錄檢索語音的音樂旋律; 53.利用文本內(nèi)容在音樂庫中檢索對應(yīng)的歌曲; 54.判斷檢索得到的歌曲是否唯一; (1)如果檢索得到的音樂唯一,播放對應(yīng)音樂; (2)如果檢索得到的音樂不唯一,跳轉(zhuǎn)至步驟S5; 55.將檢索到的歌曲和檢索語音的音樂旋律進行匹配,根據(jù)匹配程度的高低生成歌曲列表,用戶選擇目標音樂來進行播放; 56.根據(jù)用戶的檢索語音和用戶選擇的目標音樂對用戶語音習(xí)慣進行深度學(xué)習(xí)。2.根據(jù)權(quán)利要求1所述的一種基于深度學(xué)習(xí)的音樂播放方法,其特征在于:步驟SI中,用戶通過哼唱的方式輸入檢索語音。3.根據(jù)權(quán)利要求2所述的一種基于深度學(xué)習(xí)的音樂播放方法,其特征在于:所述的檢索語音的持續(xù)輸入時間不小于5秒。4.根據(jù)權(quán)利要求1所述的一種基于深度學(xué)習(xí)的音樂播放方法,其特征在于:所述的步驟S2包括以下子步驟: 521.利用語音端點檢測技術(shù)對檢索語音進行分段,得到分段的檢索語音; 522.根據(jù)將分段的檢索語音轉(zhuǎn)換為文本內(nèi)容; 523.利用音樂旋律提取算法得到并記錄檢索語音的音樂旋律。5.根據(jù)權(quán)利要求1所述的一種基于深度學(xué)習(xí)的音樂播放方法,其特征在于:所述的步驟S5包括以下步驟: 551.基于音樂旋律匹配算法,將檢索到的每一首歌曲分別與檢索語音進行音樂旋律匹配; 552.將檢索到的歌曲按照匹配程度從高到低的順序排列,生成歌曲列表; 553.用戶選擇目標音樂來進行播放。6.根據(jù)權(quán)利要求1所述的一種基于深度學(xué)習(xí)的音樂播放方法,其特征在于:所述的步驟S6包括以下子步驟: S61.提取用戶選擇的目標音樂歌詞中與檢索語音對應(yīng)的目標文本; S63.將檢索語音與目標文本進行匹配,得到用戶對目標文本中每個文字發(fā)音習(xí)慣,并進行深度學(xué)習(xí)。
【文檔編號】G06F17/30GK105956014SQ201610253698
【公開日】2016年9月21日
【申請日】2016年4月22日
【發(fā)明人】湯影, 楊林
【申請人】成都涂鴉科技有限公司