本發(fā)明涉及社交匹配領(lǐng)域,特別涉及一種基于短視頻的視頻聊天匹配方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)。
背景技術(shù):
1、社交網(wǎng)絡(luò)和在線通訊應(yīng)用已成為人們社交生活中不可或缺的一部分。在現(xiàn)有技術(shù)方案中,用戶主要依靠文字描述、靜態(tài)圖片以及基礎(chǔ)的個(gè)人資料信息來了解和篩選潛在的匹配對(duì)象。
2、然而,現(xiàn)有平臺(tái)所提供的信息展示維度較為單一,用戶難以通過有限的靜態(tài)信息準(zhǔn)確判斷匹配對(duì)象是否真正符合自己的期望;傳統(tǒng)的信息展示方式過于靜態(tài)和僵化,無法有效傳達(dá)用戶的性格特征、表達(dá)方式等動(dòng)態(tài)特質(zhì);由于對(duì)匹配對(duì)象缺乏足夠深入的初步認(rèn)知,許多用戶在匹配成功后往往對(duì)進(jìn)一步的語(yǔ)音或視頻交流產(chǎn)生遲疑。
3、有鑒于此,提出本技術(shù)。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明公開了一種基于短視頻的視頻聊天匹配方法、裝置、設(shè)備及存儲(chǔ)介質(zhì),旨在解決傳統(tǒng)的信息展示無法有效傳達(dá)用戶的性格特征,導(dǎo)致在匹配之后難以進(jìn)行進(jìn)一步交流。
2、本發(fā)明第一方面提供了一種基于短視頻的視頻聊天匹配方法,包括:
3、接收由a類用戶和b類用戶上傳的視頻,對(duì)所述視頻進(jìn)行審核并將審核通過的視頻保存在視頻池內(nèi),使用多任務(wù)級(jí)聯(lián)卷積神經(jīng)網(wǎng)絡(luò)模型檢測(cè)視頻幀中的人臉區(qū)域,并利用facenet模型對(duì)檢測(cè)出的所述人臉區(qū)域生成人臉特征向量;使用dex模型分析所述人臉特征并生成年齡預(yù)測(cè)值,將預(yù)測(cè)值映射到預(yù)定義年齡段,并生成年齡段的one-hot編碼向量;使用resnet50模型從視頻幀中檢測(cè)人體區(qū)域,并通過多標(biāo)簽分類預(yù)測(cè)所述人體區(qū)域的服裝風(fēng)格,對(duì)每個(gè)類別生成相應(yīng)的概率值,選擇概率最高的前n個(gè)類別作為服裝風(fēng)格向量;通過人聲活動(dòng)檢測(cè)模型從視頻的音頻信號(hào)中分離出包含語(yǔ)音的段落,使用crepe模型對(duì)所述包含語(yǔ)音的段落進(jìn)行音高估計(jì),以生成音高特征;對(duì)所述包含語(yǔ)音的段落進(jìn)行快速傅里葉變換,并通過梅爾濾波器和離散余弦變換計(jì)算得到mfcc系數(shù);對(duì)所述mfcc系數(shù)進(jìn)行情感分類分析,利用lstm模型處理特征序列,生成情感預(yù)測(cè)值;使用x-vector模型對(duì)所述包含語(yǔ)音的段落進(jìn)行識(shí)別,以生成用戶的聲紋特征;使用所述人臉特征向量、所述年齡段的one-hot編碼向量、以及服裝風(fēng)格向量構(gòu)建人像特征,使用所述音高特征、mfcc系數(shù)、情感預(yù)測(cè)值、以及用戶的聲紋特征構(gòu)建人聲特征,并通過所述人像特征和所述人聲特征對(duì)視頻添加多維度標(biāo)簽;
4、接收由所述視頻池內(nèi)的a類用戶發(fā)起的視頻聊天匹配請(qǐng)求,獲取所述a類用戶的多維視頻特征,并根據(jù)所述多維視頻特征在所述視頻池內(nèi)選取b類用戶的匹配列表;
5、根據(jù)所述匹配列表向所述a類用戶播放b類用戶視頻,并基于所述a類用戶在所述b類用戶視頻上的操作向目標(biāo)b類用戶發(fā)起視頻聊天請(qǐng)求,并推送所述a類用戶保存在所述視頻池內(nèi)的視頻;
6、根據(jù)所述目標(biāo)b類用戶在推送視頻上的操作,建立所述目標(biāo)b類與所述a類用戶的視頻通話連接。
7、優(yōu)選地,所述匹配列表內(nèi)的b類用戶為在線用戶。
8、優(yōu)選地,所述接收由a類用戶和b類用戶上傳的視頻,對(duì)所述視頻進(jìn)行審核并將審核通過的視頻保存在視頻池內(nèi),具體為:
9、對(duì)接收到的視頻進(jìn)行關(guān)鍵幀提取,通過卷積神經(jīng)網(wǎng)絡(luò)cnn對(duì)所述關(guān)鍵幀進(jìn)行特征提取,以生成空間特征,其中,所述空間特征包括視覺特征和語(yǔ)義特征,所述關(guān)鍵幀為相鄰視頻幀之間的圖像差異度大于預(yù)設(shè)值的視頻幀;
10、將連續(xù)關(guān)鍵幀的空間特征輸入循環(huán)神經(jīng)網(wǎng)絡(luò)rnn,以生成視頻內(nèi)容的時(shí)序依賴關(guān)系,
11、使用人聲活動(dòng)檢測(cè)模型分離出視頻中的音頻信息,將所述音頻信息轉(zhuǎn)換為文本,并從所述音頻信息中提取音頻特征;
12、在根據(jù)所述時(shí)序依賴關(guān)系判斷到行為模式正常、且根據(jù)所述文本和所述音頻特征判斷到所述音頻信息正常時(shí),將視頻保存在所述視頻池內(nèi)。
13、優(yōu)選地,所述通過所述人像特征和所述人聲特征對(duì)視頻添加多維度標(biāo)簽具體為:
14、采用主成分分析的方式對(duì)所述人像特征和所述人聲特征進(jìn)行降維,將降維后的人像特征和人聲特征輸入至多標(biāo)簽神經(jīng)網(wǎng)絡(luò),生成多個(gè)標(biāo)簽的概率,在標(biāo)簽的概率值超過預(yù)設(shè)閾值時(shí),標(biāo)記為適合當(dāng)前視頻的候選標(biāo)簽;
15、通過余弦相似度衡量降維后的人像特征、人聲特征與候選標(biāo)簽之間的相似性以生成初始權(quán)重,并基于標(biāo)簽出現(xiàn)頻率計(jì)算頻率因子并調(diào)整標(biāo)簽權(quán)重;
16、將權(quán)重高于預(yù)設(shè)值的標(biāo)簽篩選至最終標(biāo)簽集合,并將所述最終標(biāo)簽集合添加至視頻的元數(shù)據(jù)中,并基于視頻的唯一標(biāo)識(shí)符將更新后的元數(shù)據(jù)存儲(chǔ)至數(shù)據(jù)庫(kù)。
17、優(yōu)選地,所述接收由所述視頻池內(nèi)的a類用戶發(fā)起的視頻聊天匹配請(qǐng)求,獲取所述a類用戶的多維視頻特征,并根據(jù)所述多維視頻特征在所述視頻池內(nèi)選取b類用戶的匹配列表,具體為:
18、根據(jù)所述視頻聊天匹配請(qǐng)求獲取所述a類用戶的多維視頻特征,通過余弦相似度計(jì)算所述a類用戶的偏好和b類用戶視頻之間的相似度,并根據(jù)所述相似度值生成匹配列表,其中,所述多維視頻特征包括用戶畫像和視頻的多維度標(biāo)簽。
19、優(yōu)選地,在根據(jù)所述匹配列表向所述a類用戶播放b類用戶視頻之后,還包括:獲取a類用戶在推薦視頻上的操作行為,更新所述用戶畫像。
20、本發(fā)明第二方面提供了一種基于短視頻的視頻聊天匹配裝置,包括:
21、視頻審核單元,用于接收由a類用戶和b類用戶上傳的視頻,對(duì)所述視頻進(jìn)行審核并將審核通過的視頻保存在視頻池內(nèi),使用多任務(wù)級(jí)聯(lián)卷積神經(jīng)網(wǎng)絡(luò)模型檢測(cè)視頻幀中的人臉區(qū)域,并利用facenet模型對(duì)檢測(cè)出的所述人臉區(qū)域生成人臉特征向量;使用dex模型分析所述人臉特征并生成年齡預(yù)測(cè)值,將預(yù)測(cè)值映射到預(yù)定義年齡段,并生成年齡段的one-hot編碼向量;使用resnet50模型從視頻幀中檢測(cè)人體區(qū)域,并通過多標(biāo)簽分類預(yù)測(cè)所述人體區(qū)域的服裝風(fēng)格,對(duì)每個(gè)類別生成相應(yīng)的概率值,選擇概率最高的前n個(gè)類別作為服裝風(fēng)格向量;通過人聲活動(dòng)檢測(cè)模型從視頻的音頻信號(hào)中分離出包含語(yǔ)音的段落,使用crepe模型對(duì)所述包含語(yǔ)音的段落進(jìn)行音高估計(jì),以生成音高特征;對(duì)所述包含語(yǔ)音的段落進(jìn)行快速傅里葉變換,并通過梅爾濾波器和離散余弦變換計(jì)算得到mfcc系數(shù);對(duì)所述mfcc系數(shù)進(jìn)行情感分類分析,利用lstm模型處理特征序列,生成情感預(yù)測(cè)值;使用x-vector模型對(duì)所述包含語(yǔ)音的段落進(jìn)行識(shí)別,以生成用戶的聲紋特征;使用所述人臉特征向量、所述年齡段的one-hot編碼向量、以及服裝風(fēng)格向量構(gòu)建人像特征,使用所述音高特征、mfcc系數(shù)、情感預(yù)測(cè)值、以及用戶的聲紋特征構(gòu)建人聲特征,并通過所述人像特征和所述人聲特征對(duì)視頻添加多維度標(biāo)簽;
22、匹配列表生成單元,用于接收由所述視頻池內(nèi)的a類用戶發(fā)起的視頻聊天匹配請(qǐng)求,獲取所述a類用戶的多維視頻特征,并根據(jù)所述多維視頻特征在所述視頻池內(nèi)選取b類用戶的匹配列表;
23、視頻推送單元,用于根據(jù)所述匹配列表向所述a類用戶播放b類用戶視頻,并基于所述a類用戶在所述b類用戶視頻上的操作向目標(biāo)b類用戶發(fā)起視頻聊天請(qǐng)求,并推送所述a類用戶保存在所述視頻池內(nèi)的視頻;
24、通話連接建立單元,用于根據(jù)所述目標(biāo)b類用戶在推送視頻上的操作,建立所述目標(biāo)b類與所述a類用戶的視頻通話連接。
25、本發(fā)明第三方面提供了一種基于短視頻的視頻聊天匹配設(shè)備,包括存儲(chǔ)器以及處理器,所述存儲(chǔ)器內(nèi)存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序能夠被所述處理器執(zhí)行,以實(shí)現(xiàn)如上任意一項(xiàng)所述的一種基于短視頻的視頻聊天匹配方法。
26、本發(fā)明第四方面提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其特征在于,存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序能夠被所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)所在設(shè)備的處理器執(zhí)行,以實(shí)現(xiàn)如上任意一項(xiàng)所述一種基于短視頻的視頻聊天匹配方法。
27、基于本發(fā)明提供的一種基于短視頻的視頻聊天匹配方法、裝置、設(shè)備及存儲(chǔ)介質(zhì),通過先接收由a類用戶和b類用戶上傳的視頻,對(duì)所述視頻進(jìn)行審核并將審核通過的視頻保存在視頻池內(nèi);?接著,接收由所述視頻池內(nèi)的a類用戶發(fā)起的視頻聊天匹配請(qǐng)求,獲取所述a類用戶的多維視頻特征,并根據(jù)所述多維視頻特征在所述視頻池內(nèi)選取b類用戶的匹配列表;再接著,根據(jù)所述匹配列表向所述a類用戶播放b類用戶視頻,并基于所述a類用戶在所述b類用戶視頻上的操作向目標(biāo)b類用戶發(fā)起視頻聊天請(qǐng)求,并推送所述a類用戶保存在所述視頻池內(nèi)的視頻;最后,根據(jù)所述目標(biāo)b類用戶在推送視頻上的操作,建立所述目標(biāo)b類與所述a類用戶的視頻通話連接,解決了傳統(tǒng)的信息展示無法有效傳達(dá)用戶的性格特征,導(dǎo)致在匹配之后難以進(jìn)行進(jìn)一步交流。