模型生成方法及裝置、詞語(yǔ)賦權(quán)方法及裝置的制造方法
【專(zhuān)利說(shuō)明】
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及互聯(lián)網(wǎng)應(yīng)用技術(shù)領(lǐng)域,尤其涉及一種模型生成方法及裝置、詞語(yǔ)賦權(quán)方法及裝置。
【【背景技術(shù)】】
[0002]圖片搜索過(guò)程包括:用戶輸入查詢(xún)?cè)~,然后圖片搜索引擎從圖片集合中查找與查詢(xún)?cè)~相匹配的圖片搜索結(jié)果,并將圖片搜索結(jié)果排序后提供給用戶。圖片搜索引擎是用于查找互聯(lián)網(wǎng)圖片的信息檢索工具。目前,進(jìn)行圖片搜索時(shí),圖片搜索引擎需要計(jì)算查詢(xún)?cè)~與候選圖片的相關(guān)性,計(jì)算相關(guān)性主要依據(jù)查詢(xún)?cè)~中各詞語(yǔ)的權(quán)重以及各候選圖片的文本中各詞語(yǔ)的權(quán)重。其中,候選圖片的文本中各詞語(yǔ)的權(quán)重利用詞語(yǔ)賦權(quán)技術(shù)獲取??梢?jiàn),詞語(yǔ)賦權(quán)的效果會(huì)直接影響相關(guān)性計(jì)算,進(jìn)而影響圖片搜索結(jié)果的準(zhǔn)確性。
[0003]現(xiàn)有技術(shù)中,由于圖片的文本普遍比較短少,現(xiàn)有技術(shù)中在進(jìn)行圖片的詞語(yǔ)賦權(quán)時(shí)一般根據(jù)圖片的短文本,對(duì)文本中各詞語(yǔ)進(jìn)行賦權(quán),因此導(dǎo)致了詞語(yǔ)賦權(quán)結(jié)果的準(zhǔn)確性比較低,最終導(dǎo)致圖片搜索結(jié)果的準(zhǔn)確性比較低。
【
【發(fā)明內(nèi)容】
】
[0004]有鑒于此,本發(fā)明實(shí)施例提供了一種模型生成方法及裝置、詞語(yǔ)賦值方法及裝置,可以提高圖片的文本中各詞語(yǔ)賦權(quán)結(jié)果的準(zhǔn)確性,從而提高了圖片搜索結(jié)果的準(zhǔn)確性。
[0005]本發(fā)明實(shí)施例的一方面,提供一種模型生成方法,包括:
[0006]獲取與指定圖片相同的其它圖片,將所述指定圖片和所述其他圖片作為樣本圖片;
[0007]根據(jù)所述樣本圖片的文本,獲得文本聚簇;
[0008]根據(jù)所述文本聚簇獲得文本特征,并根據(jù)所述樣本圖片獲得視覺(jué)特征;
[0009]根據(jù)所述文本特征和所述視覺(jué)特征進(jìn)行機(jī)器學(xué)習(xí),生成第一回歸模型和第一排序模型。
[0010]如上所述的方面和任一可能的實(shí)現(xiàn)方式,進(jìn)一步提供一種實(shí)現(xiàn)方式,所述獲取與指定圖片相同的其它圖片,包括:
[0011]獲取所述指定圖片以及各候選圖片的簽名;
[0012]根據(jù)所述指定圖片以及各候選圖片的簽名,獲取所述指定圖片與每個(gè)候選圖片的相似度;
[0013]提取相似度大于或者等于預(yù)設(shè)的相似閾值的候選圖片,以作為與所述指定圖片相同的其它圖片。
[0014]如上所述的方面和任一可能的實(shí)現(xiàn)方式,進(jìn)一步提供一種實(shí)現(xiàn)方式,根據(jù)所述文本聚簇獲得文本特征,并根據(jù)所述樣本圖片獲得視覺(jué)特征之前,所述方法還包括:
[0015]根據(jù)各樣本圖片所在站點(diǎn)或者頁(yè)面的權(quán)威數(shù)據(jù)、各樣本圖片所在頁(yè)面的時(shí)間信息、各樣本圖片所在站點(diǎn)的點(diǎn)擊數(shù)據(jù)、以及各樣本圖片的文本的詞語(yǔ)向量與所述文本聚簇的詞語(yǔ)向量之間的距離中至少一個(gè),對(duì)所述文本聚簇中的各文本進(jìn)行篩選,以獲得篩選后的文本聚簇。
[0016]如上所述的方面和任一可能的實(shí)現(xiàn)方式,進(jìn)一步提供一種實(shí)現(xiàn)方式,所述文本特征包括以下特征中至少一個(gè):
[0017]所述文本聚簇中各文本的分布特征;
[0018]所述文本聚簇中各文本的點(diǎn)擊特征;
[0019]所述文本聚簇中各文本中詞語(yǔ)的語(yǔ)義特征;
[0020]所述文本聚簇中各文本的主題詞;以及,
[0021]所述文本聚簇中各文本中詞語(yǔ)的先驗(yàn)屬性。
[0022]如上所述的方面和任一可能的實(shí)現(xiàn)方式,進(jìn)一步提供一種實(shí)現(xiàn)方式,所述方法還包括:
[0023]利用所述第一回歸模型獲得各樣本圖片的文本中各詞語(yǔ)的回歸分值;
[0024]利用所述第一排序模塊獲得各樣本圖片的文本中各詞語(yǔ)的排序結(jié)果;
[0025]獲得與各樣本圖片的文本中各詞語(yǔ)相匹配的圖片搜索結(jié)果中各圖片的相關(guān)特征;
[0026]根據(jù)所述回歸分值、所述排序結(jié)果和所述相關(guān)特征,進(jìn)行機(jī)器學(xué)習(xí),生成第二回歸模型和第二排序模型。
[0027]如上所述的方面和任一可能的實(shí)現(xiàn)方式,進(jìn)一步提供一種實(shí)現(xiàn)方式,所述相關(guān)特征包括以下特征中至少一個(gè):
[0028]與各樣本圖片的文本中各詞語(yǔ)相匹配的圖片搜索結(jié)果中各圖片的用戶行為特征、各圖片的質(zhì)量特征、以及各圖片所在站點(diǎn)或者頁(yè)面的權(quán)威數(shù)據(jù)。
[0029]本發(fā)明實(shí)施例的一方面,提供一種詞語(yǔ)賦權(quán)方法,包括:
[0030]根據(jù)指定圖片的文本,利用第一回歸模型獲得所述文本中各詞語(yǔ)的第一回歸分值;所述第一回歸模型為利用上述模型生成方法生成的;
[0031]根據(jù)所述指定圖片的文本,利用第一排序模型獲得所述文本中各詞語(yǔ)的第一排序結(jié)果;所述第一排序模型為利用上述模型生成方法生成的;
[0032]根據(jù)所述第一回歸分值和所述第一排序結(jié)果,獲得所述指定圖片的文本中各詞語(yǔ)的賦權(quán)分值。
[0033]如上所述的方面和任一可能的實(shí)現(xiàn)方式,進(jìn)一步提供一種實(shí)現(xiàn)方式,根據(jù)所述第一回歸分值和所述第一排序結(jié)果,獲得所述指定圖片的文本中各詞語(yǔ)的賦權(quán)分值,包括:
[0034]根據(jù)所述第一回歸分值和所述第一排序結(jié)果,并利用賦權(quán)函數(shù),計(jì)算所述指定圖片的文本中各詞語(yǔ)的賦權(quán)分值。
[0035]如上所述的方面和任一可能的實(shí)現(xiàn)方式,進(jìn)一步提供一種實(shí)現(xiàn)方式,根據(jù)所述第一回歸分值和所述第一排序結(jié)果,獲得所述指定圖片的文本中各詞語(yǔ)的賦權(quán)分值,包括:
[0036]根據(jù)所述第一回歸分值和所述第一排序結(jié)果,利用第二回歸模型,獲得所述指定圖片的文本中各詞語(yǔ)的第二回歸分值;所述第二回歸模型為利用上述模型生成方法生成的;
[0037]根據(jù)所述第一回歸分值和所述第一排序結(jié)果,利用第二排序模型,獲得所述指定圖片的文本中各詞語(yǔ)的第二排序結(jié)果;所述第二排序模型為利用上述模型生成方法生成的;
[0038]根據(jù)所述第二回歸分值和所述第二排序結(jié)果,并利用賦權(quán)函數(shù),計(jì)算所述指定圖片的文本中各詞語(yǔ)的賦權(quán)分值。
[0039]本發(fā)明實(shí)施例的一方面,提供一種模型生成裝置,包括:
[0040]圖片獲取單元,用于獲取與指定圖片相同的其它圖片,將所述指定圖片和所述其他圖片作為樣本圖片;
[0041 ]文本聚簇單元,用于根據(jù)所述樣本圖片的文本,獲得文本聚簇;
[0042]第一特征獲取單元,用于根據(jù)所述文本聚簇獲得文本特征,并根據(jù)所述樣本圖片獲得視覺(jué)特征;
[0043]第一生成單元,用于根據(jù)所述文本特征和所述視覺(jué)特征進(jìn)行機(jī)器學(xué)習(xí),生成第一回歸模型和第一排序模型。
[0044]如上所述的方面和任一可能的實(shí)現(xiàn)方式,進(jìn)一步提供一種實(shí)現(xiàn)方式,所述圖片獲取單元,具體用于:
[0045]獲取所述指定圖片以及各候選圖片的簽名;
[0046]根據(jù)所述指定圖片以及各候選圖片的簽名,獲取所述指定圖片與每個(gè)候選圖片的相似度;
[0047]提取相似度大于或者等于預(yù)設(shè)的相似閾值的候選圖片,以作為與所述指定圖片相同的其它圖片。
[0048]如上所述的方面和任一可能的實(shí)現(xiàn)方式,進(jìn)一步提供一種實(shí)現(xiàn)方式,所述裝置還包括:
[0049]文本處理單元,用于根據(jù)各樣本圖片所在站點(diǎn)或者頁(yè)面的權(quán)威數(shù)據(jù)、各樣本圖片所在頁(yè)面的時(shí)間信息、各樣本圖片所在站點(diǎn)的點(diǎn)擊數(shù)據(jù)、以及各樣本圖片的文本的詞語(yǔ)向量與所述文本聚簇的詞語(yǔ)向量之間的距離中至少一個(gè),對(duì)所述文本聚簇中的各文本進(jìn)行篩選,以獲得篩選后的文本聚簇。
[0050]如上所述的方面和任一可能的實(shí)現(xiàn)方式,進(jìn)一步提供一種實(shí)現(xiàn)方式,所述文本特征包括以下特征中至少一個(gè):
[0051 ]所述文本聚簇中各文本的分布特征;
[0052]所述文本聚簇中各文本的點(diǎn)擊特征;
[0053]所述文本聚簇中各文本中詞語(yǔ)的語(yǔ)義特征;
[0054]所述文本聚簇中各文本的主題詞;以及,
[0055]所述文本聚簇中各文本中詞語(yǔ)的先驗(yàn)屬性。
[0056]如上所述的方面和任一可能的實(shí)現(xiàn)方式,進(jìn)一步提供一種實(shí)現(xiàn)方式,所述裝置還包括:
[0057]分值獲取單元,用于利用所述第一回歸模型獲得各樣本圖片的文本中各詞語(yǔ)的回歸分值;
[0058]排序獲取單元,用于利用所述第一排序模塊獲得各樣本圖片的文本中各詞語(yǔ)的排序結(jié)果;
[0059]第二特征獲取單元,用于獲得與各樣本圖片的文本中各詞語(yǔ)相匹配的圖片搜索結(jié)果中各圖片的相關(guān)特征;
[0060]第二生成單元,用于根據(jù)所述回歸分值、所述排序結(jié)果和所述相關(guān)特征,進(jìn)行機(jī)器學(xué)習(xí),生成第二回歸模型和第二排序模型。
[0061]如上所述的方面和任一可能的實(shí)現(xiàn)方式,進(jìn)一步提供一種實(shí)現(xiàn)方式,所述相關(guān)特征包括以下特征中至少一個(gè):
[0062]與各樣本圖片的文本中各詞語(yǔ)相匹配的圖片搜索結(jié)果中各圖片的用戶行為特征、各圖片的質(zhì)量特征、以及各圖片所在站點(diǎn)或者頁(yè)面的權(quán)威數(shù)據(jù)。
[0063]本發(fā)明實(shí)施例的一方面,提供一種詞語(yǔ)賦權(quán)裝置,包括:
[0064]分值獲取單元,用于根據(jù)指定圖片的文本,利用第一回歸模型獲得所述文本中各詞語(yǔ)的第一回歸分值;所述第一回歸模型為利用上述模型生成裝置生成的;
[0065]排序獲取單元,用于根據(jù)所述指定圖片的文本,利用第一排序模型獲得所述文本中各詞語(yǔ)的第一排序結(jié)果;所述第一排序模型為利用上述模型生成裝置生成的;
[0066]詞語(yǔ)賦權(quán)單元,用