基于倒排索引的記錄相似度計(jì)算方法

文檔序號：10655241閱讀：516來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

基于倒排索引的記錄相似度計(jì)算方法
【專利摘要】本發(fā)明公開基于倒排索引的記錄相似度計(jì)算方法，計(jì)算方法包括如下步驟：第一步，先設(shè)計(jì)一個(gè)invert函數(shù)，該函數(shù)給定一個(gè)(ID/URL，TF?IDF weighted token vector)，返回列表，即倒排索引；第二步：創(chuàng)建computeCommonTokens函數(shù)，該函數(shù)使用invert函數(shù)將Amazon與Google的TF?IDF權(quán)重記錄轉(zhuǎn)化為倒排索引，并通過Spark的transformation計(jì)算公共的Token列表，形式如[(ID，URL)，<commonTokens List>]；第三步，通過recordSimilarity即可算出Amazon記錄與Google記錄之間的相似度值；本發(fā)明的基于倒排索引的記錄相似度計(jì)算方法將算法復(fù)雜度降低至線性運(yùn)行時(shí)間的。
【專利說明】
基于倒排索引的記錄相似度計(jì)算方法
技術(shù)領(lǐng)域
[0001]本發(fā)明公開基于倒排索引的記錄相似度計(jì)算方法。
【背景技術(shù)】
[0002]目前，樸素的實(shí)體解析方法需要對所有記錄做成對的兩兩相似度度量，這類算法時(shí)間復(fù)雜度上是二次的，而實(shí)際上多數(shù)記錄之間沒有共同的token，因此通過設(shè)計(jì)倒排索引的數(shù)據(jù)結(jié)構(gòu)，可將算法復(fù)雜度降低至線性運(yùn)行時(shí)間。

【發(fā)明內(nèi)容】

[0003]本發(fā)明為了解決現(xiàn)有技術(shù)的問題，提供了可將算法復(fù)雜度降低至線性運(yùn)行時(shí)間的基于倒排索引的基于倒排索引的記錄相似度計(jì)算方法。
[0004]本發(fā)明的具體技術(shù)方案如下:基于倒排索引的記錄相似度計(jì)算方法，其特征在于:所述計(jì)算方法包括如下步驟:
[0005]第一步，先設(shè)ir|個(gè)invert函數(shù)，該函數(shù)給定一個(gè)(ID/URL，TF-1DF weightedtoken vector)，返回(token，ID/URL)列表，即倒排索引；
[0006]第二步，創(chuàng)建computeCommonTokens函數(shù)，該函數(shù)使用invert函數(shù)將Amazon與Google的TF-1DF權(quán)重記錄轉(zhuǎn)化為倒排索引(inverted indicies)，并通過Spark的transformat1n計(jì)算公共的Token列表(common Token)，形式如[(ID，URL)，〈commonTokensList>]；
[0007]第三步，通過recordSimi Iarity即可算出Amazon記錄與Google記錄之間的相似度值。
[0008]作為本發(fā)明進(jìn)一步限制地，Spark在調(diào)度并運(yùn)行任務(wù)時(shí)，為每個(gè)分區(qū)創(chuàng)建出一個(gè)任務(wù)，并由集群中一個(gè)計(jì)算核心來執(zhí)行，并行度反映了數(shù)據(jù)分區(qū)情況，并行度是Spark應(yīng)用優(yōu)化的重要參數(shù)，配置合理的并行度可充分利用集群的并行計(jì)算能力。
[0009]本發(fā)明的技術(shù)效果:本發(fā)明的基于倒排索引的記錄相似度計(jì)算方法可將算法復(fù)雜度降低至線性運(yùn)行時(shí)間，采用信息檢索領(lǐng)域通用的測度，準(zhǔn)確率、召回率和F-measure來評估ER算法，準(zhǔn)確性是真正相同實(shí)體與標(biāo)記為相同實(shí)體的比值，召回率表示在所有真正相同實(shí)體中，找到的正確的相同實(shí)體的比例，.F-measure則是準(zhǔn)確率與召回率的調(diào)和平均。
【附圖說明】
[0010]圖1是本發(fā)明本實(shí)施例的基于倒排索引的記錄相似度計(jì)算方法的示意圖。
【具體實(shí)施方式】
[0011 ]下面結(jié)合附圖對本發(fā)明做進(jìn)一步說明。
[0012]如圖1所示，本實(shí)施例的基于倒排索引的記錄相似度計(jì)算方法，所述計(jì)算方法包括如下步驟:
[0013]第一步，先設(shè)ir|個(gè)invert函數(shù)，該函數(shù)給定一個(gè)(ID/URL，TF-1DF weightedtoken vector)，返回(token，ID/URL)列表，即倒排索引；
[0014]第二步，創(chuàng)建computeCommonTokens函數(shù)，該函數(shù)使用invert函數(shù)將Amazon與Google的TF-1DF權(quán)重記錄轉(zhuǎn)化為倒排索引(inverted indicies)，并通過Spark的transformat1n計(jì)算公共的Token列表(common Token)，形式如[(ID，URL)，〈commonTokensList>]；
[0015]第三步，通過recordSimi Iarity即可算出Amazon記錄與Google記錄之間的相似度值。
[0016]對算法進(jìn)行了黃金標(biāo)準(zhǔn)(Gold Standard)評估與不同并行度算法運(yùn)行時(shí)間的實(shí)驗(yàn)。本文的實(shí)驗(yàn)環(huán)境所用的Spark版本為1.5.0，Spark運(yùn)行在Cloudera的YARN集群上，集群上部署了四臺服務(wù)器，I臺服務(wù)器作為Driver節(jié)點(diǎn)，3臺服務(wù)器作為Worker節(jié)點(diǎn)，并設(shè)置Workder節(jié)點(diǎn)的運(yùn)行環(huán)境參數(shù)如下，一num-executor = 3，--executors_cores = 2，--executor-memory 2g.采用信息檢索領(lǐng)域通用的測度，準(zhǔn)確率、召回率和F-measure來評估ER算法。準(zhǔn)確性是真正相同實(shí)體與標(biāo)記為相同實(shí)體的比值，。召回率表示在所有真正相同實(shí)體中，找到的正確的相同實(shí)體的比例，.F-measure則是準(zhǔn)確率與召回率的調(diào)和平均，.準(zhǔn)確率、召回率和F-measure是相似度閾值的函數(shù)，取不同的相似度值(0_1)時(shí)準(zhǔn)確率、召回率和F-measure值的曲線圖。
[0017]Spark在調(diào)度并運(yùn)行任務(wù)時(shí)，為每個(gè)分區(qū)創(chuàng)建出一個(gè)任務(wù)，并由集群中一個(gè)計(jì)算核心來執(zhí)行，并行度反映了數(shù)據(jù)分區(qū)情況。因此，并行度是Spark應(yīng)用優(yōu)化的重要參數(shù)，配置合理的并行度可充分利用集群的并行計(jì)算能力。
[0018]本文在不同并行度下測試算法執(zhí)行的時(shí)間，隨著并行度從I增加到18，算法運(yùn)行的時(shí)間越來越短，并行度為18時(shí)算法執(zhí)行的時(shí)間性能達(dá)到最優(yōu)。但當(dāng)并行度過高時(shí)，如并行度設(shè)置為1024時(shí)，算法時(shí)間性能由于線程切換的開銷，導(dǎo)致下降。事實(shí)上，Spark官方文檔也推薦為每個(gè)CHJ核心分配2-3個(gè)tasks—6*3 = 18。
[0019]本發(fā)明的基于倒排索引的記錄相似度計(jì)算方法可將算法復(fù)雜度降低至線性運(yùn)行時(shí)間，采用信息檢索領(lǐng)域通用的測度，準(zhǔn)確率、召回率和F-measure來評估ER算法，準(zhǔn)確性是真正相同實(shí)體與標(biāo)記為相同實(shí)體的比值，召回率表示在所有真正相同實(shí)體中，找到的正確的相同實(shí)體的比例，.F-measure則是準(zhǔn)確率與召回率的調(diào)和平均。需要指出的是，上述較佳實(shí)施例僅為說明本發(fā)明的技術(shù)構(gòu)思及特點(diǎn)，其目的在于讓熟悉此項(xiàng)技術(shù)的人士能夠了解本發(fā)明的內(nèi)容并據(jù)以實(shí)施，并不能以此限制本發(fā)明的保護(hù)范圍。凡根據(jù)本發(fā)明精神實(shí)質(zhì)所作的等效變化或修飾，都應(yīng)涵蓋在本發(fā)明的保護(hù)范圍之內(nèi)。
【主權(quán)項(xiàng)】
1.基于倒排索引的記錄相似度計(jì)算方法，其特征在于:所述計(jì)算方法包括如下步驟: 第一步，先設(shè)id 個(gè)invert函數(shù)，該函數(shù)給定一個(gè)(ID/URL，TF_IDF weighted tokenvector)，返回(token，ID/URL)列表，即倒排索引；第二步，創(chuàng)建computeCommonTokens函數(shù)，該函數(shù)使用invert函數(shù)將Amazon與Google的TF-1DF權(quán)重記錄轉(zhuǎn)化為倒排索引(inverted indicies)，并通過Spark的transformat1n計(jì)算公共的Token列表(common Token)，形式如[(ID，URL)，〈commonTokens List〉]; 第三步，通過recordSimi larity即可算出Amazon記錄與Google記錄之間的相似度值。2.如權(quán)利要求1所述的基于倒排索引的記錄相似度計(jì)算方法，其特征在于:Spark在調(diào)度并運(yùn)行任務(wù)時(shí)，為每個(gè)分區(qū)創(chuàng)建出一個(gè)任務(wù)，并由集群中一個(gè)計(jì)算核心來執(zhí)行，并行度反映了數(shù)據(jù)分區(qū)情況，并行度是Spark應(yīng)用優(yōu)化的重要參數(shù)，配置合理的并行度可充分利用集群的并行計(jì)算能力。
【文檔編號】G06F17/30GK106021400SQ201610316033
【公開日】2016年10月12日
【申請日】2016年5月16日
【發(fā)明人】陳敏剛
【申請人】陳敏剛

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：陳敏剛;
技術(shù)所有人：陳敏剛;
我是此專利的發(fā)明人

上一篇：可擴(kuò)展的基于倒排索引的實(shí)體解析算法
上一篇：查詢請求消息的處理方法及裝置的制造方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

倒排索引相關(guān)技術(shù)

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

基于倒排索引的記錄相似度計(jì)算方法