基于倒排索引的記錄相似度計(jì)算方法
【專利摘要】本發(fā)明公開基于倒排索引的記錄相似度計(jì)算方法,計(jì)算方法包括如下步驟:第一步,先設(shè)計(jì)一個(gè)invert函數(shù),該函數(shù)給定一個(gè)(ID/URL,TF?IDF weighted token vector),返回列表,即倒排索引;第二步:創(chuàng)建computeCommonTokens函數(shù),該函數(shù)使用invert函數(shù)將Amazon與Google的TF?IDF權(quán)重記錄轉(zhuǎn)化為倒排索引,并通過Spark的transformation計(jì)算公共的Token列表,形式如[(ID,URL),<commonTokens List>];第三步,通過recordSimilarity即可算出Amazon記錄與Google記錄之間的相似度值;本發(fā)明的基于倒排索引的記錄相似度計(jì)算方法將算法復(fù)雜度降低至線性運(yùn)行時(shí)間的。
【專利說明】
基于倒排索引的記錄相似度計(jì)算方法
技術(shù)領(lǐng)域
[0001]本發(fā)明公開基于倒排索引的記錄相似度計(jì)算方法。
【背景技術(shù)】
[0002]目前,樸素的實(shí)體解析方法需要對所有記錄做成對的兩兩相似度度量,這類算法時(shí)間復(fù)雜度上是二次的,而實(shí)際上多數(shù)記錄之間沒有共同的token,因此通過設(shè)計(jì)倒排索引的數(shù)據(jù)結(jié)構(gòu),可將算法復(fù)雜度降低至線性運(yùn)行時(shí)間。
【發(fā)明內(nèi)容】
[0003]本發(fā)明為了解決現(xiàn)有技術(shù)的問題,提供了可將算法復(fù)雜度降低至線性運(yùn)行時(shí)間的基于倒排索引的基于倒排索引的記錄相似度計(jì)算方法。
[0004]本發(fā)明的具體技術(shù)方案如下:基于倒排索引的記錄相似度計(jì)算方法,其特征在于:所述計(jì)算方法包括如下步驟:
[0005]第一步,先設(shè)ir|個(gè)invert函數(shù),該函數(shù)給定一個(gè)(ID/URL,TF-1DF weightedtoken vector),返回(token,ID/URL)列表,即倒排索引;
[0006]第二步,創(chuàng)建computeCommonTokens函數(shù),該函數(shù)使用invert函數(shù)將Amazon與Google的TF-1DF權(quán)重記錄轉(zhuǎn)化為倒排索引(inverted indicies),并通過Spark的transformat1n計(jì)算公共的Token列表(common Token),形式如[(ID,URL),〈commonTokensList>];
[0007]第三步,通過recordSimi Iarity即可算出Amazon記錄與Google記錄之間的相似度值。
[0008]作為本發(fā)明進(jìn)一步限制地,Spark在調(diào)度并運(yùn)行任務(wù)時(shí),為每個(gè)分區(qū)創(chuàng)建出一個(gè)任務(wù),并由集群中一個(gè)計(jì)算核心來執(zhí)行,并行度反映了數(shù)據(jù)分區(qū)情況,并行度是Spark應(yīng)用優(yōu)化的重要參數(shù),配置合理的并行度可充分利用集群的并行計(jì)算能力。
[0009]本發(fā)明的技術(shù)效果:本發(fā)明的基于倒排索引的記錄相似度計(jì)算方法可將算法復(fù)雜度降低至線性運(yùn)行時(shí)間,采用信息檢索領(lǐng)域通用的測度,準(zhǔn)確率、召回率和F-measure來評估ER算法,準(zhǔn)確性是真正相同實(shí)體與標(biāo)記為相同實(shí)體的比值,召回率表示在所有真正相同實(shí)體中,找到的正確的相同實(shí)體的比例,.F-measure則是準(zhǔn)確率與召回率的調(diào)和平均。
【附圖說明】
[0010]圖1是本發(fā)明本實(shí)施例的基于倒排索引的記錄相似度計(jì)算方法的示意圖。
【具體實(shí)施方式】
[0011 ]下面結(jié)合附圖對本發(fā)明做進(jìn)一步說明。
[0012]如圖1所示,本實(shí)施例的基于倒排索引的記錄相似度計(jì)算方法,所述計(jì)算方法包括如下步驟:
[0013]第一步,先設(shè)ir|個(gè)invert函數(shù),該函數(shù)給定一個(gè)(ID/URL,TF-1DF weightedtoken vector),返回(token,ID/URL)列表,即倒排索引;
[0014]第二步,創(chuàng)建computeCommonTokens函數(shù),該函數(shù)使用invert函數(shù)將Amazon與Google的TF-1DF權(quán)重記錄轉(zhuǎn)化為倒排索引(inverted indicies),并通過Spark的transformat1n計(jì)算公共的Token列表(common Token),形式如[(ID,URL),〈commonTokensList>];
[0015]第三步,通過recordSimi Iarity即可算出Amazon記錄與Google記錄之間的相似度值。
[0016]對算法進(jìn)行了黃金標(biāo)準(zhǔn)(Gold Standard)評估與不同并行度算法運(yùn)行時(shí)間的實(shí)驗(yàn)。本文的實(shí)驗(yàn)環(huán)境所用的Spark版本為1.5.0,Spark運(yùn)行在Cloudera的YARN集群上,集群上部署了四臺服務(wù)器,I臺服務(wù)器作為Driver節(jié)點(diǎn),3臺服務(wù)器作為Worker節(jié)點(diǎn),并設(shè)置Workder節(jié)點(diǎn)的運(yùn)行環(huán)境參數(shù)如下,一num-executor = 3,--executors_cores = 2,--executor-memory 2g.采用信息檢索領(lǐng)域通用的測度,準(zhǔn)確率、召回率和F-measure來評估ER算法。準(zhǔn)確性是真正相同實(shí)體與標(biāo)記為相同實(shí)體的比值,。召回率表示在所有真正相同實(shí)體中,找到的正確的相同實(shí)體的比例,.F-measure則是準(zhǔn)確率與召回率的調(diào)和平均,.準(zhǔn)確率、召回率和F-measure是相似度閾值的函數(shù),取不同的相似度值(0_1)時(shí)準(zhǔn)確率、召回率和F-measure值的曲線圖。
[0017]Spark在調(diào)度并運(yùn)行任務(wù)時(shí),為每個(gè)分區(qū)創(chuàng)建出一個(gè)任務(wù),并由集群中一個(gè)計(jì)算核心來執(zhí)行,并行度反映了數(shù)據(jù)分區(qū)情況。因此,并行度是Spark應(yīng)用優(yōu)化的重要參數(shù),配置合理的并行度可充分利用集群的并行計(jì)算能力。
[0018]本文在不同并行度下測試算法執(zhí)行的時(shí)間,隨著并行度從I增加到18,算法運(yùn)行的時(shí)間越來越短,并行度為18時(shí)算法執(zhí)行的時(shí)間性能達(dá)到最優(yōu)。但當(dāng)并行度過高時(shí),如并行度設(shè)置為1024時(shí),算法時(shí)間性能由于線程切換的開銷,導(dǎo)致下降。事實(shí)上,Spark官方文檔也推薦為每個(gè)CHJ核心分配2-3個(gè)tasks—6*3 = 18。
[0019]本發(fā)明的基于倒排索引的記錄相似度計(jì)算方法可將算法復(fù)雜度降低至線性運(yùn)行時(shí)間,采用信息檢索領(lǐng)域通用的測度,準(zhǔn)確率、召回率和F-measure來評估ER算法,準(zhǔn)確性是真正相同實(shí)體與標(biāo)記為相同實(shí)體的比值,召回率表示在所有真正相同實(shí)體中,找到的正確的相同實(shí)體的比例,.F-measure則是準(zhǔn)確率與召回率的調(diào)和平均。需要指出的是,上述較佳實(shí)施例僅為說明本發(fā)明的技術(shù)構(gòu)思及特點(diǎn),其目的在于讓熟悉此項(xiàng)技術(shù)的人士能夠了解本發(fā)明的內(nèi)容并據(jù)以實(shí)施,并不能以此限制本發(fā)明的保護(hù)范圍。凡根據(jù)本發(fā)明精神實(shí)質(zhì)所作的等效變化或修飾,都應(yīng)涵蓋在本發(fā)明的保護(hù)范圍之內(nèi)。
【主權(quán)項(xiàng)】
1.基于倒排索引的記錄相似度計(jì)算方法,其特征在于:所述計(jì)算方法包括如下步驟: 第一步,先設(shè)id 個(gè)invert函數(shù),該函數(shù)給定一個(gè)(ID/URL,TF_IDF weighted tokenvector),返回(token,ID/URL)列表,即倒排索引; 第二步,創(chuàng)建computeCommonTokens函數(shù),該函數(shù)使用invert函數(shù)將Amazon與Google的TF-1DF權(quán)重記錄轉(zhuǎn)化為倒排索引(inverted indicies),并通過Spark的transformat1n計(jì)算公共的Token列表(common Token),形式如[(ID,URL),〈commonTokens List〉]; 第三步,通過recordSimi larity即可算出Amazon記錄與Google記錄之間的相似度值。2.如權(quán)利要求1所述的基于倒排索引的記錄相似度計(jì)算方法,其特征在于:Spark在調(diào)度并運(yùn)行任務(wù)時(shí),為每個(gè)分區(qū)創(chuàng)建出一個(gè)任務(wù),并由集群中一個(gè)計(jì)算核心來執(zhí)行,并行度反映了數(shù)據(jù)分區(qū)情況,并行度是Spark應(yīng)用優(yōu)化的重要參數(shù),配置合理的并行度可充分利用集群的并行計(jì)算能力。
【文檔編號】G06F17/30GK106021400SQ201610316033
【公開日】2016年10月12日
【申請日】2016年5月16日
【發(fā)明人】陳敏剛
【申請人】陳敏剛