欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種跨社區(qū)開源資源匹配關(guān)聯(lián)方法_2

文檔序號:9631558閱讀:來源:國知局
0024]圖1為本發(fā)明面向開源軟件跨社區(qū)匹配關(guān)聯(lián)方法的流程圖;
[0025]圖2為本發(fā)明開源軟件跨社區(qū)匹配方法的實施例涉及的網(wǎng)絡(luò)節(jié)點交互示意圖;
【具體實施方式】
[0026]對于開源項目托管網(wǎng)站和開源社區(qū)網(wǎng)站各自維護(hù)一個數(shù)據(jù)采集站點列表。由通用的Web爬蟲從兩個站點列表中定期爬取開源軟件數(shù)據(jù)和在線文檔數(shù)據(jù),分別存入開源軟件數(shù)據(jù)服務(wù)器SDS和在線文檔數(shù)據(jù)服務(wù)器DDS。
[0027]步驟101、在獲取開源軟件信息時,采用通用的Web爬蟲技術(shù)從互聯(lián)網(wǎng)的主要開源項目托管社區(qū)中采集開源軟件的項目數(shù)據(jù)。采集包括開源軟件的基本屬性的項目數(shù)據(jù),所述基本屬性包括項目名稱、項目描述、開發(fā)語言、創(chuàng)建時間、爬取時間、項目標(biāo)簽、項目源地址。由于一個開源軟件可能含有多個標(biāo)簽,因此軟件標(biāo)簽以[項目id,標(biāo)簽1]、[項目id,標(biāo)簽2]的格式單獨存儲在標(biāo)簽表中。開源軟件的其他屬性存儲在開源軟件表中。
[0028]步驟102、從各個知識分享社區(qū)獲取在線文檔信息。與步驟1類似,獲取在線文檔信息時,同樣采用通用的Web爬蟲從互聯(lián)網(wǎng)主要的知識分享社區(qū)中采集開源軟件相關(guān)的含博客、論壇討論帖、新聞等在內(nèi)的在線文檔信息數(shù)據(jù)。所述在線文檔信息數(shù)據(jù)包括文檔標(biāo)題、文檔內(nèi)容及文檔基本屬性,所述文檔基本屬性包括文檔標(biāo)簽、文檔發(fā)布時間、文檔源地址。所述文檔標(biāo)簽以[文檔id,標(biāo)簽]的格式追加存儲在標(biāo)簽表中,所述文檔標(biāo)題、文檔內(nèi)容和其他文檔基本屬性存儲在文檔表中。其中服務(wù)器根據(jù)設(shè)定的時間間隔定期從爬取列表中采集最新的文檔數(shù)據(jù)。
[0029]步驟103、采用開源的全文檢索工具Lucene為采集到的在線文檔數(shù)據(jù)的標(biāo)題、內(nèi)容和開源軟件的名稱建立文件索引,以在進(jìn)行關(guān)聯(lián)匹配和檢索時加快處理速度。
[0030]步驟104、用開源軟件的項目名稱與在線文檔的文檔標(biāo)簽進(jìn)行匹配,其中以所述項目名稱為關(guān)鍵詞在數(shù)據(jù)庫存儲的標(biāo)簽表中查找在線文檔,若所述在線文檔具有與所述項目名稱相同的標(biāo)簽,則為所述在線文檔與所述開源軟件建立關(guān)聯(lián),并賦予權(quán)值Wl,表示以項目名稱和文檔標(biāo)簽為度量時,所述在線文檔針對所述開源軟件的關(guān)聯(lián)程度。
[0031]以開源軟件Hadoop為例,匹配的過程為:從數(shù)據(jù)庫存儲的標(biāo)簽表中查找所有標(biāo)簽為“Hadoop” (不區(qū)分大小寫)的社區(qū)文檔,若文檔D有“Hadoop”標(biāo)簽,則為該文檔D與開源軟件Hadoop建立關(guān)聯(lián),并將這次關(guān)聯(lián)賦予權(quán)值Wi (在實際的計算中,取1)。
[0032]步驟105、用開源軟件的項目名稱在在線文檔標(biāo)題中進(jìn)行檢索,其中,以項目名稱為關(guān)鍵詞,從步驟3中建立的文件索引中搜索在線文檔標(biāo)題,若文檔標(biāo)題中含有項目名稱,則為該文檔與項目建立關(guān)聯(lián),并將這次關(guān)聯(lián)賦予權(quán)值《2,表示以項目名稱和文檔標(biāo)題為度量時,所述在線文檔針對所述開源軟件的關(guān)聯(lián)程度。在實際的計算中,取w2= 0.8。
[0033]步驟106、在所有已建立的關(guān)聯(lián)中,對開源軟件的項目標(biāo)簽統(tǒng)計包含在在線文檔標(biāo)題中的項目標(biāo)簽個數(shù)X,計算權(quán)值w3= 0.5*log 2 (X2+l),其表示以項目標(biāo)簽在文檔標(biāo)題中的出現(xiàn)次數(shù)作為該項目與在線文檔關(guān)聯(lián)程度的度量,通過權(quán)值的計算判斷關(guān)聯(lián)結(jié)果的可信度。
[0034]由于匹配到的標(biāo)簽個數(shù)與關(guān)聯(lián)結(jié)果的可信度不是呈線性關(guān)系,因此采用對數(shù)運算表明標(biāo)簽個數(shù)X與可信度的關(guān)系。系數(shù)0.5是為了控制w3的取值范圍。根據(jù)數(shù)據(jù)分析,X的值一般不會超過2,但可能存在少量數(shù)據(jù)(文檔標(biāo)題特別長或軟件標(biāo)簽很多的情況),其X的值可能很大,為了控制W3的取值范圍,避免在計算最終的權(quán)值w時,因X較大使w結(jié)果很大,這樣會降低結(jié)果的準(zhǔn)確度。
[0035]例如,開源軟件Hadoop的標(biāo)簽有1?&(*6”、“」&抑”和“大數(shù)據(jù)”,某一個討論帖0的標(biāo)題為:“基于Java的大數(shù)據(jù)處理工具”,則帖子D中含有的Hadoop標(biāo)簽數(shù)量為2 ( “ java”和“大數(shù)據(jù)”),計算出的w3= 0.5*log25。
[0036]步驟107、在所有已建立的關(guān)聯(lián)中,對關(guān)聯(lián)的開源軟件的項目標(biāo)簽與在線文檔的文檔標(biāo)簽進(jìn)行匹配,統(tǒng)計在兩者中都出現(xiàn)的標(biāo)簽個數(shù)1,計算權(quán)值
[0037]w4= 0.6*log2(y2+l),其表示以項目標(biāo)簽和文檔標(biāo)簽中相同的標(biāo)簽個數(shù)作為度量,通過權(quán)值的計算判斷關(guān)聯(lián)結(jié)果的可信度。
[0038]與步驟106中的公式原理類似,《4的計算公式是基于匹配到的標(biāo)簽個數(shù)y與關(guān)聯(lián)結(jié)果可信度的非線性關(guān)系。系數(shù)0.6同樣是為了控制《4的取值范圍,且相對《3而言,開源軟件標(biāo)簽與在線文檔標(biāo)簽匹配的個數(shù)y比X對關(guān)聯(lián)結(jié)果的可信度貢獻(xiàn)更高,即,如果開源軟件與在線文檔的標(biāo)簽有交集,相比于在線文檔標(biāo)題中含開源軟件的標(biāo)簽,前者更可能是互相關(guān)聯(lián)的。因此w4的系數(shù)取值為0.6。
[0039]同樣以Hadoop和帖子D為例,帖子D的標(biāo)簽有“ Java”、“分布式”、“Mapreduce”,開源軟件Hadoop的標(biāo)簽有“Apache”、“ java”和“大數(shù)據(jù)”,則Hadoop和D共同的標(biāo)簽個數(shù)y為1,計算出的權(quán)值為w4= 0.6*log 23o
[0040]步驟108、計算最終權(quán)值
[0041]w = W!+W2+ (w!+w2) * (w3+w4),當(dāng)關(guān)聯(lián)的權(quán)值w大于閾值q時,認(rèn)為該在線文檔與開源軟件是關(guān)聯(lián)的,關(guān)聯(lián)結(jié)果以[開源軟件,在線文檔,權(quán)重]的結(jié)果存儲在數(shù)據(jù)庫中,完成跨社區(qū)關(guān)聯(lián)。
[0042]步驟104到步驟107對開源軟件和在線文檔的4種不同數(shù)據(jù)進(jìn)行了匹配,并為每一步的關(guān)聯(lián)結(jié)果賦予了相應(yīng)的權(quán)值,這4步匹配結(jié)束后,計算最終的權(quán)值。
[0043]w的計算依據(jù)是,由于步驟104和步驟105的匹配過程在決定開源軟件與在線文檔是否關(guān)聯(lián)上有很重要的作用,只有在步驟104或者步驟105中匹配到的(WlSw2不為0)才去計算步驟6和步驟7的權(quán)重,且用(wAwJ * (w3+w4)表示步驟106和107對最終權(quán)值的影響建立在步驟104和步驟105之上。
[0044]在實際的計算中,q值取1.3。根據(jù)對數(shù)據(jù)的分析,認(rèn)為當(dāng)開源軟件與在線文檔關(guān)聯(lián)時,在線文檔的標(biāo)題和標(biāo)簽中,至少有一個含有軟件名稱(即《1或《2不為0),且軟件標(biāo)簽在文檔標(biāo)題中有出現(xiàn)或者軟件與文檔的標(biāo)簽有交集(即《3或w 4不為0)。因此閾值q的取值應(yīng)大于1,且q的取值越大,關(guān)聯(lián)結(jié)果的準(zhǔn)確度越高,但同時召回率越低,即匹配的結(jié)果數(shù)量越少。通過實驗比較,當(dāng)q取1.3時,關(guān)聯(lián)的結(jié)果在保證較高準(zhǔn)確率的同時,能召回率也較高。
[0045]關(guān)于權(quán)值^?w4和閾值q的值,主要采用實驗的方式調(diào)整和確定。權(quán)重和閾值的值是相對的,每個權(quán)值代表對每一步匹配的信任度,例如在步驟4中,當(dāng)在線文檔標(biāo)簽中含有軟件名時,認(rèn)為在線文檔與該開源軟件關(guān)聯(lián)的可能性很高。
[0046]在確定權(quán)值之前,首先通過實驗分析了每一步關(guān)聯(lián)的可信度。以步驟4為例,對所有在步驟4中建立的關(guān)聯(lián)關(guān)系(即在線文檔的標(biāo)簽中含有軟件項目名稱的關(guān)聯(lián)關(guān)系),分析其準(zhǔn)確率,發(fā)現(xiàn)其準(zhǔn)確率在90%左右,在閾值確定的情況下,將權(quán)值Wl設(shè)置為1.0。其他的幾個權(quán)值確定過程類似,確定各部分的權(quán)值和最終權(quán)值的計算方式之后,根據(jù)分析所有關(guān)聯(lián)的結(jié)果和權(quán)值確定閾值。
[0047]通過本發(fā)明步驟101-108的關(guān)聯(lián)方法,將SDS中的開源軟件數(shù)據(jù)和DDS中的在線文檔數(shù)據(jù)建立關(guān)聯(lián),關(guān)聯(lián)關(guān)系按[開源軟件,在線文檔,關(guān)聯(lián)權(quán)重]的格式單獨存儲在數(shù)據(jù)庫的關(guān)聯(lián)表中,其中開源軟件和在線文檔存儲的是其在SDS和DDS中的id。例如開源軟件Hadoop在數(shù)據(jù)庫中的id為1234,與Hadoop關(guān)聯(lián)的在線文檔D的id為5678,關(guān)聯(lián)權(quán)值為
1.58,則在數(shù)據(jù)庫中存儲的記錄為[1234,5678,1.58]。將所有軟件的關(guān)聯(lián)關(guān)系存儲到一張關(guān)聯(lián)表中,便于查詢和維護(hù)。
[0048]當(dāng)采集到的數(shù)據(jù)更新或增加時,僅對變化的數(shù)據(jù)采用該方法進(jìn)行關(guān)聯(lián),更新兩組數(shù)據(jù)的關(guān)聯(lián)關(guān)系,并更新數(shù)據(jù)庫中的關(guān)聯(lián)表。
[0049]當(dāng)用戶請求
當(dāng)前第2頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
上杭县| 陇川县| 鄱阳县| 郴州市| 汾阳市| 渝北区| 长乐市| 阜新市| 册亨县| 巴中市| 甘德县| 孟村| 安平县| 和平县| 增城市| 呈贡县| 泗水县| 游戏| 奉节县| 临海市| 德钦县| 内丘县| 临高县| 百色市| 洛川县| 杭锦后旗| 日喀则市| 南汇区| 崇仁县| 镇远县| 凤山县| 东辽县| 射阳县| 于田县| 内丘县| 雷州市| 新源县| 浦城县| 临颍县| 河池市| 尤溪县|