欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種跨社區(qū)開源資源匹配關(guān)聯(lián)方法_3

文檔序號:9631558閱讀:來源:國知局
某開源軟件P數(shù)據(jù)時,首先從SDS中讀取項目信息,包括項目基本屬性,所述基本屬性包括項目名稱、項目描述、開發(fā)語言、創(chuàng)建時間、爬取時間、項目標(biāo)簽、項目源地址等。及其開發(fā)團(tuán)隊屬性(開發(fā)者列表、開發(fā)者郵件列表等),然后從關(guān)聯(lián)表中查詢與該項目關(guān)聯(lián)的在線文檔,查詢結(jié)果即與該開源軟件相關(guān)的在線文檔。對與項目關(guān)聯(lián)的每個文檔D,從DDS中讀取文檔的內(nèi)容及屬性(發(fā)布時間,更新時間,源地址,作者信息等),將項目信息和與之關(guān)聯(lián)的文檔屬性一起返回給用戶。
[0050]下面結(jié)合實(shí)施例直觀的說明本發(fā)明的效果。圖2是實(shí)施本實(shí)例的交互示意圖。實(shí)例中包含一個開源軟件數(shù)據(jù)服務(wù)器SDS、一個在線文檔數(shù)據(jù)服務(wù)器DDS、關(guān)聯(lián)關(guān)系存儲服務(wù)器、開源項目網(wǎng)站SF1和SF2、知識共享社區(qū)網(wǎng)站SP1和SP2、一個用于說明交互流程的用戶請求。本發(fā)明將從網(wǎng)站SF1和SF2中獲取開源軟件數(shù)據(jù)并存入SDS中,從SP1和SP2中獲取在線文檔數(shù)據(jù)存入DDS中,采用跨社區(qū)關(guān)聯(lián)算法將SDS與DDS中的數(shù)據(jù)關(guān)聯(lián)起來,即對一個開源軟件,從在線文檔數(shù)據(jù)庫中挖掘出有哪些在線文檔是關(guān)于該軟件的。當(dāng)用戶請求開源軟件信息時,服務(wù)器會同時返回給用戶開源軟件的信息及與其相關(guān)的在線文檔信息。
[0051]本發(fā)明以網(wǎng)頁的形式呈現(xiàn)并于用戶交互。用戶在網(wǎng)頁上可以看到爬取到的開源軟件列表,當(dāng)用戶點(diǎn)擊或搜索一個開源軟件時,通過本發(fā)明,會將用戶所需的開源軟件信息和與其關(guān)聯(lián)的在線文檔信息一起呈現(xiàn)在頁面上。該執(zhí)行過程包括以下步驟:
[0052]步驟201、采用Web爬蟲從開源軟件網(wǎng)站中爬取開源軟件數(shù)據(jù)并將數(shù)據(jù)存儲到數(shù)據(jù)服務(wù)器中。
[0053]步驟202、從開源軟件相關(guān)的知識分享社區(qū)中通過爬蟲采集在線文檔(博客、討論帖、新聞等)數(shù)據(jù),并將數(shù)據(jù)存儲到數(shù)據(jù)服務(wù)器中。
[0054]步驟203、采用圖1中描述的開源軟件跨社區(qū)關(guān)聯(lián)算法將開源軟件數(shù)據(jù)與在線文檔數(shù)據(jù)關(guān)聯(lián)起來,關(guān)聯(lián)關(guān)系單獨(dú)存儲。
[0055]步驟204、SDS收到用戶發(fā)送的查找某開源軟件P的請求后,從SDS中查找該開源軟件的屬性(名稱、描述、創(chuàng)建時間等)
[0056]步驟205、SDS從關(guān)聯(lián)表中查找與開源軟件P關(guān)聯(lián)的在線文檔列表
[0057]步驟206、對P的關(guān)聯(lián)列表中的每個在線文檔D,從DDS中查找其標(biāo)題、內(nèi)容和屬性(標(biāo)簽、發(fā)布時間、源地址等)
[0058]步驟207、將P的詳細(xì)信息(名稱、描述、開發(fā)語言、創(chuàng)建時間、爬取時間、標(biāo)簽、源地址等)及所有與P相關(guān)的在線文檔D的信息(標(biāo)題、內(nèi)容、標(biāo)簽、發(fā)布時間、源地址等)一起顯示在網(wǎng)頁上。
[0059]以上實(shí)施例可以反映出本發(fā)明能夠在互聯(lián)網(wǎng)范圍為軟件開發(fā)人員提供與其所需的開源軟件相關(guān)的在線文檔信息。由于系統(tǒng)中的在線文檔采集自互聯(lián)網(wǎng)多個知識分享社區(qū),采集范圍廣泛,包含的內(nèi)容豐富(含博客、討論帖、新聞、招聘信息等),在用戶查找開源軟件時,與開源軟件相關(guān)聯(lián)的討論或技術(shù)分享等信息可以同時提供給用戶,使用戶可以通過一次請求得到來自各個知識分享社區(qū)的信息,廣泛全面地了解該軟件的功能特性等,提高了用戶使用開源軟件的效率。此外,由于本發(fā)明主要面向的是使用開源軟件的軟件開發(fā)人員,因此在爬取數(shù)據(jù)和實(shí)施算法的過程中,具有很強(qiáng)的針對性。開源軟件和在線文檔的爬取列表是經(jīng)過認(rèn)真的考慮和嚴(yán)格的篩選,力求使爬取到的信息盡量全面且保證爬取數(shù)據(jù)的質(zhì)量,例如一些廣告或“水帖”較多的社區(qū)就不在爬取列表中,而在程序員中比較活躍的社區(qū)如stackoverflow等就是本文重點(diǎn)爬取的對象。因此呈現(xiàn)給用戶的在線文檔都是關(guān)于開源軟件的專業(yè)的討論,使用戶在使用開源軟件遇到問題時在本發(fā)明的平臺上可以一次得到全面、專業(yè)的信息,而不需要用傳統(tǒng)的搜索引擎去逐個搜索,大大提高了開發(fā)人員在使用開源軟件查找相關(guān)信息時的效率。
[0060]最后所應(yīng)說明的是,以上實(shí)施例僅用以說明本發(fā)明的技術(shù)方案而非限制,盡管參照較佳實(shí)施例對本發(fā)明進(jìn)行了詳細(xì)說明,本領(lǐng)域的普通技術(shù)人員應(yīng)當(dāng)理解,可以對本發(fā)明的技術(shù)方案進(jìn)行修改或者等同替換,而不脫離本發(fā)明技術(shù)方案的精神和范圍。
【主權(quán)項】
1.一種開源軟件跨社區(qū)匹配關(guān)聯(lián)方法,包括下列步驟: 步驟101、采用通用的Web爬蟲技術(shù)從互聯(lián)網(wǎng)的主要開源項目托管社區(qū)中獲取開源軟件信息,采集包括開源軟件的基本屬性的項目數(shù)據(jù),所述基本屬性包括項目名稱、項目描述、開發(fā)語言、創(chuàng)建時間、爬取時間、項目標(biāo)簽、項目源地址; 步驟102、采用通用的Web爬蟲技術(shù)從互聯(lián)網(wǎng)主要的知識分享社區(qū)中獲取開源軟件相關(guān)在線文檔信息數(shù)據(jù),所述在線文檔信息數(shù)據(jù)包括文檔標(biāo)題、文檔內(nèi)容及文檔基本屬性,所述文檔基本屬性包括文檔標(biāo)簽、文檔發(fā)布時間、文檔源地址; 步驟103、采用開源的全文檢索工具Lucene為采集到的在線文檔數(shù)據(jù)的文檔標(biāo)題、文檔內(nèi)容和開源軟件的項目名稱建立文件索引; 步驟104、用開源軟件的項目名稱與在線文檔的文檔標(biāo)簽進(jìn)行匹配,其中以所述項目名稱為關(guān)鍵詞在數(shù)據(jù)庫存儲的標(biāo)簽表中查找在線文檔,若所述在線文檔具有與所述項目名稱相同的標(biāo)簽,則為所述在線文檔與所述開源軟件建立關(guān)聯(lián),并賦予權(quán)值Wl,表示以項目名稱和文檔標(biāo)簽為度量時,所述在線文檔針對所述開源軟件的關(guān)聯(lián)程度; 步驟105、用開源軟件的項目名稱在在線文檔標(biāo)題中進(jìn)行檢索,其中,以項目名稱為關(guān)鍵詞,從步驟3中建立的文件索引中搜索在線文檔標(biāo)題,若文檔標(biāo)題中含有項目名稱,則為該文檔與項目建立關(guān)聯(lián),并將這次關(guān)聯(lián)賦予權(quán)值《2,表示以項目名稱和文檔標(biāo)題為度量時,所述在線文檔針對所述開源軟件的關(guān)聯(lián)程度; 步驟106、在所有已建立的關(guān)聯(lián)中,對開源軟件的項目標(biāo)簽統(tǒng)計包含在在線文檔標(biāo)題中的項目標(biāo)簽個數(shù)X,計算權(quán)值》3= 0.5*log2(x2+l),其表示以項目標(biāo)簽在文檔標(biāo)題中的出現(xiàn)次數(shù)作為該項目與在線文檔關(guān)聯(lián)程度的度量,通過權(quán)值的計算判斷關(guān)聯(lián)結(jié)果的可信度。 步驟107、在所有已建立的關(guān)聯(lián)中,對關(guān)聯(lián)的開源軟件的項目標(biāo)簽與在線文檔的文檔標(biāo)簽進(jìn)行匹配,統(tǒng)計在兩者中都出現(xiàn)的標(biāo)簽個數(shù)1,計算權(quán)值 w4= 0.6*log2(y2+l),其表示以項目標(biāo)簽和文檔標(biāo)簽中相同的標(biāo)簽個數(shù)作為度量,通過權(quán)值的計算判斷關(guān)聯(lián)結(jié)果的可信度。 步驟108、計算最終權(quán)值w = W!+W2+ (w!+w2) * (w3+w4),當(dāng)關(guān)聯(lián)的權(quán)值W大于閾值q時,認(rèn)為該在線文檔與開源軟件是關(guān)聯(lián)的,關(guān)聯(lián)結(jié)果以[開源軟件,在線文檔,權(quán)重]結(jié)果存儲在數(shù)據(jù)庫中,完成跨社區(qū)關(guān)聯(lián)。2.如權(quán)利要求所述的方法,其中步驟101中的所述項目標(biāo)簽以[項目id,標(biāo)簽]的格式單獨(dú)存儲在標(biāo)簽表中,開源軟件的其他屬性存儲在開源軟件表中;步驟102中的所述文檔標(biāo)簽以[文檔id,標(biāo)簽]的格式追加存儲在標(biāo)簽表中,所述文檔標(biāo)題、文檔內(nèi)容和其他文檔基本屬性存儲在文檔表中。3.如權(quán)利要求1所述的方法,其中步驟5中所述檢索的過程使用開源的Lucene全文檢索工具實(shí)現(xiàn)。4.如權(quán)利要求1所述的方法,其中步驟108中w的計算依據(jù)是,只有在步驟104或者步驟105中匹配到的%或*2不為0才去計算步驟6和步驟7的權(quán)重,且用(w AwJ * (w3+w4)表示步驟106和107對最終權(quán)值的影響建立在步驟104和步驟105之上。
【專利摘要】一種開源軟件跨社區(qū)匹配關(guān)聯(lián)方法,采用通用的Web爬蟲技術(shù)從互聯(lián)網(wǎng)的主要開源項目托管社區(qū)和知識分享社區(qū)中獲取開源軟件及在線文檔信息數(shù)據(jù),利用開源軟件的項目名稱及項目標(biāo)簽與在線文檔信息的文檔標(biāo)題及文檔標(biāo)簽進(jìn)行關(guān)聯(lián)匹配,為不同匹配類型設(shè)置不同的權(quán)重,實(shí)現(xiàn)在線文檔與開源軟件的跨社區(qū)關(guān)聯(lián),提高開發(fā)人員在使用開源軟件查找相關(guān)信息時的效率。
【IPC分類】G06F17/30
【公開號】CN105389330
【申請?zhí)枴緾N201510617004
【發(fā)明人】王懷民, 尹剛, 王濤, 宋晨希, 范強(qiáng), 史殿習(xí), 劉惠, 丁博, 史佩昌, 楊程, 侯翔, 湛云
【申請人】中國人民解放軍國防科學(xué)技術(shù)大學(xué)
【公開日】2016年3月9日
【申請日】2015年9月21日
當(dāng)前第3頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1
玛沁县| 松滋市| 浦城县| 达州市| 利川市| 永康市| 周至县| 邯郸市| 特克斯县| 阿合奇县| 铁岭市| 祁门县| 黔江区| 朝阳县| 浦县| 安塞县| 金沙县| 泊头市| 华宁县| 铁力市| 肥城市| 本溪市| 连山| 黄大仙区| 玉屏| 武宣县| 凤山县| 桂林市| 灵川县| 扎赉特旗| 阳春市| 灵石县| 尖扎县| 白水县| 天长市| 吉隆县| 南川市| 巴中市| 台东市| 武陟县| 视频|