專利名稱:一種基于海量知識(shí)網(wǎng)絡(luò)的學(xué)術(shù)社區(qū)系統(tǒng)的制作方法
一種基于海量知識(shí)網(wǎng)絡(luò)的學(xué)術(shù)社區(qū)系統(tǒng)技術(shù)領(lǐng)域
本發(fā)明屬于數(shù)據(jù)挖掘和信息檢索和海量數(shù)據(jù)處理交叉領(lǐng)域,具體涉及為一種以學(xué)術(shù)資源搜索、學(xué)術(shù)數(shù)據(jù)統(tǒng)計(jì)、學(xué)術(shù)相關(guān)服務(wù)及學(xué)術(shù)社區(qū)為特色的學(xué)術(shù)社區(qū)系統(tǒng)。
背景技術(shù):
隨著全球信息化的逐漸發(fā)展深入,越來(lái)越多的學(xué)術(shù)資源發(fā)布到網(wǎng)絡(luò)。然而由于這些資源分散在全球各處,既繁多又繁雜,而且還在逐年以指數(shù)增長(zhǎng)。如何從如此繁多的學(xué)術(shù)資源中獲取想要的資源是一個(gè)棘手的問(wèn)題。
傳統(tǒng)的搜索由于面向的是整個(gè)互聯(lián)網(wǎng),搜索的結(jié)果會(huì)非常寬泛,不能很好的為科研工作者提供搜索服務(wù)。在此背景下產(chǎn)生了專門針對(duì)學(xué)術(shù)資源的搜索。學(xué)術(shù)搜索專為解決面向?qū)W術(shù)文獻(xiàn)資源的搜索,它的定位不同于通用搜索,而是專注于學(xué)術(shù)資源的。
然而目前的學(xué)術(shù)搜索系統(tǒng)有以下問(wèn)題1、主要專注于科技文獻(xiàn)的搜索,即給出按文獻(xiàn)標(biāo)題的搜索、按作者的搜索等,服務(wù)單一,不夠豐富和多元化。2、目前大多數(shù)的學(xué)術(shù)搜索系統(tǒng)所索引的科技文獻(xiàn)是人工添加的,而非自動(dòng)從網(wǎng)絡(luò)中獲取的,沒(méi)有充分利用網(wǎng)絡(luò)上的豐富資源。3、目前大多數(shù)的學(xué)術(shù)搜索系統(tǒng)對(duì)各種學(xué)術(shù)資源沒(méi)能整合、沒(méi)有形成完整的知識(shí)網(wǎng)絡(luò),以統(tǒng)一對(duì)外服務(wù)。4、目前的學(xué)術(shù)搜索系統(tǒng)缺乏與用戶的交互,不能充分發(fā)揮用戶的主動(dòng)能動(dòng)性。
這四點(diǎn)都制約了目前的學(xué)術(shù)搜索的服務(wù),使其不能很好的滿足科研工作者各種與學(xué)術(shù)相關(guān)的服務(wù)需求。發(fā)明內(nèi)容
本發(fā)明的目的是為了克服現(xiàn)有學(xué)術(shù)搜索系統(tǒng)的制約,提供了一種基于海量知識(shí)網(wǎng)絡(luò)的學(xué)術(shù)社區(qū)系統(tǒng),充分利用網(wǎng)絡(luò)資源形成知識(shí)網(wǎng)絡(luò),提供了更多的搜索和服務(wù)功能以及用戶與知識(shí)庫(kù)交互的接口。
一種基于海量知識(shí)網(wǎng)絡(luò)的學(xué)術(shù)社區(qū)系統(tǒng),包括
信息收集與存儲(chǔ)模塊9,用于收集網(wǎng)絡(luò)和用戶提供的信息形成知識(shí)網(wǎng)絡(luò);學(xué)術(shù)檢索模塊10,用于在所述知識(shí)網(wǎng)絡(luò)中對(duì)會(huì)議、文獻(xiàn)、作者和領(lǐng)域綜述進(jìn)行檢索;學(xué)術(shù)服務(wù)模塊 11,用于利用所述知識(shí)網(wǎng)絡(luò)服務(wù)用戶的個(gè)性需求;社區(qū)模塊8,用于用戶之間以及用戶與知識(shí)網(wǎng)絡(luò)之間的信息交互。
所述信息收集與存儲(chǔ)模塊9包括公共數(shù)據(jù)收集模塊9. 1,用于收集互聯(lián)網(wǎng)上的學(xué)術(shù)信息,所述學(xué)術(shù)信息包括會(huì)議、科技文獻(xiàn)和作者信息;多個(gè)私有數(shù)據(jù)收集模塊9. 2,用于收集各對(duì)應(yīng)用戶的私有信息和用戶分享的學(xué)術(shù)信息;知識(shí)網(wǎng)絡(luò)組建模塊9. 3,用于對(duì)公共數(shù)據(jù)模塊9.1收集的互聯(lián)網(wǎng)學(xué)術(shù)信息和私有數(shù)據(jù)模塊9. 2收集的用戶分享的學(xué)術(shù)信息進(jìn)行整體分析,挖掘出關(guān)聯(lián)關(guān)系,形成知識(shí)網(wǎng)絡(luò)。
所述公共數(shù)據(jù)模塊9. 1包括會(huì)議信息爬取模塊9. 1A,用于定期的從網(wǎng)絡(luò)識(shí)別和下載包含會(huì)議信息的網(wǎng)頁(yè);科技文獻(xiàn)爬取模塊9. 1B,用于定期的從網(wǎng)絡(luò)識(shí)別和下載文獻(xiàn)列表網(wǎng)頁(yè);作者信息爬取模塊9. 1C,用于定期從網(wǎng)絡(luò)中識(shí)別和下載個(gè)人主頁(yè);信息抽取和整合模塊9. 1D,用于從上述三爬取模塊爬取的網(wǎng)頁(yè)中抽取有用信息,并對(duì)所述有用信息進(jìn)行去除冗余、錯(cuò)誤數(shù)據(jù)剔除及信息整合。
所述學(xué)術(shù)檢索模塊10包括文獻(xiàn)檢索模塊1,用于定期從知識(shí)網(wǎng)絡(luò)中獲取文獻(xiàn)信息,接收用戶文獻(xiàn)查詢請(qǐng)求,將文獻(xiàn)查詢結(jié)果按照相似度的高低排序后反饋給用戶;會(huì)議檢索模塊2,用于定期從知識(shí)網(wǎng)絡(luò)中獲取會(huì)議信息,接收用戶會(huì)議查詢請(qǐng)求,將會(huì)議查詢結(jié)果按照會(huì)議時(shí)間排序后反饋給用戶;作者檢索模塊3,用于定期從知識(shí)網(wǎng)絡(luò)中獲取作者信息, 接收用戶作者查詢請(qǐng)求,對(duì)作者查詢結(jié)果進(jìn)行同名作者區(qū)分后反饋給用戶;領(lǐng)域綜述模塊 4,用于定期從所述知識(shí)網(wǎng)絡(luò)中獲取文獻(xiàn)信息,從中抽取文獻(xiàn)內(nèi)容,依據(jù)文獻(xiàn)內(nèi)容對(duì)文獻(xiàn)分類,并計(jì)算文獻(xiàn)的綜合影響分子;接收用戶的領(lǐng)域查詢請(qǐng)求,確定其所述領(lǐng)域,將確定的領(lǐng)域內(nèi)的所有文獻(xiàn)按照綜合影響因子高低排序,選取排序靠前的部分文獻(xiàn)進(jìn)行自然語(yǔ)言分析處理生成綜述。
所述學(xué)術(shù)服務(wù)模塊11包括格式轉(zhuǎn)換模塊5,用于上傳用戶提供的初稿至所述信息收集與存儲(chǔ)模塊9,抽取初稿各單元內(nèi)容,調(diào)用用戶選定的格式模板對(duì)抽取的單元內(nèi)容作格式轉(zhuǎn)換;自動(dòng)摘要服務(wù)模塊6,用于上傳用戶提供的科技文獻(xiàn)至所述信息收集與存儲(chǔ)模塊 9,確定上傳的科技文獻(xiàn)的文件格式,調(diào)用文件格式對(duì)應(yīng)的文獻(xiàn)抽取工具抽取其全文信息, 依據(jù)全文信息生成摘要;投稿推薦服務(wù)模塊7,用于上傳用戶的投稿至所述信息收集與存儲(chǔ)模塊9,從所述知識(shí)網(wǎng)絡(luò)獲取會(huì)議信息,對(duì)所述會(huì)議信息進(jìn)行語(yǔ)義分詞,依據(jù)分詞結(jié)果對(duì)會(huì)議創(chuàng)建索引從而建立會(huì)議索引文件,挖掘所述投稿的主題信息,以主題信息作為索引詞, 所述會(huì)議索引文件作為查詢?cè)床樵兂鐾扑]會(huì)議反饋給用戶。
所述自動(dòng)摘要服務(wù)模塊6包括文獻(xiàn)上傳模塊6C,用于上傳用戶提供的科技文獻(xiàn)至所述信息收集與存儲(chǔ)模塊9 ;科技文獻(xiàn)內(nèi)容抽取模塊6A,用于確定上傳的科技文獻(xiàn)的文件格式,調(diào)用文件格式對(duì)應(yīng)的文獻(xiàn)抽取工具抽取其全文信息;自動(dòng)摘要生成模塊6B,用于對(duì)所述全文信息中的句子作權(quán)重計(jì)算,選擇權(quán)重較大的部分句子作為文摘句;所述權(quán)重計(jì)算遵循以下準(zhǔn)則含有提示詞串的句子權(quán)重>段首尾位置的句子權(quán)重>包含關(guān)鍵詞的句子> 與其他句子存在相關(guān)性的句子。
所述社區(qū)服務(wù)模塊8包括訂閱模塊8A,用于接收用戶訂閱作者、會(huì)議和其他用戶信息,監(jiān)聽(tīng)所述知識(shí)網(wǎng)絡(luò)的更新?tīng)顟B(tài),若被訂閱的作者、會(huì)議和其他用戶信息有更新,則將最新信息發(fā)送給訂閱用戶;發(fā)布模塊8B,用于用戶發(fā)布信息至所述信息收集與存儲(chǔ)模塊9。
通過(guò)本發(fā)明提供的服務(wù)平臺(tái),能夠很好的為科研工作者提供各種科研所需的服務(wù),而不僅限于傳統(tǒng)的學(xué)術(shù)文獻(xiàn)的搜索,還提供會(huì)議搜索、作者搜索、綜述搜索來(lái)豐富傳統(tǒng)的搜索功能。同時(shí),通過(guò)提供各種服務(wù)用戶可以方便的進(jìn)行論文格式轉(zhuǎn)換、投稿推薦和科技文獻(xiàn)的自動(dòng)摘要服務(wù)。本系統(tǒng)的另一個(gè)特色是還提供了社區(qū)功能,通過(guò)該社區(qū),科研工作者可以更緊的跟蹤到科研前沿,獲得更有效的交流溝通渠道。從而相較與傳統(tǒng)的學(xué)術(shù)搜索,具有更優(yōu)秀的用戶體驗(yàn)。具體而言,本發(fā)明具有的主要特點(diǎn)為
(1)多源異構(gòu)文獻(xiàn)數(shù)據(jù)源的整合
本系統(tǒng)的文獻(xiàn)檢索數(shù)據(jù)源于傳統(tǒng)的文獻(xiàn)檢索數(shù)據(jù)源不同。傳統(tǒng)的一般為人工錄入,而本系統(tǒng)的數(shù)據(jù)源來(lái)自網(wǎng)絡(luò),主要包括Dblp、CiteSeer, GoogleScholar等站點(diǎn),同時(shí)也會(huì)有Deep Web如微軟Academic上的數(shù)據(jù),還有來(lái)自各個(gè)作者的個(gè)人主頁(yè)的文獻(xiàn)信息。對(duì)于這些不同數(shù)據(jù)源上的數(shù)據(jù),如何進(jìn)行數(shù)據(jù)整合是一個(gè)問(wèn)題。不同的數(shù)據(jù)源的數(shù)據(jù)格式是不同的、數(shù)據(jù)會(huì)有重疊和交叉,需要進(jìn)行數(shù)據(jù)識(shí)別并融合、去重。本系統(tǒng)在數(shù)據(jù)采集層模塊中加入了多源異構(gòu)數(shù)據(jù)源的整合,使得這些網(wǎng)絡(luò)資源都能夠充分被利用。
(2)學(xué)術(shù)數(shù)據(jù)的動(dòng)態(tài)索引和語(yǔ)義知識(shí)網(wǎng)絡(luò)關(guān)聯(lián)存儲(chǔ)
本系統(tǒng)的數(shù)據(jù)存儲(chǔ)模式有別與一般的學(xué)術(shù)搜索系統(tǒng)。具體的,由于我們的學(xué)術(shù)系統(tǒng)的數(shù)據(jù)是從網(wǎng)絡(luò)爬取的,其更新頻率相比與傳統(tǒng)的人工錄入的數(shù)據(jù)集會(huì)更高。針對(duì)這種情況,系統(tǒng)實(shí)現(xiàn)了動(dòng)態(tài)索引的機(jī)制以應(yīng)對(duì)頻繁的數(shù)據(jù)更新。同時(shí),系統(tǒng)的數(shù)據(jù)關(guān)聯(lián)性很高, 存在作者-作者的合作關(guān)聯(lián)、作者-文獻(xiàn)的著作關(guān)聯(lián)、文獻(xiàn)-會(huì)議的發(fā)表關(guān)聯(lián)、文獻(xiàn)與文獻(xiàn)的引用關(guān)聯(lián)。系統(tǒng)對(duì)這些數(shù)據(jù)進(jìn)行了 RDF語(yǔ)義關(guān)聯(lián)存儲(chǔ),形成一個(gè)統(tǒng)一的知識(shí)網(wǎng)絡(luò),以提高數(shù)據(jù)的訪問(wèn)效率。
(3)基于主題相關(guān)的會(huì)議搜索與會(huì)議投稿推薦
會(huì)議搜索是本系統(tǒng)的一個(gè)應(yīng)用特色。在本系統(tǒng)中,數(shù)據(jù)收集與整合存儲(chǔ)模塊會(huì)負(fù)責(zé)定期從網(wǎng)絡(luò)獲取會(huì)議信息加入到數(shù)據(jù)庫(kù)。用戶可以通過(guò)領(lǐng)域關(guān)鍵字對(duì)特定領(lǐng)域的會(huì)議進(jìn)行搜索。具體的,過(guò)采用對(duì)搜索的語(yǔ)義擴(kuò)展,和會(huì)議主題的發(fā)現(xiàn)對(duì)用戶輸入的查詢給基于主題的匹配,從而給出相匹配的會(huì)議。本系統(tǒng)通過(guò)對(duì)用戶提交論文的文本主題分析,獲取用戶論文的主題,從而為用戶論文的進(jìn)行投稿推薦。
(4)更為精確的作者信息展示
相比與其他學(xué)術(shù)搜索中的作者搜索,本系統(tǒng)采用了更為完備的作者的重名消除算法,獲取更為精確的作者與發(fā)表文獻(xiàn)的對(duì)應(yīng)關(guān)系,從而獲取更好的排名。
(5)自動(dòng)實(shí)時(shí)生成給定領(lǐng)域的綜述
傳統(tǒng)的領(lǐng)域綜述都是領(lǐng)域?qū)<揖帉懀嬖陬I(lǐng)域死角和綜述過(guò)時(shí)的問(wèn)題。本系統(tǒng)通過(guò)對(duì)系統(tǒng)中的科技文獻(xiàn)按領(lǐng)域自動(dòng)分類,對(duì)用戶輸入的查詢領(lǐng)域分析,給出于用戶輸入領(lǐng)域相關(guān)的綜述信息。由于數(shù)據(jù)收集和存儲(chǔ)模塊會(huì)不斷從網(wǎng)絡(luò)中獲取最新文獻(xiàn),因此,系統(tǒng)生成的綜述能夠保證實(shí)效性。
(6)滿足各種會(huì)議格式要求的論文格式轉(zhuǎn)換
本系統(tǒng)收集了各種會(huì)議格式的模板,通過(guò)模式識(shí)別和匹配的技術(shù)對(duì)用戶的論文進(jìn)行轉(zhuǎn)換,以適應(yīng)用戶的格式需求,對(duì)于系統(tǒng)中沒(méi)有的會(huì)議格式模塊,系統(tǒng)允許用戶主動(dòng)上傳會(huì)議格式模塊并轉(zhuǎn)化用戶論文格式。
(7)基于學(xué)術(shù)交流的社區(qū)服務(wù)
本系統(tǒng)通過(guò)融入訂閱發(fā)布技術(shù),支持對(duì)學(xué)術(shù)資源的訂閱發(fā)表,從而使得用戶能夠在學(xué)術(shù)事件發(fā)生的第一時(shí)間獲取自己感興趣的學(xué)術(shù)信息。
圖1為基于海量知識(shí)網(wǎng)絡(luò)的學(xué)術(shù)社區(qū)系統(tǒng)模塊結(jié)構(gòu)示意圖
圖2為數(shù)據(jù)收集和存儲(chǔ)模塊結(jié)構(gòu)示意圖3為文獻(xiàn)檢索模塊結(jié)構(gòu)示意圖4為會(huì)議檢索模塊結(jié)構(gòu)示意圖5為作者檢索模塊結(jié)構(gòu)示意圖6為領(lǐng)域綜述模塊結(jié)構(gòu)示意圖7為格式轉(zhuǎn)換模塊結(jié)構(gòu)示意圖8為自動(dòng)摘要模塊結(jié)構(gòu)示意圖9為投稿推薦模塊結(jié)構(gòu)示意圖10為社區(qū)模塊結(jié)構(gòu)示意圖11為本發(fā)明系統(tǒng)工作流程圖。
具體實(shí)施方式
本發(fā)明整合了各種學(xué)術(shù)搜索服務(wù)與多類個(gè)性化服務(wù),其中檢索涵蓋了學(xué)術(shù)論文檢索、會(huì)議與期刊檢索、學(xué)術(shù)作者的檢索、領(lǐng)域綜述搜索,個(gè)性化服務(wù)包含了投稿推薦服務(wù)、自動(dòng)摘要服務(wù)、論文格式轉(zhuǎn)換服務(wù)和訂閱發(fā)布服務(wù)。能為科研工作者提供更多的幫助。下面結(jié)合附圖對(duì)本發(fā)明給出更詳細(xì)的說(shuō)明。
如圖1所示,基于海量知識(shí)網(wǎng)絡(luò)的學(xué)術(shù)社區(qū)系統(tǒng)包含信息收集與存儲(chǔ)模塊9、學(xué)術(shù)檢索模塊10、學(xué)術(shù)服務(wù)模塊11和社區(qū)模塊8。信息收集與存儲(chǔ)模塊9用于收集網(wǎng)絡(luò)和用戶提供的數(shù)據(jù)形成知識(shí)網(wǎng)絡(luò),學(xué)術(shù)檢索模塊10用于在知識(shí)網(wǎng)絡(luò)中對(duì)會(huì)議、文獻(xiàn)、作者和領(lǐng)域綜述的檢索,學(xué)術(shù)服務(wù)模塊11用于服務(wù)用戶的個(gè)性需求,例如論文格式轉(zhuǎn)換、摘要自動(dòng)提取、投稿推薦等等,社區(qū)模塊8用于用戶之間以及用戶與知識(shí)網(wǎng)絡(luò)之間的信息交互。
信息收集與存儲(chǔ)模塊9是系統(tǒng)的最重要的模塊之一。它是上層服務(wù)的基礎(chǔ),其中的數(shù)據(jù)量的完備性和查詢的高效性直接決定了上層服務(wù)的質(zhì)量。如圖2所示,信息收集與存儲(chǔ)模塊9包括公共數(shù)據(jù)收集模塊9. 1,η個(gè)私有數(shù)據(jù)收集模塊9. 2. 1.....9. 2. η,知識(shí)網(wǎng)絡(luò)組建模塊9. 3。為了方便說(shuō)明,下文將私有數(shù)據(jù)模塊統(tǒng)稱9. 2。
公共數(shù)據(jù)模塊9. 1主要是收集來(lái)自互聯(lián)網(wǎng)上的學(xué)術(shù)信息,包括會(huì)議信息爬取模塊 9. 1Α、科技文獻(xiàn)爬取模塊9. IB和作者信息爬取模塊9. 1C。會(huì)議信息爬取模塊9. IA設(shè)置網(wǎng)絡(luò)爬蟲(chóng),定時(shí)的自動(dòng)從網(wǎng)上識(shí)別和下載包含會(huì)議相關(guān)的主頁(yè)、列表等會(huì)議信息的網(wǎng)頁(yè);科技文獻(xiàn)爬取模塊9. IB 一方面定期從dblp、citeseer, googlescholar等文獻(xiàn)信息源爬取科技文獻(xiàn)信息,另一方面從互聯(lián)網(wǎng)上爬取,主要是爬取科技工作者的個(gè)人主頁(yè),同時(shí)也會(huì)從微軟 Academic上進(jìn)行De印Web爬取,收集文獻(xiàn)列表頁(yè)面;留待信息抽取和整合模塊9. ID從中抽取文獻(xiàn)信息。作者信息爬取模塊9. IC主要是從網(wǎng)絡(luò)中爬取個(gè)人主頁(yè)信息。信息抽取和整合模塊9. ID從公共數(shù)據(jù)收集模塊9. 1爬取的原始數(shù)據(jù)中抽取出有用信息存儲(chǔ)在公共數(shù)據(jù)集中。其中涉及到對(duì)HTML的非結(jié)構(gòu)化數(shù)據(jù)和列表等結(jié)構(gòu)化數(shù)據(jù)的抽取,也包括XML中的結(jié)構(gòu)化數(shù)據(jù)抽取。對(duì)于文獻(xiàn),獲取其文獻(xiàn)標(biāo)題、作者、發(fā)表的會(huì)議、引用情況等;對(duì)于會(huì)議,獲取其會(huì)議名稱、簡(jiǎn)稱、召開(kāi)時(shí)間、會(huì)議主題信息、征文截止時(shí)間、召開(kāi)地點(diǎn)等信息;對(duì)作者則主要是獲取作者的工作單位、e-mail、發(fā)表的論文情況、研究領(lǐng)域等信息。信息抽取和整合模塊9. ID還對(duì)數(shù)據(jù)進(jìn)行去除冗余、錯(cuò)誤數(shù)據(jù)剔除及信息整合等操作。
私有數(shù)據(jù)模塊9. 2主要是用來(lái)接收用戶的數(shù)據(jù),用戶的數(shù)據(jù)包括用戶私有信息和用戶分享的學(xué)術(shù)信息(例如用戶分享的文獻(xiàn)信息),建立了用戶私人數(shù)據(jù)集。對(duì)于用戶分享的數(shù)據(jù),通過(guò)私人數(shù)據(jù)模塊9. 2與知識(shí)網(wǎng)絡(luò)組建模塊9. 3的連接,可將用戶分享的數(shù)據(jù)發(fā)送到知識(shí)網(wǎng)絡(luò)組建模塊9. 3作為共享數(shù)據(jù)的一個(gè)來(lái)源。同時(shí)在私人數(shù)據(jù)模塊9. 2中也建立了分析處理私人數(shù)據(jù)的信息抽取模塊9. 2. l.B... 9. 2. η. B,其對(duì)數(shù)據(jù)的抽取模塊同9. 1D。
知識(shí)網(wǎng)絡(luò)組建模塊9. 3對(duì)公共數(shù)據(jù)模塊9. 1收集的網(wǎng)絡(luò)學(xué)術(shù)信息和私有數(shù)據(jù)模塊9. 2中用戶提供的個(gè)人學(xué)術(shù)信息進(jìn)行整合形成知識(shí)網(wǎng)絡(luò)。知識(shí)網(wǎng)絡(luò)組建模塊9. 3通過(guò)對(duì)公共數(shù)據(jù)模塊9. 1中的分別存儲(chǔ)的作者、論文、會(huì)議期刊等分離的數(shù)據(jù)及用戶分享的數(shù)據(jù)進(jìn)行分析,挖掘出關(guān)聯(lián)關(guān)系,以此構(gòu)建統(tǒng)一的知識(shí)網(wǎng)絡(luò)。具體的從作者的發(fā)表文獻(xiàn)信息中可以挖掘出作者-論文關(guān)系、作者-合作者關(guān)系,從作者的機(jī)構(gòu)信息中可以挖掘出作者-機(jī)構(gòu)關(guān)系等,從論文信息中可以挖掘出論文-作者信息、論文-會(huì)議信息等,從會(huì)議信息中可以抽取出會(huì)議-論文信息。通過(guò)對(duì)這些信息的綜合和分析,可以建立起作者-文獻(xiàn)-會(huì)議期刊的關(guān)聯(lián)知識(shí)網(wǎng)絡(luò),并以RDF關(guān)聯(lián)數(shù)據(jù)的形式保存在數(shù)據(jù)庫(kù)中。并通過(guò)感知關(guān)聯(lián)數(shù)據(jù)的變化情況對(duì)這些關(guān)聯(lián)數(shù)據(jù)動(dòng)態(tài)建立索引,可以實(shí)現(xiàn)數(shù)據(jù)的動(dòng)態(tài)更新。
學(xué)術(shù)檢索模塊10用于在知識(shí)網(wǎng)絡(luò)中對(duì)會(huì)議、文獻(xiàn)、作者和領(lǐng)域綜述的檢索,包括文獻(xiàn)檢索模塊1、會(huì)議檢索模塊2、作者檢索模塊3和領(lǐng)域綜述模塊4。
文獻(xiàn)檢索模塊1如圖3所示,是對(duì)用戶輸入的文獻(xiàn)查詢給出響應(yīng)。包括文獻(xiàn)信息獲取模塊1A、文獻(xiàn)索引模塊IB和結(jié)果排序模塊1C。其工作過(guò)程是文獻(xiàn)信息獲取模塊IA定期從知識(shí)網(wǎng)絡(luò)中獲取文獻(xiàn)信息并更新索引信息。用戶文獻(xiàn)查詢到達(dá)時(shí),將用戶請(qǐng)求發(fā)送到文獻(xiàn)索引模塊1B,將找到的結(jié)果集返回到結(jié)果排序模塊1C,結(jié)果排序模塊IC對(duì)找到的結(jié)果集依文獻(xiàn)與查詢的相似度進(jìn)行相似度分析,依相似度高低排序并將結(jié)果返回給用戶。會(huì)議檢索模塊2、作者檢索模塊3和領(lǐng)域綜述模塊4的處理過(guò)程和文獻(xiàn)檢索模塊1的處理過(guò)程大體相同。所不同的是分析、處理和呈現(xiàn)的方法和原則不同。
會(huì)議檢索模塊2如圖4所示,是對(duì)用戶輸入的會(huì)議查詢給出響應(yīng),包括會(huì)議信息獲取模塊2A、會(huì)議索引模塊2B和結(jié)果排序模塊2C。會(huì)議信息獲取模塊2A定期從知識(shí)網(wǎng)絡(luò)獲得各種會(huì)議的相關(guān)信息,包括會(huì)議的名稱、簡(jiǎn)稱、召開(kāi)時(shí)間和地點(diǎn)、會(huì)議主題信息、征文截止時(shí)間等信息,存儲(chǔ)于會(huì)議信息集中,以便于會(huì)議索引模塊2B創(chuàng)建索引。會(huì)議索引模塊2B通過(guò)使用分詞器調(diào)用概念網(wǎng)絡(luò)詞典對(duì)會(huì)議主題信息進(jìn)行語(yǔ)義分詞,并依據(jù)分詞結(jié)果對(duì)會(huì)議創(chuàng)建索引。當(dāng)用戶通過(guò)查詢接口查詢會(huì)議時(shí),查詢會(huì)被發(fā)送到會(huì)議索引模塊,查詢返回的結(jié)果則被結(jié)果排序模塊2C接收進(jìn)行排序,排序原則是將最近召開(kāi)的會(huì)議優(yōu)先,在同等時(shí)間段的會(huì)議則按照其重要度越高的排的越前。時(shí)間段可預(yù)先確定,例如取一周或五天。由于隨著時(shí)間的推移,不斷的產(chǎn)生新的會(huì)議,排名也會(huì)隨時(shí)間的推移而改變。因此,會(huì)議檢索模塊的整個(gè)流程是動(dòng)態(tài)變化的過(guò)程。這就需要會(huì)議信息爬取模塊9. IA頻繁的周期性的從網(wǎng)絡(luò)中獲取新的會(huì)議主頁(yè)信息,同時(shí)要求會(huì)議索引模塊2B能周期性的對(duì)增加的結(jié)果建立索引。這個(gè)周期可以取與排序的時(shí)間間隔相同,如一個(gè)星期或五天。
作者檢索模塊3如圖5所示。該模塊根據(jù)用戶提交的作者信息,查找與此作者相關(guān)的其他信息。如通過(guò)作者姓名查找作者相關(guān)信息。這些相關(guān)信息包括最重要的作者的影響因子如H-index等。其工作流程如下。首先從知識(shí)網(wǎng)絡(luò)中獲取作者主頁(yè)信息,一般的作者主頁(yè)信息里會(huì)涵蓋姓名、工作單位、郵箱、作者的研究興趣以及發(fā)表的文章等信息。另外需從知識(shí)網(wǎng)絡(luò)中獲取作者相關(guān)文獻(xiàn)的相關(guān)信息,包括文獻(xiàn)標(biāo)題、合作者、發(fā)表的會(huì)議、一般還會(huì)有郵箱信息和引用被引用信息。將這些信息傳遞給作者排歧模塊3B。作者排歧模塊 3B根據(jù)作者的研究領(lǐng)域與發(fā)表的文章的主題領(lǐng)域相關(guān)性、作者與合作者的合作關(guān)系、作者的工作單位、電子郵箱等信息識(shí)別并區(qū)分出同名的作者及其對(duì)應(yīng)的文章。在作者查詢中,除了數(shù)據(jù)量的完整性會(huì)影響作者影響因子的計(jì)算,關(guān)于同名作者的區(qū)分是很關(guān)鍵的問(wèn)題。傳統(tǒng)的作者影響因子的計(jì)算很少考慮重名問(wèn)題,有也僅僅根據(jù)作者與合作者的關(guān)聯(lián)圖的子圖劃分法區(qū)分重名,但是這種方式精度會(huì)很低。本發(fā)明在作者排歧模塊3B中充分考慮了作者的各方面的信息,其結(jié)果會(huì)更精確。經(jīng)過(guò)作者排歧模塊3B處理后的作者信息被分發(fā)到引用分析模塊3C,在引用分析模塊3C中,對(duì)經(jīng)重名區(qū)分后的作者進(jìn)行引用分析,得到各個(gè)同名作者的影響因子。最后將這些作者信息結(jié)果保存在作者信息結(jié)果集中,以供用戶查詢。
如圖6所示的是領(lǐng)域綜述生成模塊。該模塊根據(jù)用戶提交的領(lǐng)域查詢,給用戶提供領(lǐng)域的綜述信息。這些綜述信息是從該領(lǐng)域相關(guān)的文獻(xiàn)中總結(jié)出來(lái)的??萍嘉墨I(xiàn)內(nèi)容抽取模塊4A從數(shù)據(jù)收集與存儲(chǔ)模塊9中獲取文獻(xiàn)信息,并從中調(diào)用抽取文獻(xiàn)內(nèi)容。文獻(xiàn)信息具體包括文獻(xiàn)的標(biāo)題、作者、發(fā)表時(shí)間、發(fā)表會(huì)議及全文信息,其中全文信息的格式可能有多種,如Pdf、word等。抽取文獻(xiàn)內(nèi)容具體是指對(duì)這些pdf或word格式的文獻(xiàn)抽取其內(nèi)容,需抽取的內(nèi)容主要包括摘要(Abstract)信息、簡(jiǎn)介(Introduction)信息、相關(guān)工作 (Relate work)信息和參考文獻(xiàn)(Reference)信息??萍嘉墨I(xiàn)分類模塊4B會(huì)依據(jù)文獻(xiàn)標(biāo)題對(duì)收集的文獻(xiàn)進(jìn)行領(lǐng)域分類,將每篇文獻(xiàn)標(biāo)以類別信息。文獻(xiàn)重要性分析模塊4D則是采用多種文獻(xiàn)重要性評(píng)分方式加權(quán)的方式對(duì)文獻(xiàn)進(jìn)行重要性評(píng)分。其中包括使用基于I^geRank 對(duì)文獻(xiàn)的引用和被引進(jìn)行迭代計(jì)算分析文獻(xiàn)重要性、關(guān)聯(lián)分析作者影響因子的文獻(xiàn)重要性、考慮文獻(xiàn)所投會(huì)議影響因子的文獻(xiàn)重要性的加權(quán)得到最終文獻(xiàn)的綜合影響因子,以此來(lái)對(duì)文獻(xiàn)重要性打分,并將其分值保存。用戶查詢擴(kuò)展模塊4C接收用戶查詢請(qǐng)求,確定其所屬領(lǐng)域。領(lǐng)域綜述生成模塊4E獲取經(jīng)過(guò)用戶查詢擴(kuò)展模塊4C擴(kuò)展后的用戶查詢,從科技文獻(xiàn)分類模塊4B中提取與查詢對(duì)應(yīng)的領(lǐng)域相同的所有文獻(xiàn),再對(duì)提取的文獻(xiàn)按照綜合影響因子高低排序。領(lǐng)域綜述生成模塊4E對(duì)選取排序靠前的部分文獻(xiàn)進(jìn)行語(yǔ)用分析、詞匯鏈分析和潛在語(yǔ)義分析等自然語(yǔ)言處理的方法進(jìn)行分析,完成自動(dòng)綜述生成。
學(xué)術(shù)服務(wù)模塊11相比與學(xué)術(shù)搜索模塊提供的是更私人化的服務(wù),它需要用戶先登錄才能獲得服務(wù)。在格式轉(zhuǎn)換模塊5,用戶先將論文初稿發(fā)送到私有數(shù)據(jù)模塊9. 2中, 接著選擇要轉(zhuǎn)換生成的格式,格式轉(zhuǎn)換模塊5根據(jù)用戶選擇的格式將上傳的數(shù)據(jù)進(jìn)行格式化,最終返回給用戶接口。自動(dòng)摘要模塊6對(duì)用戶上傳到用戶自己的私人數(shù)據(jù)空間9. 2中的科技文獻(xiàn)進(jìn)行自動(dòng)摘要分析,將分析的結(jié)果返回給用戶接口。投稿推薦模塊7與格式轉(zhuǎn)換模塊5和自動(dòng)摘要模塊6類似,需要用戶上傳論文到私有數(shù)據(jù)集9. 2,通過(guò)投稿推薦模塊 7的分析,最終給出適合投稿的會(huì)議列表。
格式轉(zhuǎn)換服務(wù)模塊5如圖7所示。初稿上傳模塊5D處理用戶上傳的論文初稿,將其保存與私有數(shù)據(jù)模塊9. 2中,然后內(nèi)容抽取模塊5A進(jìn)行初稿各單元內(nèi)容的抽取,主要包括摘要(Abstract)信息、簡(jiǎn)介(Introduction)信息、相關(guān)工作(Relate work)信息和參考文獻(xiàn)(Reference)信息。接著正文轉(zhuǎn)換器5B和引用轉(zhuǎn)換器5C分別根據(jù)5A轉(zhuǎn)換的正文和引用調(diào)用用戶所選的格式模板如ACM的模板進(jìn)行格式轉(zhuǎn)換。轉(zhuǎn)換完成后將最終生成的按ACM 格式排版的論文給用戶。
如圖8所示的是自動(dòng)摘要服務(wù)模塊。該模塊工作相對(duì)簡(jiǎn)單,文獻(xiàn)上傳模塊6C將用戶上傳科技文獻(xiàn)到私有數(shù)據(jù)模塊9. 2,科技文獻(xiàn)內(nèi)容抽取模塊6A獲取該上傳的文獻(xiàn),通過(guò)對(duì)該文獻(xiàn)的格式分析獲取上傳的文獻(xiàn)格式,再調(diào)用對(duì)應(yīng)格式的文獻(xiàn)抽取工具進(jìn)行文獻(xiàn)的內(nèi)容抽取。這里要抽取的內(nèi)容包括文獻(xiàn)的標(biāo)題、作者、單位及正文等信息。將抽取后的信息傳遞到自動(dòng)摘要生成模塊6B進(jìn)行自動(dòng)摘要處理。自動(dòng)摘要模塊6B的處理過(guò)程如下首先對(duì)文獻(xiàn)進(jìn)行句子重要性打分,句子權(quán)重由兩方面的因素決定(1)句子本身所具備的特征和⑵句子的具體內(nèi)容。權(quán)重計(jì)算遵循以下原則(重要性由高到低)
a)、包括提示詞串的句子十分重要,如包含“In this paper”、‘1ediscuss”等字串的句子往往對(duì)文章的主題內(nèi)容進(jìn)行了概述;
b)、特殊位置的句子往往比較重要,如段首、段末的句子往往概括了文章或一個(gè)段落的中心內(nèi)容;
C)、句子中包含的關(guān)鍵詞;
d)、句子與其他句子的相關(guān)性,即該句子與其他句子的是否相關(guān),與之相關(guān)的句子越多,該句子的概括能力越強(qiáng),越有可能是中心句。
接著,文摘句的選擇是根據(jù)句子的權(quán)重大小進(jìn)行的。首先將句子按照其權(quán)重大小排序,然后選擇權(quán)重值最大的一些句子作為文摘句,并使這些文摘句的長(zhǎng)度之和不大于而且最接近于期望的文摘長(zhǎng)度。
投稿推薦服務(wù)模塊7如圖9所示。該模塊包含兩個(gè)方面的工作,一方面,需要從公共數(shù)據(jù)模塊9. 1中獲取會(huì)議信息集以用來(lái)建立投稿推薦的候選數(shù)據(jù)集;另一方面,模塊還需要用戶上傳自己的文章到用戶的私有數(shù)據(jù)集中,通過(guò)對(duì)上傳的文章主題分析推薦其投稿會(huì)議。
具體的,在投稿推薦的候選數(shù)據(jù)集的建立中,索引創(chuàng)建器7A首先從公共數(shù)據(jù)模塊 9. 1中抽取會(huì)議相關(guān)的信息,包括會(huì)議的名稱、會(huì)議的召開(kāi)時(shí)間、會(huì)議的投稿截止時(shí)間、會(huì)議的主題,將這些信息放入到會(huì)議信息集中。接著,索引創(chuàng)建器7A會(huì)對(duì)會(huì)議信息集中各會(huì)議的主題信息進(jìn)行語(yǔ)義分詞,并依據(jù)分詞結(jié)果對(duì)會(huì)議創(chuàng)建索引。索引創(chuàng)建中,首先過(guò)濾掉會(huì)議召開(kāi)時(shí)間早于當(dāng)前時(shí)間的會(huì)議,接著,過(guò)濾掉會(huì)議投稿截止時(shí)間早于當(dāng)前時(shí)間的會(huì)議。因?yàn)檫@些會(huì)議對(duì)投稿推薦沒(méi)有任何意義。對(duì)過(guò)濾后的數(shù)據(jù)集創(chuàng)建索弓I得到會(huì)議索引文件。
在用戶上傳文章的主題分析中,首先用戶通過(guò)投稿上傳模塊7E上傳論文到私有數(shù)據(jù)模塊9. 2。接著文本抽取模塊7C對(duì)上傳的論文進(jìn)行文本抽取,識(shí)別并抽取出其中的標(biāo)題及各個(gè)章節(jié)。將抽取的文章各個(gè)模塊的內(nèi)容傳給主題挖掘模塊7D,主題挖掘模塊7D對(duì)該文章內(nèi)容進(jìn)行主題探索與挖掘,得到文章的主題信息。
最后,分析檢索器7B以主題信息作為查詢,會(huì)議索引文件作為查詢?cè)?,分析查詢出查詢相關(guān)的會(huì)議作為推薦會(huì)議。在此,需要對(duì)查詢結(jié)果排序。排序的原則是主題相關(guān)性、 會(huì)議的重要性及會(huì)議的投稿截止時(shí)間三個(gè)因素。主題相關(guān)性越高、重要性越大、截稿時(shí)間越近排在越靠前的位置。
與會(huì)議搜索模塊2相同,投稿推薦模塊7也涉及到索引更新的問(wèn)題。其解決思想與會(huì)議搜索模塊2相同。
社區(qū)服務(wù)模塊8與學(xué)術(shù)服務(wù)模塊11類似,需要用戶登錄才能使用。在該模塊中, 當(dāng)用戶關(guān)注某個(gè)會(huì)議、作者或其他用戶后,在這個(gè)會(huì)議或作者或其他用戶的數(shù)據(jù)有更新后會(huì)第一時(shí)間將該更新信息返回給用戶。
社區(qū)模塊如圖10所示。該模塊也包含兩部分的工作,一方面的工作是處理訂閱信息,另一方面的工作是處理發(fā)布信息。具體的在該模塊有一個(gè)訂閱模塊8A,一個(gè)發(fā)布模塊 8B。在訂閱模塊8A里,用戶可以通過(guò)訂閱系統(tǒng)中的作者信息、會(huì)議信息等,也可以訂閱其他用戶發(fā)布的信息。針對(duì)發(fā)布信息的是發(fā)布模塊8B,該模塊用戶可以自己發(fā)布向?qū)ν夤_(kāi)的信息,如自己已發(fā)表的文章或看過(guò)的值得推薦的文章,也可以發(fā)布自己對(duì)某篇文章或某個(gè)會(huì)議的評(píng)論等信息。對(duì)于發(fā)布信息,用戶是通過(guò)發(fā)布模塊8B與自己的私有數(shù)據(jù)模塊9. 2 交互,將用戶提供的信息發(fā)布到訂閱了該用戶的用戶的訂閱模塊8A,以供其他訂閱過(guò)該用戶的用戶能夠看到自己發(fā)布的信息。對(duì)于訂閱信息,用戶通過(guò)訂閱模塊8A選擇要訂閱的信息。訂閱信息包括其他用戶,也可以是某個(gè)會(huì)議、某個(gè)作者。對(duì)于訂閱的其他用戶,當(dāng)其他用戶有發(fā)布信息時(shí)就可收到該用戶發(fā)布的消息,對(duì)于訂閱的會(huì)議和作者,則是在系統(tǒng)的數(shù)據(jù)更新時(shí),訂閱模塊8A監(jiān)聽(tīng)公共數(shù)據(jù)模塊9. 1的更新?tīng)顟B(tài),通過(guò)判斷是否有會(huì)議或作者的信息有更新,如某作者又發(fā)表了一篇文章,若有則發(fā)布更新消息給用戶,以供用戶了解最新更新動(dòng)態(tài)。
本發(fā)明的系統(tǒng)工作流程如圖11所示,主要分成三個(gè)部分來(lái)對(duì)采用本發(fā)明實(shí)現(xiàn)的學(xué)術(shù)搜索服務(wù)系統(tǒng)的工作流程做進(jìn)一步具體的描述。
(1)數(shù)據(jù)采集與整合層的工作流程在數(shù)據(jù)采集和整合層,系統(tǒng)主要從Web上收集科技數(shù)據(jù),包括科技文獻(xiàn)信息、作者信息、會(huì)議信息;另外還包括概念實(shí)體的信息,主要包括 Wikipedia的概念實(shí)體信息。傳統(tǒng)的科技文獻(xiàn)搜索系統(tǒng)主要是通過(guò)后臺(tái)已有的數(shù)據(jù)對(duì)外提供論文查詢下載、作者信息獲取,這種系統(tǒng)沒(méi)法充分利用網(wǎng)絡(luò)上的豐富資源。我們的系統(tǒng)則能充分利用網(wǎng)絡(luò)上的不斷更新的數(shù)據(jù)資源。在我們的數(shù)據(jù)收集與存儲(chǔ)模塊我們?cè)O(shè)計(jì)了專門針對(duì)各種科技資源的網(wǎng)絡(luò)爬蟲(chóng),在會(huì)議信息爬取模塊中我們?cè)O(shè)計(jì)了科技會(huì)議爬蟲(chóng);在科技文獻(xiàn)爬取模塊我們?cè)O(shè)計(jì)了科技文獻(xiàn)爬蟲(chóng);在作者信息爬取模塊我們開(kāi)發(fā)了作者信息爬蟲(chóng), 這些爬蟲(chóng)會(huì)定期從網(wǎng)絡(luò)上自動(dòng)爬取數(shù)據(jù),而非人工的錄入,保證了數(shù)據(jù)的及時(shí)更新,減少了人工維護(hù)的成本。具體的,針對(duì)網(wǎng)絡(luò)上的會(huì)議信息、作者信息大多是半結(jié)構(gòu)化/非結(jié)構(gòu)化數(shù)據(jù),我們采用了一種半結(jié)構(gòu)化/非結(jié)構(gòu)化數(shù)據(jù)組織結(jié)構(gòu)與存儲(chǔ)架構(gòu),以應(yīng)對(duì)網(wǎng)絡(luò)數(shù)據(jù)的結(jié)構(gòu)形式。針對(duì)網(wǎng)絡(luò)上大量的有用信息如文獻(xiàn)信息都保存在網(wǎng)絡(luò)數(shù)據(jù)庫(kù)中的特點(diǎn),在我們的科技文獻(xiàn)爬取模塊中,對(duì)文獻(xiàn)爬蟲(chóng)制定了針對(duì)Hidden Web資源的查詢接口。在數(shù)據(jù)整合方面,主要涉及到異構(gòu)Web元數(shù)據(jù)的整合。針對(duì)數(shù)據(jù)采集層采集的科技文獻(xiàn)信息的多樣性(如從Web爬取和從Dblp中抽取),數(shù)據(jù)采集與整合層將Web元數(shù)據(jù)進(jìn)行了整合。具體的通過(guò)信息抽取技術(shù),從異構(gòu)的數(shù)據(jù)源上抽取出相關(guān)的信息,通過(guò)模式識(shí)別和匹配的方法將抽取的信息融合。同時(shí)從多個(gè)數(shù)據(jù)元上獲取的數(shù)據(jù)存在數(shù)據(jù)重復(fù)性和數(shù)據(jù)不完整性,有些甚至存在數(shù)據(jù)錯(cuò)誤,在數(shù)據(jù)融合階段,會(huì)對(duì)重復(fù)數(shù)據(jù)進(jìn)行數(shù)據(jù)去重,對(duì)不完整的數(shù)據(jù)和錯(cuò)誤數(shù)據(jù)通過(guò)多個(gè)數(shù)據(jù)源的數(shù)據(jù)比對(duì)補(bǔ)全和糾錯(cuò)。
(2)知識(shí)網(wǎng)絡(luò)構(gòu)建層的工作流程這部分的工作主要是涉及到數(shù)據(jù)的關(guān)聯(lián)分析、 基于關(guān)聯(lián)的數(shù)據(jù)放置策略、針對(duì)數(shù)據(jù)更新頻繁的動(dòng)態(tài)索引的機(jī)制。由于學(xué)術(shù)資源的高關(guān)聯(lián)性,如論文-作者關(guān)聯(lián)、作者-合作者關(guān)聯(lián)、論文-會(huì)議關(guān)聯(lián),我們對(duì)論文、作者、會(huì)議進(jìn)行了關(guān)聯(lián)分析,具體的分析了這些論文作者關(guān)系、作者合作者關(guān)系、論文與發(fā)表會(huì)議關(guān)系,并使用RDF進(jìn)行關(guān)聯(lián)存儲(chǔ)。以此高效的數(shù)據(jù)放置策略支撐上層的數(shù)據(jù)處理。針對(duì)上層會(huì)議搜索及投稿推薦應(yīng)用的實(shí)時(shí)性強(qiáng)、更新頻繁的要求,數(shù)據(jù)管理層對(duì)會(huì)議索引引入了動(dòng)態(tài)索引的機(jī)制。
(3)數(shù)據(jù)分析處理層工作流程數(shù)據(jù)的處理層一方面聯(lián)系著用戶,一方面聯(lián)系著數(shù)據(jù)。是用戶與數(shù)據(jù)交互的接口。在這個(gè)層次里主要完成的功能有用戶的查詢擴(kuò)展、各種查詢的排序模型、各種形式的數(shù)據(jù)內(nèi)容提取、主題挖掘、訂閱/發(fā)布等。其流程是針對(duì)用戶的某些查詢,如綜述查詢、基于關(guān)鍵字的論文查詢,給出查詢擴(kuò)展,擴(kuò)展出與之相關(guān)聯(lián)的概念,提高查詢的查全率。針對(duì)用戶的各種查詢,按照各種查詢的各自的特點(diǎn)給出查詢查詢的排序算法,對(duì)結(jié)果集進(jìn)行排序。針對(duì)投稿推薦,數(shù)據(jù)處理層分析用戶提交文章的主題,給出主題相關(guān)的推薦。
權(quán)利要求
1.一種基于海量知識(shí)網(wǎng)絡(luò)的學(xué)術(shù)社區(qū)系統(tǒng),包括信息收集與存儲(chǔ)模塊,用于收集網(wǎng)絡(luò)和用戶提供的信息形成知識(shí)網(wǎng)絡(luò); 學(xué)術(shù)檢索模塊,用于在所述知識(shí)網(wǎng)絡(luò)中對(duì)會(huì)議、文獻(xiàn)、作者和領(lǐng)域綜述進(jìn)行檢索; 學(xué)術(shù)服務(wù)模塊,用于利用所述知識(shí)網(wǎng)絡(luò)服務(wù)用戶的個(gè)性需求; 社區(qū)模塊,用于用戶之間以及用戶與知識(shí)網(wǎng)絡(luò)之間的信息交互。
2.根據(jù)權(quán)利要求1所述的學(xué)術(shù)社區(qū)系統(tǒng),其特征在于,所述信息收集與存儲(chǔ)模塊包括公共數(shù)據(jù)收集模塊,用于收集互聯(lián)網(wǎng)上的學(xué)術(shù)信息,所述學(xué)術(shù)信息包括會(huì)議、科技文獻(xiàn)和作者信息;多個(gè)私有數(shù)據(jù)收集模塊,用于收集各對(duì)應(yīng)用戶的私有信息和用戶分享的學(xué)術(shù)信息; 知識(shí)網(wǎng)絡(luò)組建模塊,用于對(duì)所述公共數(shù)據(jù)模塊收集的互聯(lián)網(wǎng)學(xué)術(shù)信息和所述私有數(shù)據(jù)模塊收集的用戶分享的學(xué)術(shù)信息進(jìn)行整體分析,挖掘出關(guān)聯(lián)關(guān)系,形成知識(shí)網(wǎng)絡(luò)。
3.根據(jù)權(quán)利要求2所述的學(xué)術(shù)社區(qū)系統(tǒng),其特征在于,所述公共數(shù)據(jù)模塊包括會(huì)議信息爬取模塊,用于定期的從網(wǎng)絡(luò)識(shí)別和下載包含會(huì)議信息的網(wǎng)頁(yè); 科技文獻(xiàn)爬取模塊,用于定期的從網(wǎng)絡(luò)識(shí)別和下載文獻(xiàn)列表網(wǎng)頁(yè);作者信息爬取模塊,用于定期從網(wǎng)絡(luò)中識(shí)別和下載個(gè)人主頁(yè); 信息抽取和整合模塊,用于從上述三爬取模塊爬取的網(wǎng)頁(yè)中抽取有用信息,并對(duì)所述有用信息進(jìn)行去除冗余、錯(cuò)誤數(shù)據(jù)剔除及信息整合。
4.根據(jù)權(quán)利要求1所述的學(xué)術(shù)社區(qū)系統(tǒng),其特征在于,所述學(xué)術(shù)檢索模塊包括文獻(xiàn)檢索模塊,用于定期從所述知識(shí)網(wǎng)絡(luò)中獲取文獻(xiàn)信息,接收用戶文獻(xiàn)查詢請(qǐng)求,將文獻(xiàn)查詢結(jié)果按照相似度的高低排序后反饋給用戶;會(huì)議檢索模塊,用于定期從所述知識(shí)網(wǎng)絡(luò)中獲取會(huì)議信息,接收用戶會(huì)議查詢請(qǐng)求,將會(huì)議查詢結(jié)果按照會(huì)議時(shí)間排序后反饋給用戶;作者檢索模塊,用于定期從所述知識(shí)網(wǎng)絡(luò)中獲取作者信息,接收用戶作者查詢請(qǐng)求,對(duì)作者查詢結(jié)果進(jìn)行同名作者區(qū)分后反饋給用戶;領(lǐng)域綜述模塊,用于定期從所述知識(shí)網(wǎng)絡(luò)中獲取文獻(xiàn)信息,從中抽取文獻(xiàn)內(nèi)容,依據(jù)文獻(xiàn)內(nèi)容對(duì)文獻(xiàn)分類,并計(jì)算文獻(xiàn)的綜合影響分子;接收用戶的領(lǐng)域查詢請(qǐng)求,確定其所述領(lǐng)域,將確定的領(lǐng)域內(nèi)的所有文獻(xiàn)按照綜合影響因子高低排序,選取排序靠前的部分文獻(xiàn)進(jìn)行自然語(yǔ)言分析處理生成綜述。
5.根據(jù)權(quán)利要求1所述的學(xué)術(shù)社區(qū)系統(tǒng),其特征在于,所述學(xué)術(shù)服務(wù)模塊包括格式轉(zhuǎn)換模塊,用于上傳用戶提供的初稿至所述信息收集與存儲(chǔ)模塊,抽取初稿各單元內(nèi)容,調(diào)用用戶選定的格式模板對(duì)抽取的各單元內(nèi)容作格式轉(zhuǎn)換;自動(dòng)摘要服務(wù)模塊,用于上傳用戶提供的科技文獻(xiàn)至所述信息收集與存儲(chǔ)模塊,確定上傳的科技文獻(xiàn)的文件格式,調(diào)用文件格式對(duì)應(yīng)的文獻(xiàn)抽取工具抽取其全文信息,依據(jù)全文信息生成摘要;投稿推薦服務(wù)模塊,用于上傳用戶的投稿至所述信息收集與存儲(chǔ)模塊,從所述知識(shí)網(wǎng)絡(luò)獲取會(huì)議信息,對(duì)所述會(huì)議信息進(jìn)行語(yǔ)義分詞,依據(jù)分詞結(jié)果對(duì)會(huì)議創(chuàng)建索引從而建立會(huì)議索引文件,挖掘所述投稿的主題信息,以主題信息作為索引詞,所述會(huì)議索引文件作為查詢?cè)床樵兂鐾扑]會(huì)議反饋給用戶。
6.根據(jù)權(quán)利要求5所述的的學(xué)術(shù)社區(qū)系統(tǒng),其特征在于,所述自動(dòng)摘要服務(wù)模塊包括文獻(xiàn)上傳模塊,用于上傳用戶提供的科技文獻(xiàn)至所述信息收集與存儲(chǔ)模塊; 科技文獻(xiàn)內(nèi)容抽取模塊,用于確定上傳的科技文獻(xiàn)的文件格式,調(diào)用文件格式對(duì)應(yīng)的文獻(xiàn)抽取工具抽取其全文信息;自動(dòng)摘要生成模塊,用于對(duì)所述全文信息中的句子作權(quán)重計(jì)算,選擇權(quán)重較大的部分句子作為文摘句;所述權(quán)重計(jì)算遵循以下準(zhǔn)則含有提示詞串的句子權(quán)重>段首尾位置的句子權(quán)重>包含關(guān)鍵詞的句子>與其他句子存在相關(guān)性的句子。
7.根據(jù)權(quán)利要求1所述的學(xué)術(shù)社區(qū)系統(tǒng),其特征在于,所述社區(qū)服務(wù)模塊包括訂閱模塊,用于接收用戶訂閱作者、會(huì)議和其他用戶信息,監(jiān)聽(tīng)所述知識(shí)網(wǎng)絡(luò)的更新?tīng)顟B(tài),若被訂閱的作者、會(huì)議和其他用戶信息有更新,則將最新信息發(fā)送給訂閱用戶; 發(fā)布模塊,用于用戶發(fā)布信息至所述信息收集與存儲(chǔ)模塊。
全文摘要
本發(fā)明提供了一種基于海量知識(shí)網(wǎng)絡(luò)的學(xué)術(shù)社區(qū)系統(tǒng),包括信息收集與存儲(chǔ)模塊,用于收集網(wǎng)絡(luò)和用戶提供的信息形成知識(shí)網(wǎng)絡(luò);學(xué)術(shù)檢索模塊,用于在所述知識(shí)網(wǎng)絡(luò)中對(duì)會(huì)議、文獻(xiàn)、作者和領(lǐng)域綜述進(jìn)行檢索;學(xué)術(shù)服務(wù)模塊,用于利用所述知識(shí)網(wǎng)絡(luò)服務(wù)用戶的個(gè)性需求;社區(qū)模塊,用于用戶之間以及用戶與知識(shí)網(wǎng)絡(luò)之間的信息交互。本發(fā)明充分利用網(wǎng)絡(luò)資源形成知識(shí)網(wǎng)絡(luò),提供了更多的搜索和服務(wù)功能以及用戶與知識(shí)庫(kù)交互的接口,滿足學(xué)術(shù)工作者的科研需求。
文檔編號(hào)G06F17/30GK102521337SQ20111040554
公開(kāi)日2012年6月27日 申請(qǐng)日期2011年12月8日 優(yōu)先權(quán)日2011年12月8日
發(fā)明者嚴(yán)奉偉, 劉普, 吳步文, 方飛, 趙峰, 金海 , 陳恒 申請(qǐng)人:華中科技大學(xué)