一種基于形式概念分析的數(shù)字論文檢索方法
【專(zhuān)利摘要】本發(fā)明涉及一種數(shù)字論文檢索方法,特別涉及一種基于形式概念分析的數(shù)字論文檢索方法,屬于數(shù)據(jù)挖掘領(lǐng)域。本發(fā)明提出的論文檢索方法,通過(guò)“排序隔選”的方式,縮減了構(gòu)建和搜索概念格的規(guī)模和時(shí)間,然后將其他被縮減論文附屬于被選論文,較大的消除了結(jié)果丟失的影響,同時(shí)通過(guò)概念格的粗糙近似檢索機(jī)制,解決了論文檢索時(shí)檢索結(jié)果過(guò)于分散和龐大的問(wèn)題,同時(shí)又能夠保證檢索結(jié)果的召回率和精確度。該方法針對(duì)大規(guī)模數(shù)據(jù)提出了一種可用的基于形式概念分析的檢索模式。
【專(zhuān)利說(shuō)明】一種基于形式概念分析的數(shù)字論文檢索方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種數(shù)字論文檢索方法,特別涉及一種基于形式概念分析的數(shù)字論文檢索方法,屬于數(shù)據(jù)挖掘領(lǐng)域。
【背景技術(shù)】
[0002]目前,對(duì)于學(xué)術(shù)研究人員,有很多學(xué)術(shù)論文搜索引擎可以使用,例如公共的GOOGLESCHOLAR搜索引擎,商業(yè)性的ACM搜索引擎,免費(fèi)的CITESEER搜索引擎等。這些搜索引擎根據(jù)用戶的請(qǐng)求返回各自的結(jié)果,但結(jié)果往往存在以下問(wèn)題:①返回結(jié)果過(guò)多;②返回結(jié)果大部分與請(qǐng)求背離;③用戶執(zhí)行檢索得到結(jié)果集的時(shí)間太長(zhǎng);④檢索結(jié)果的準(zhǔn)確率不高。因此,如何貼合學(xué)術(shù)用戶的檢索請(qǐng)求又能夠高效的找到其所需要的學(xué)術(shù)資源(論文),是目前學(xué)術(shù)搜索領(lǐng)域中的一個(gè)重點(diǎn)研究領(lǐng)域。
[0003]形式概念分析(FormalConcept Analysis, FCA)是在 1982 年由 R.Wille 提出,自1990年之后,F(xiàn)CA開(kāi)始與信息檢索的相關(guān)技術(shù)進(jìn)行融合,基于FCA的信息檢索方式被正式提出,概念格(Concept Lattice)也被認(rèn)可來(lái)支持信息檢索的一類(lèi)信息或資源組織結(jié)構(gòu)。
[0004]目前有很多基于形式概念分析(FCA)的信息檢索的研究與應(yīng)用被提出。Godin等人在文獻(xiàn)《Experimental Comparison of Navigation in a Galois Lattice withConventional Information Retrieval Methods》 (International Journal ofMan-Machine Studies, 1993,38,747-767.)中對(duì)使用概念格結(jié)構(gòu)的信息檢索進(jìn)行了討論,并進(jìn)行實(shí)驗(yàn)與比較,得出結(jié)論:基于概念格結(jié)構(gòu)的檢索是非常有吸引力的,因?yàn)樗鼘⒅黝}檢索的良好性能和瀏覽的潛力結(jié)合在了一起。U.Krohn和N.J.Davies在文獻(xiàn)《Conceptlattices for knowledge management)) (BT Technology Journal 17, 4 (October 1999)
,108-116.)中提出了一種基于概念格結(jié)構(gòu)的網(wǎng)上資源查詢(xún)機(jī)制,試圖去分析和找出各類(lèi)資源對(duì)象間的內(nèi)在聯(lián)系,并將其應(yīng)用于知識(shí)管理和信息檢索,實(shí)現(xiàn)新知識(shí)的獲取和己有知識(shí)的共享及可視化。Neuss和Kent在文獻(xiàn)《Conceptual Analysis of ResourceMeta-1nformation》 (Computer Networks and ISDN Systemsl995,27(6):973-984)中使用概念格進(jìn)行Internet文檔信息的自動(dòng)分類(lèi)和分析。Carpineto等在文獻(xiàn)《ULYSSES:ALattice-Based Multiple Interaction Strategy Retrieval Interface》 (EWHCI1995:91-104)中對(duì)基于概念格的文本數(shù)據(jù)庫(kù)的自動(dòng)組織和混合導(dǎo)航進(jìn)行了研究,設(shè)計(jì)了一個(gè)檢索系統(tǒng)ULYSSES,其中數(shù)據(jù)的概念格結(jié)構(gòu)為系統(tǒng)的導(dǎo)航階段提供輔助,并基于格結(jié)構(gòu)的信息檢索與傳統(tǒng)的布爾查詢(xún)?cè)趦蓚€(gè)數(shù)據(jù)集上進(jìn)行了比較,結(jié)果表明基于概念格的檢索性能要優(yōu)于布爾檢索機(jī)制。
[0005]在基于FCA的學(xué)術(shù)檢索中,論文可視作形式概念中的對(duì)象,而從論文中抽取的術(shù)語(yǔ)(短語(yǔ)/關(guān)鍵詞)可被認(rèn)為是形式概念中的屬性,由此,可以構(gòu)建一個(gè)數(shù)字論文的形式背景,以表格(Table)的形式表達(dá),其中,行代表數(shù)字論文,列代表術(shù)語(yǔ),兩者之間的關(guān)系通過(guò)表中的交叉點(diǎn)進(jìn)行表達(dá)。
[0006]表I是一個(gè)數(shù)字論文集合的形式背景,其中,每一行代表一個(gè)論文(共有六篇論文,分別以1,2, 3,4, 5,6表不),每一列代表術(shù)語(yǔ)(有a、b、C、d、e五個(gè)術(shù)語(yǔ))。在形式背景表中,某一論文與某一術(shù)語(yǔ)確定的表項(xiàng)值為O或I兩種取值中的一種,I代表該行的論文擁有該列的術(shù)語(yǔ),O則代表不擁有。根據(jù)表I所構(gòu)建的概念格如圖1所示。
[0007]表I 一個(gè)數(shù)字論文集合的形式背景
[0008]
【權(quán)利要求】
1.一種基于形式概念分析的數(shù)字論文檢索方法,其特征在于:其具體操作步驟包括預(yù)處理階段和檢索階段的操作; 所述預(yù)處理階段的操作是:對(duì)被檢索的某一領(lǐng)域爾的數(shù)字論文資源集Z進(jìn)行預(yù)處理,具體為: 步驟1:針對(duì)領(lǐng)域》中的數(shù)字論文資源集Z中的全部關(guān)鍵詞,依次計(jì)算每個(gè)關(guān)鍵詞在領(lǐng)域纖中的數(shù)字論文資源集Z中的TF-1DF值,并按照TF-1DF值由高到底的順序?qū)﹃P(guān)鍵詞進(jìn)行排序;然后,將TF-1DF值最高的η個(gè)關(guān)鍵詞確定為領(lǐng)域爾中的數(shù)字論文資源集的形式背景中的屬性,其中,40 ≤ n ≤ 50 ; 步驟2:在步驟I操作的基礎(chǔ)上,構(gòu)建領(lǐng)域91中的數(shù)字論文資源集Z的形式背景表格,具體為:首先建立一張二維表,用符號(hào)F表不;二維表F的每一行分別對(duì)應(yīng)數(shù)字論文資源集Z中的一篇數(shù)字論文,二維表F的每一列分別對(duì)應(yīng)步驟I得到的η個(gè)關(guān)鍵詞中的一個(gè)關(guān)鍵詞;然后查看每個(gè)關(guān)鍵詞在領(lǐng)域載中的數(shù)字論文資源集Z的每篇論文中是否出現(xiàn),如出現(xiàn),則數(shù)字論文與關(guān)鍵詞確定的表項(xiàng)值為I ;否則,數(shù)字論文與關(guān)鍵詞確定的表項(xiàng)值為O ;每篇數(shù)字論文與所述η個(gè)關(guān)鍵詞確定的表項(xiàng)值被稱(chēng)為該論文的形式背景;經(jīng)過(guò)上述操作得到的二維表F被稱(chēng)為領(lǐng)域爾中的數(shù)字論文資源集Z的形式背景表格; 步驟3:在步驟2操作的基礎(chǔ)上,統(tǒng)計(jì)形式背景表格F中每篇數(shù)字論文對(duì)應(yīng)的表項(xiàng)值為I的個(gè)數(shù),將其稱(chēng)為該論文所擁有的屬性個(gè)數(shù);然后在形式背景表格F中,對(duì)所有數(shù)字論文及其形式背景按照論文擁有的屬性個(gè)數(shù)由低到高的順序重新排序; 步驟4:在步驟3操作的基礎(chǔ)上,在形式背景表格F中,對(duì)于擁有屬性個(gè)數(shù)相同的數(shù)字論文,按照關(guān)鍵詞在形式背景表格F中出現(xiàn)的順序進(jìn)行排序; 步驟5:選定一個(gè)順序間隔,用符號(hào)s表示,其中,3 < s < 20并且s為整數(shù);然后,從步驟4得到的形式背景表格F中抽取第I篇論文以及其后依次間隔s的數(shù)字論文作為種子論文;將所有的種子論文及其形式背景構(gòu)成的表格稱(chēng)為種子論文形式背景表格,用符號(hào)Fs表示; 步驟6:在步驟5操作的基礎(chǔ)上,在種子論文形式背景表格Fs中為每一篇種子論文建立2個(gè)依附鏈表,一個(gè)稱(chēng)為前置鏈表,另一個(gè)稱(chēng)為后置鏈表;并將領(lǐng)域輯中的數(shù)字論文資源集Z的形式背景表格F中該種子論文之前的
2.如權(quán)利要求1所述的一種基于形式概念分析的數(shù)字論文檢索方法,其特征在于:其預(yù)處理階段的步驟7中所述構(gòu)建種子論文概念格的方法包括增量建格算法、批量建格算法。
【文檔編號(hào)】G06F17/30GK103440308SQ201310377050
【公開(kāi)日】2013年12月11日 申請(qǐng)日期:2013年8月27日 優(yōu)先權(quán)日:2013年8月27日
【發(fā)明者】施重陽(yáng), 牛振東, 張春霞, 趙向宇 申請(qǐng)人:北京理工大學(xué)