專利名稱:知識譜系的可視化方法
技術領域:
本發(fā)明屬于信息處理技術領域,具體涉及一種利用年代和知識共現(xiàn)關系組織和展現(xiàn)專業(yè)領域知識點和發(fā)展脈絡的知識譜系的可視化方法。
背景技術:
科學研究活動立足于對已有知識的搜集、整理和積累,著眼于對未知世界的探索和鉆研。知識的創(chuàng)造、傳播和使用在推動科學和經(jīng)濟發(fā)展方面的作用越來越突出,21世紀已經(jīng)逐步跨入知識經(jīng)濟階段。具體表現(xiàn)為一方面,科學技術知識在不斷地增加和深化,知識的廣度和深度都達到了一個前所未及的程度;另一方面,隨著社會化分工和專業(yè)化程度的提高,經(jīng)驗知識,即隱性知識,也在不斷地發(fā)展,并有著借助高級知識管理工具顯性化的趨勢。知識不僅是一種資源,從更廣泛的含義上來說也是一種生產要素和資本,因此知識管理已經(jīng)成為一門專門的學科加以研究。 知識創(chuàng)新源于知識積累,它們是創(chuàng)新和繼承的關系。對于一個學科、一個專業(yè)、一個崗位,都存在大量的已有知識。只有迅速掌握這些已有知識,在頭腦中建立該學科、該專業(yè)、該崗位的知識框架,才能夠在已有知識基礎上進彳丁知識檢索、知識關聯(lián)和知識創(chuàng)新。特別是對于初學者,是否能夠快速掌握知識框架直接關系到知識創(chuàng)新的效率和結果。學科知識框架是以學科知識為對象,顯示科學研究的發(fā)展進程與結構關系的一種層次化、序列化、圖形化的分類體系,反映了知識元或知識群之間網(wǎng)絡、結構、互動、交叉、演化或衍生等諸多復雜的關系。人們可以依靠學科知識框架,透視學科知識體系中各個領域的結構,構造復雜知識網(wǎng)絡,預測學科技術前沿的發(fā)展趨勢等。在傳統(tǒng)研究中,研究者為了了解一個學科領域發(fā)展的整體狀況,必須查閱該領域的幾乎所有文獻。這個工作既費時又困難,并且由于受到研究者自身主觀判斷影響,每個人在文獻查閱之后所獲得的結論都是不同的。此外,隨著時間的推移和信息量的增長,新的科學文獻不斷產生,學科知識框架也在不斷地動態(tài)調整,研究領域的衍生和融合持續(xù)發(fā)生,想了解學科領域發(fā)展的整體狀況這一目標變得越來越難實現(xiàn)。因此需要有一種客觀、科學、高效的新方法來構建學科知識框架的結構。不可否認,個人和組織是知識系統(tǒng)中的活動主體,但是,知識工具在知識管理中也起到了重要的輔助與支撐作用。計算機的高速處理能力加快了人們獲取和處理知識的速度和深度,大容量的存儲和方便的檢索使得人們能夠積累數(shù)量巨大、種類多樣的知識,網(wǎng)絡化消除了空間限制,知識來源更加豐富。共現(xiàn)分析是將各種信息載體中的共現(xiàn)信息定量化的分析方法,這種方法基于一種假設,即兩個詞之間的關聯(lián)強度可以用同時感知到兩詞的相對頻率來衡量。在這種假設下,就可以利用共現(xiàn)分析研究詞匯之間的關聯(lián)度,挖掘詞匯之間的語義關系。根據(jù)共現(xiàn)分析對象的不同,還可分為引文共現(xiàn)分析和關鍵詞共現(xiàn)分析。其中引文共現(xiàn)是指兩篇文獻同時被別的文獻引用,可以提供分析對象之間由引文關系形成的相對位置信息和相互關系的親疏程度;關鍵詞共現(xiàn)是指兩篇(或多篇)科學文獻中存在一個(或多個)相同的關鍵詞,主要用于從內容上了解文獻之間的內在聯(lián)系和相應作者及研究機構在研究方向上的類同及相關程度。在計算機技術的輔助下,共現(xiàn)分析以其方法的簡明性和分析結果的可靠性,成為支撐信息內容分析研究過程的重要手段和工具。然而,在當前諸多基于共現(xiàn)分析的應用中,均沒有考慮時間因素,即在分析過程中忽略了研究對象間的繼承和發(fā)展關系,而這種關系對于研究者了解學科領域發(fā)展整體狀況是非常有價值的。對于一個專業(yè)領域而言,學科知識框架至少應該包含該學科的研究主題關聯(lián)和發(fā)展脈絡兩個因素,其中研究主題關聯(lián)通過論文中的關鍵詞共現(xiàn)關系體現(xiàn),而發(fā)展脈絡則可以通過年代來劃分層級,由此形成可視化的學科知識譜系,可以為使用者的知識創(chuàng)新提供更多的輔助參考。通常來說,專業(yè)領域的使用者在進行知識檢索時,首先需要先確定明確的檢索關鍵詞。由于現(xiàn)有的檢索系統(tǒng)尚不能支持基于語義的查詢,因此只能根據(jù)使用者輸入的檢索關鍵詞進行基于布爾邏輯的匹配查詢。如果使用者輸入的檢索關鍵詞過泛或過窄,就很可能會出現(xiàn)檢索結果過多或過少的情況。一旦出現(xiàn)這種情況,則需要使用者自行調整檢索關 鍵詞,重新檢索。很多專業(yè)領域的初學者由于不了解該專業(yè)領域的知識體系,在調整檢索關 鍵詞時缺乏參考和指導,往往會造成知識檢索的效果不佳。
發(fā)明內容
(一 )要解決的技術問題本發(fā)明要解決的技術問題是在海量文獻信息中抽取出有價值的知識點,并按照時間順序建立譜系關系進行可視化展示,從而快速、科學地協(xié)助使用者了解這些文獻中所包含的研究主題和發(fā)展脈絡關系,使背景知識前景化,解決使用者,特別是專業(yè)領域的初學者由于缺乏專業(yè)背景知識而造成的檢索效果不佳的問題。(二)技術方案本發(fā)明的提出的一種知識譜系的可視化方法,用于對目標知識點的知識譜系進行可視化顯示,具體包括如下步驟抽取文獻數(shù)據(jù)中的信息,形成至少包括文獻的來源信息、公開時間和知識點的多個第一數(shù)據(jù)表;統(tǒng)計多個第一數(shù)據(jù)表中每個知識點最早出現(xiàn)的文獻的公開時間,然后將每個知識點劃分到一個年代當中,形成至少包括知識點、知識點的首次公開時間和年代信息的第二數(shù)據(jù)表;統(tǒng)計多個第一數(shù)據(jù)表中每個知識點的出現(xiàn)次數(shù),形成至少包括知識點和知識點的出現(xiàn)次數(shù)的第三數(shù)據(jù)表;統(tǒng)計多個第一數(shù)據(jù)表中所有知識點兩兩組合之間的共現(xiàn)關系,形成至少包括兩個知識點和該兩個知識點之間的共現(xiàn)次數(shù)的第四數(shù)據(jù)表;在第四數(shù)據(jù)表中查找與目標知識點有共現(xiàn)關系的所有知識點,并在第二數(shù)據(jù)表中依次查找這些知識點和目標知識點的年代,根據(jù)其與目標知識點所在年代的差異確定知識點之間的譜系關系,再在第三數(shù)據(jù)表中依次查找共現(xiàn)知識點的出現(xiàn)次數(shù),形成至少包括目標知識點、與目標知識點有共現(xiàn)關系的共現(xiàn)知識點、共現(xiàn)次數(shù)、共現(xiàn)知識點的出現(xiàn)次數(shù)、目標知識點和共現(xiàn)知識點的年代差的第五數(shù)據(jù)表;繪制時間坐標軸,其坐標刻度按照年代順序排列,將目標知識點置于所處年代的中心位置,將共現(xiàn)知識點根據(jù)其與目標知識點之間的譜系關系歸入相應年代層級,再根據(jù)第五數(shù)據(jù)表中的共現(xiàn)知識點出現(xiàn)次數(shù)為其標注不同顏色,形成知識譜系圖。(三)有益效果(I)現(xiàn)有的檢索系統(tǒng)對使用者有著較高的要求,特別是在選擇搜索關鍵詞時,需要使用者具有足夠的專業(yè)知識才能夠獲得準確、全面的檢索結果。然而這對于剛剛接觸某個科研領域的科研人員和學生來說是十分困難的,他們往往由于缺乏充實的背景知識而導致檢索效果不佳。本發(fā)明所提供的知識譜系的可視化方法,通過在數(shù)據(jù)預處理階段抽取知識點的時間屬性,并按照時間順序建立譜系關系,從而為 知識檢索提供了一種新的輔助方法,有助于使用者把握技術發(fā)展趨勢,不斷完善檢索策略,獲得更加全面的檢索結果。(2)現(xiàn)有的文獻檢索系統(tǒng)通常都是以一個關鍵詞、一個作者或一個機構為入口進行檢索,這種由點及面的調研方式對于海量的文獻信息來講,難以保證文獻調研活動在有限的時間內獲得最有價值的信息。本發(fā)明所提出的知識譜系的可視化方法一方面利用知識共現(xiàn)關系為使用者提供更多的檢索參考,另一方面還通過對知識點的年代劃分梳理出共現(xiàn)知識點之間的繼承、發(fā)展和演變關系,并以知識譜系圖的形式進行可視化展示,從而提供與目標知識點相關的知識網(wǎng)絡的全部信息,這將為初學者提供非常有價值的檢索參考,從而啟發(fā)專業(yè)技術領域的知識發(fā)現(xiàn)。
圖I為本發(fā)明的知識譜系的可視化方法的一個具體實施例的流程圖;圖2為本發(fā)明的可視化的知識譜系的一個示例圖;圖3為本發(fā)明的可視化的知識譜系的另一示例圖。
具體實施例方式為使本發(fā)明的目的、技術方案和優(yōu)點更加清楚明白,以下結合具體實施例,并參照附圖,對本發(fā)明進一步詳細說明。本發(fā)明的知識譜系的可視化方法,分為數(shù)據(jù)預處理和知識譜系的可視化兩個階
段。其原理是在數(shù)據(jù)預處理階段,首先抽取文獻數(shù)據(jù)中的知識點及時間屬性,然后按照時間切片方法對抽取出的知識點進行年代劃分,最后統(tǒng)計知識點的出現(xiàn)次數(shù)和知識點之間的共現(xiàn)次數(shù);在知識譜系的可視化階段,首先根據(jù)與目標知識點有共現(xiàn)關系的所有知識點所在的年代確定其與目標知識點之間的譜系關系,然后在時間軸上按照所在年代進行排列,從而可視化展示知識點之間的發(fā)展脈絡的譜系關系。圖I為本發(fā)明提供的知識譜系的可視化方法的一個具體實施例的流程圖。如圖I所示,本發(fā)明的知識譜系的可視化方法包括以下步驟步驟101,文獻信息的抽取對文獻數(shù)據(jù)中的知識點進行抽取,同時抽取文獻數(shù)據(jù)的時間屬性。所述的文獻數(shù)據(jù)一般來自于專業(yè)領域內的文獻資料,其通常以文獻數(shù)據(jù)庫的形式存在。對于一條具體的文獻資料,通常包括文獻編號、文獻來源、標題、作者、作者機構、摘要、關鍵詞、公開時間、正文、參考文獻等信息。在抽取文獻信息時,通??赏ㄟ^關系數(shù)據(jù)庫的查詢語句,對特定類型的文獻信息內容進行提取,例如首先抽取多個文獻資料的發(fā)表時間信息,然后再抽取多個文獻資料的關鍵詞信息,最后以文獻編號為索引生成一個或多個數(shù)據(jù)表。根據(jù)實際檢索需要,在本發(fā)明中,所述的知識點指的是從專業(yè)領域的文獻數(shù)據(jù)中抽取的文獻屬性信息,包括文獻的關鍵詞、標題、作者等屬性信息,此外,例如作者機構、數(shù)字對象唯一標識符(Digital Object Unique Identifier, DOI)等也可作為知識點在一些特殊應用下被抽取。對文獻信息進行抽取后可以形成多個第一數(shù)據(jù)表,在每個第一數(shù)據(jù)表中至少包括某一文獻的來源信息、公開時間和知識點。該第一數(shù)據(jù)表例如表示為〈文獻來源 >、< 文獻公開時間 >、< 知識點1>、<知識點2>、......、〈知識點N〉。步驟102,知識年代的劃分根據(jù)文獻的公開時間將多個文獻劃分為兩個或兩個以上的年代,并統(tǒng)計多個第一數(shù)據(jù)表中每個知識點最早出現(xiàn)的文獻的公開時間,然后將每 個知識點劃分到一個年代當中,形成至少包括某一知識點、該知識點的首次公開時間和年代信息的第二數(shù)據(jù)表,第二數(shù)據(jù)表例如表示為〈知識點 >、< 首次公開時間 >、< 年代>。年代劃分的基本方式有兩種,一是參考自然年代劃分方法,比如以10年或者5年為一個時間段;二是利用專業(yè)領域中里程碑事件發(fā)生的時間進行劃分。劃分原則既要結合專業(yè)領域實際情況,也要兼顧到語料素材的分布情況,盡量讓各個時間段內的文獻數(shù)量均衡。所述的統(tǒng)計方法可通過建立倒排索引并排序的方法實現(xiàn),首先將每個第一數(shù)據(jù)表中的知識點與文獻公開時間進行多對一的映射,成為〈知識點 >、〈文獻公開時間 > 數(shù)據(jù)組,然后將多個第一數(shù)據(jù)表多對一映射后的〈知識點 >、〈文獻公開時間 > 數(shù)據(jù)組匯總到一個臨時數(shù)據(jù)表中,再次利用倒排索引法將臨時數(shù)據(jù)表中的相同知識點所對應的文獻公開時間進行排序,找到最早的文獻公開時間作為該知識點的首次公開時間。步驟103,知識熱度分析統(tǒng)計多個第一數(shù)據(jù)表中每個知識點的出現(xiàn)次數(shù),形成至少包括某一知識點和該知識點的出現(xiàn)次數(shù)的第三數(shù)據(jù)表,第三數(shù)據(jù)表例如表示為〈知識點>、〈出現(xiàn)次數(shù)〉。以文獻關鍵詞為例進一步說明知識熱度分析中需要考慮的問題。文獻關鍵詞通常表達出文獻所涉及的研究對象、理論、方法、算法以及研究工具等,是該篇文獻學術貢獻的濃縮。由于文獻中關鍵詞總是和其它關鍵詞共同出現(xiàn),因此出現(xiàn)頻率高的文獻關鍵詞往往具有更強或更多的共現(xiàn)網(wǎng)絡,在專業(yè)領域的發(fā)展脈絡中也占有更重要的地位。如果為了保證知識譜系的完整性,則可以在第三數(shù)據(jù)表中保留全部知識點,如果為了尋找和梳理專業(yè)領域的主要發(fā)展和繼承脈絡,則可以設定一個閾值,當知識點出現(xiàn)次數(shù)高于這個閾值時,才保留到第三數(shù)據(jù)表中,以降低處理不重要的文獻關鍵詞所帶來的時間和存儲消耗。與步驟102類似,所述統(tǒng)計方法可通過建立倒排索引并匯總計數(shù)的方法實現(xiàn),即在對多個第一數(shù)據(jù)表中的〈知識點 >、< 文獻公開時間 > 數(shù)據(jù)組匯總到一個臨時數(shù)據(jù)表后,再對臨時數(shù)據(jù)表中相同知識點所出現(xiàn)的次數(shù)進行匯總計數(shù),以此計數(shù)結果作為該知識點的出現(xiàn)次數(shù)。步驟104,知識共現(xiàn)分析統(tǒng)計多個第一數(shù)據(jù)表中所有知識點兩兩組合之間的共現(xiàn)關系,形成至少包括兩個知識點和該兩個知識點之間的共現(xiàn)次數(shù)的第四數(shù)據(jù)表,第四數(shù)據(jù)表例如表示為〈知識點A>、<知識點B〉、<共現(xiàn)次數(shù)>。所述統(tǒng)計方法可通過計算共現(xiàn)矩陣實現(xiàn),即根據(jù)所有知識點的兩兩組合在同一篇文獻中共同出現(xiàn)的次數(shù),生成一個二維的知識點共現(xiàn)矩陣,共現(xiàn)矩陣行和列的數(shù)字代表分別代表知識點的編號。矩陣中對角線上的數(shù)字代表該知識點出現(xiàn)的總次數(shù),非對角線上的數(shù)字表示兩個知識點共同出現(xiàn)的次數(shù)。步驟105,確定知識點的譜系關系使用者輸入目標知識點后,首先在第四數(shù)據(jù)表中查找與該目標知識點有共現(xiàn)關系的所有知識點,并在第二數(shù)據(jù)表中依次查找這些知識點和目標知識點的年代,根據(jù)其與目標知識點所在年代的差異確定知識點之間的譜系關系,再在第三數(shù)據(jù)表中依次查找共現(xiàn)知識點的出現(xiàn)次數(shù),形成至少包括目標知識點、與目標知識點有共現(xiàn)關系的共現(xiàn)知識點、共現(xiàn)次數(shù)、共現(xiàn)知識點的出現(xiàn)次數(shù)、目標知識點和共現(xiàn)知識點的年代差的第五數(shù)據(jù)表,第五數(shù)據(jù)表例如表示為〈目標知識點 >、< 共現(xiàn)知識點 >、< 共現(xiàn)次數(shù) >、< 共現(xiàn)知識點出現(xiàn)次數(shù) >、< 目標知識點與共現(xiàn)知識點年代差 > 的第五數(shù)據(jù)表。
該步驟的核心就是確定與目標知識點有共現(xiàn)關系的全部知識點所在的年代,以及這些知識點出現(xiàn)的次數(shù),為下一步繪制譜系圖做準備。假如某個知識點與目標知識點處于相同的知識年代,則可認為他們是在同一時期并行出現(xiàn)的,二者屬于兄弟節(jié)點;如果一個知識點處于目標知識點前一個知識年代,可以認為這個知識點對目標知識點的產生起到了重要的促進作用,因此它屬于目標知識點的父節(jié)點;同理,處于目標知識點后一個知識年代的全部貢獻知識點,可認為目標知識點對其產生起到了重要的促進作用,它屬于目標知識點的子節(jié)點。由此類推,還可以定義目標知識點的爺節(jié)點、孫節(jié)點等,進而建立起目標關鍵詞完整的譜系關系。步驟106,譜系可視展示繪制時間坐標軸,其坐標刻度按照年代順序排列,將目標知識點置于所處年代的中心位置,將共現(xiàn)知識點根據(jù)其與目標知識點之間的譜系關系歸入相應年代層級,再根據(jù)多個第五數(shù)據(jù)表中的共現(xiàn)知識點出現(xiàn)次數(shù)的多少為其標注不同顏色,形成知識譜系圖。對于每個年代,還可以按如下規(guī)則對知識點進行與目標知識點的關聯(lián)強度排序。首先,按照與目標知識點共現(xiàn)次數(shù)的高低排序,共現(xiàn)次數(shù)最高的知識點置于中間,其它知識點依次置于兩邊;其次,如果兩個知識點與目標知識點共現(xiàn)次數(shù)相同,則共現(xiàn)知識點出現(xiàn)次數(shù)高的知識點排在前面。這樣,知識譜系圖將與目標知識點相關聯(lián)的知識點按照產生年代進行層級劃分,每個層級上的知識點又根據(jù)與目標知識點的關聯(lián)強度,由中心到兩端排列。同時根據(jù)知識點出現(xiàn)次數(shù)的多少賦予不同顏色指示,在一張知識譜系圖中,將能夠同時可視化展現(xiàn)知識點年代、關聯(lián)強度、熱度等多個維度的信息,為使用者檢索和知識理解帶來便利。以上描述了根據(jù)本發(fā)明的知識譜系的可視化方法的一個實施例,但本領域技術人員應當理解的是,上述實施例僅僅是一種示例,本發(fā)明也可以對上述實施例進行變換,從而以不同的實施方式實現(xiàn)本發(fā)明。例如,在上述實施例的描述中,本發(fā)明的知識譜系的可視化方法所包括的步驟102、103、104是依次執(zhí)行的,但是,本發(fā)明并不局限于此,步驟102、103、104也可以同步執(zhí)行,或者按任意的次序執(zhí)行。
圖2和圖3為利用本發(fā)明的知識譜系的可視化方法,分別以“制造執(zhí)行系統(tǒng)”和“知識發(fā)現(xiàn)”為目標關鍵詞建立的知識譜系圖。在該知識譜系圖中,上層表示出現(xiàn)年代較早的關鍵詞,下層表示出現(xiàn)年代較晚的關鍵詞,上下層之間按照年代順序排序。與目標關鍵詞“制造執(zhí)行系統(tǒng)”或“知識發(fā)現(xiàn)”直接相連的上一層節(jié)點,稱之為譜系中的父節(jié)點,其出現(xiàn)年代較目標關鍵詞更早,是目標關鍵詞所對應知識點的基礎和來源;與目標關鍵詞處于同一層的知識點,稱為譜系中的兄弟節(jié)點,它們和目標關鍵詞同一時代出現(xiàn),并與目標關鍵詞有著密切的關聯(lián)關系,是知識檢索中的重要參考;而與目標關鍵詞直接相連的下一層節(jié)點,稱之為譜系中的子節(jié)點,其出現(xiàn)年代較 目標關鍵詞更晚一些,是目標關鍵詞所對應知識點的繼承、應用和發(fā)展。同理,還可以定義更上層和更下層知識點的譜系關系。以圖2為例,制造執(zhí)行系統(tǒng)的產生源自于早期人們對生產調度、過程控制系統(tǒng)的集成研究,同時計算機集成控制技術的發(fā)展帶動了這一新的信息體系的進步。企業(yè)資源計劃(ERP)和制造執(zhí)行系統(tǒng)(MES)的概念同時出現(xiàn),鋼鐵企業(yè)和流程工業(yè)成為最主要的應用對象。基于制造執(zhí)行系統(tǒng)的特點和優(yōu)勢,使得人們可以對企業(yè)的業(yè)務流程進行重組和優(yōu)化,實現(xiàn)車間級的綜合自動化系統(tǒng)和網(wǎng)絡化控制,進而建立面向服務的架構。在更近的年代中,制造執(zhí)行系統(tǒng)還與射頻識別這一新興技術融合,成為新的研究熱點。圖3同樣可以說明譜系型知識檢索方法的應用價值。在知識發(fā)現(xiàn)這一概念出現(xiàn)之前,研究者主要關注機器學習、專家系統(tǒng)等理論,依據(jù)聚類、分類等方法,知識發(fā)現(xiàn)是在上述理論和方法基礎上的繼承、融合和發(fā)展。與知識發(fā)現(xiàn)同一時期出現(xiàn)的其它知識點,包括數(shù)據(jù)挖掘、關聯(lián)規(guī)則、數(shù)據(jù)倉庫等都是實現(xiàn)知識發(fā)現(xiàn)的重要方法和工具。隨著人們對這一領域的深入研究,頻繁模式、案例推理、客戶關系管理等概念相繼出現(xiàn),補充和豐富了知識發(fā)現(xiàn)這一方向的研究深度和廣度。 圖2和圖3均以文獻的關鍵詞為知識點建立了知識譜系圖,但是根據(jù)本發(fā)明,知識點也可以是文獻的作者,作者機構等,當知識點是文獻的作者,作者機構時,由本發(fā)明的方法建立的知識譜系圖就能顯示研究者及機構之間的合作譜系關系,例如師生關系、同行關系、機構關聯(lián)度關系等。本發(fā)明在知識點共現(xiàn)分析的基礎上,進一步引入時間切片確定譜系關系,形成的可視化的知識譜系圖,不僅可為使用者提供與輸入的目標知識點具有共現(xiàn)關系的全部知識點列表作為調整參考,還可將這些知識點繪制為譜系關系圖直觀展現(xiàn),方便使用者更好地理解與目標知識點相關的知識發(fā)展脈絡。以上對知識譜系圖的分析符合實際情況,有效地將專業(yè)人員頭腦中的隱形知識顯性化。通過知識譜系圖,使用者可以迅速了解目標知識點的知識主線和關聯(lián)知識體系,對目標知識點的繼承和發(fā)展建立起清晰的認識,同時了解最新的研究方向和研究熱點,進一步結合個人的主觀判斷,輔助和啟發(fā)使用者的知識創(chuàng)新。以上所述的具體實施例,對本發(fā)明的目的、技術方案和有益效果進行了進一步詳細說明,應理解的是,以上所述僅為本發(fā)明的具體實施例而已,并不用于限制本發(fā)明,凡在本發(fā)明的精神和原則之內,所做的任何修改、等同替換、改進等,均應包含在本發(fā)明的保護范圍之內。
權利要求
1.一種知識譜系的可視化方法,用于對目標知識點的知識譜系進行可視化顯示,其特征在于,包括如下步驟 抽取文獻數(shù)據(jù)中的信息,形成至少包括文獻的來源信息、公開時間和知識點的多個第一數(shù)據(jù)表; 統(tǒng)計多個第一數(shù)據(jù)表中每個知識點最早出現(xiàn)的文獻的公開時間,然后將每個知識點劃分到一個年代當中,形成至少包括知識點、知識點的首次公開時間和年代信息的第二數(shù)據(jù)表; 統(tǒng)計多個第一數(shù)據(jù)表中每個知識點的出現(xiàn)次數(shù),形成至少包括知識點和知識點的出現(xiàn)次數(shù)的第三數(shù)據(jù)表; 統(tǒng)計多個第一數(shù)據(jù)表中所有知識點兩兩組合之間的共現(xiàn)關系,形成至少包括兩個知識點和該兩個知識點之間的共現(xiàn)次數(shù)的第四數(shù)據(jù)表; 在第四數(shù)據(jù)表中查找與目標知識點有共現(xiàn)關系的所有知識點,并在第二數(shù)據(jù)表中依次查找這些知識點和目標知識點的年代,根據(jù)其與目標知識點所在年代的差異確定知識點之間的譜系關系,再在第三數(shù)據(jù)表中依次查找共現(xiàn)知識點的出現(xiàn)次數(shù),形成至少包括目標知識點、與目標知識點有共現(xiàn)關系的共現(xiàn)知識點、共現(xiàn)次數(shù)、共現(xiàn)知識點的出現(xiàn)次數(shù)、目標知識點和共現(xiàn)知識點的年代差的第五數(shù)據(jù)表; 繪制時間坐標軸,其坐標刻度按照年代順序排列,將目標知識點置于所處年代的中心位置,將共現(xiàn)知識點根據(jù)其與目標知識點之間的譜系關系歸入相應年代,再根據(jù)第五數(shù)據(jù)表中的共現(xiàn)知識點出現(xiàn)次數(shù)為其標注不同顏色,形成知識譜系圖。
2.如權利要求I所述的知識譜系的可視化方法,其特征在于 所述知識點包括文獻的關鍵詞、標題、作者、作者機構、數(shù)字對象唯一標識符。
3.如權利要求I所述的知識譜系的可視化方法,其特征在于 在形成第二數(shù)據(jù)表的步驟中,根據(jù)文獻的公開時間,按照自然年代將文獻劃分為兩個或兩個以上的年代。
4.如權利要求I所述的知識譜系的可視化方法,其特征在于 在形成第二數(shù)據(jù)表的步驟中,根據(jù)文獻的公開時間,按照里程碑事件發(fā)生的時間將文獻劃分為兩個或兩個以上的年代。
5.如權利要求I所述的知識譜系的可視化方法,其特征在于 在形成第三數(shù)據(jù)表的步驟中,設定一個閾值,當知識點出現(xiàn)次數(shù)高于這個閾值時,則將該知識點及知識點出現(xiàn)次數(shù)保留到所述第三數(shù)據(jù)表中。
6.如權利要求I所述的知識譜系的可視化方法,其特征在于 在確定知識點的譜系關系的步驟中,當與目標知識點有共現(xiàn)關系的知識點與目標知識點處于相同的年代時,則將該知識點定義為目標知識點的兄弟節(jié)點;當與目標知識點有共現(xiàn)關系的知識點處于目標知識點的前一個年代時,則將該知識點定義為目標知識點的父節(jié)點;當與目標知識點有共現(xiàn)關系的知識點處于目標知識點的后一個年代時,則將該知識點定義為目標知識點的子節(jié)點。
7.如權利要求I所述的知識譜系的可視化方法,其特征在于 在形成知識譜系圖的步驟中,還包括對知識點進行按照與目標知識點的關聯(lián)強度排序的步驟。
8.如權利要求7所述的知識譜系的可視化方法,其特征在于 所述排序步驟為按照與目標知識點共現(xiàn)次數(shù)的高低排序,共現(xiàn)次數(shù)最高的知識點置于中間,其它知識點依次置于兩邊。
9.如權利要求8所述的知識譜系的可視化方法,其特征在于 當兩個知識點與目標知識點共現(xiàn)次數(shù)相同時,共現(xiàn)知識點出現(xiàn)次數(shù)高的知識點排在前面。
全文摘要
本發(fā)明公開了一種知識譜系的可視化方法,該方法抽取文獻數(shù)據(jù)中的知識點及時間屬性,然后按照時間切片方法對知識點進行年代劃分,統(tǒng)計知識點的出現(xiàn)次數(shù)和知識點之間的共現(xiàn)次數(shù),根據(jù)與目標知識點有共現(xiàn)關系的所有知識點的所在年代確定其與目標知識點之間的譜系關系,最后在時間軸上按照年代進行排列,從而可視化展示知識點之間的發(fā)展脈絡關系。本發(fā)明有助于協(xié)助專業(yè)領域的初學者在海量文獻信息中檢索和學習有價值的知識點,并快速、科學地掌握這些文獻中所包含的研究主題和發(fā)展脈絡關系,克服使用者由于缺乏專業(yè)背景知識而造成的檢索和學習效果不佳的問題。
文檔編號G06F17/30GK102779143SQ20121002204
公開日2012年11月14日 申請日期2012年1月31日 優(yōu)先權日2012年1月31日
發(fā)明者劉禹, 楊一平 申請人:中國科學院自動化研究所