基于語義的信息采集方法及系統(tǒng)的制作方法
【專利摘要】本發(fā)明涉及數(shù)據(jù)挖掘【技術(shù)領(lǐng)域】,具體涉及一種基于語義的信息采集方法及系統(tǒng)。該信息采集方法包括步驟:S1.根據(jù)網(wǎng)絡資源的典型特征,建立網(wǎng)絡資源抽象數(shù)據(jù)模型;S2.借助搜索引擎從互聯(lián)網(wǎng)采集網(wǎng)絡信息,并將采集的網(wǎng)絡信息用所述網(wǎng)絡資源抽象數(shù)據(jù)模型進行格式化處理;S3.對格式化處理后的網(wǎng)絡信息進行聚類分析,并根據(jù)聚類分析結(jié)果將所述網(wǎng)絡信息劃分入對應的話題中,并提取每個話題的標簽;S4.對所述步驟S3中處理結(jié)果進行可視化展示。本發(fā)明由話題驅(qū)動進行網(wǎng)絡資源組織、可視化展示以及對網(wǎng)絡資源的下載和離線查看,從而可以多維度的對網(wǎng)絡信息進行展現(xiàn),以形象、直觀的方式將網(wǎng)絡信息呈現(xiàn)給用戶,實現(xiàn)了提高用戶瀏覽效率的效果。
【專利說明】基于語義的信息采集方法及系統(tǒng)
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及數(shù)據(jù)挖掘【技術(shù)領(lǐng)域】,具體涉及一種基于語義的信息采集方法及系統(tǒng)。【背景技術(shù)】
[0002]網(wǎng)絡資料(資源)是指互聯(lián)網(wǎng)上各種信息資源的總和,包括電子文獻、數(shù)據(jù)庫、數(shù)字化文獻、數(shù)字化書目、電子報刊、網(wǎng)絡新聞等各種形式的知識、資料、情報、消息等的集合
[0003]互聯(lián)網(wǎng)上的資料信息具有數(shù)據(jù)量大、更新速度快、時效性強等特點,每天有大量的網(wǎng)絡信息產(chǎn)生,為了幫助用戶從“信息爆炸”的困境中解脫出來,目前各大門戶網(wǎng)站和主要的搜索引擎公司都會提供海量的網(wǎng)絡資源,即在一個版面內(nèi),將互聯(lián)網(wǎng)信息通過全方位、多角度的展現(xiàn),介紹網(wǎng)絡資源的相關(guān)情況,分析其特點。通常情況下,這些網(wǎng)絡資料都是通過編輯人員人工進行組織。
[0004]網(wǎng)絡資料的自動化組織,是指為方便用戶瀏覽和獲取網(wǎng)絡資料信息,利用信息抽取和數(shù)據(jù)挖掘等相關(guān)技術(shù),依據(jù)一定的規(guī)范或模式,將零散、無序的網(wǎng)絡資料信息予以系統(tǒng)化、有序化的過程。因此,研究如何對網(wǎng)絡資料進行有效、合理的自動化組織,成為一個迫切需要解決的問題,網(wǎng)絡資料的自動化組織也越來越受到用戶的廣泛關(guān)注:對于各大互聯(lián)網(wǎng)網(wǎng)站,它可以取代過去人工對網(wǎng)絡資料的組織;而對于普通網(wǎng)絡資料用戶,它則可以利用計算機的快速處理能力和相關(guān)成熟技術(shù),進一步完善網(wǎng)絡資料的組織模式,從而提高用戶的瀏覽效率。
[0005]網(wǎng)絡資料內(nèi)包含多種不同類型的網(wǎng)絡信息,如資源分類、資源包含的信息類型、時間、相關(guān)人物、地點、組織機構(gòu)等,這些不同類別的信息并非孤立地存在于網(wǎng)絡中,而是互相依賴,并通過某種關(guān)系緊密聯(lián)系在一起。因此,如何有效地將這些不同類別的信息融合在一起,是網(wǎng)絡資料自動化組織的關(guān)鍵,這也正是本文研究的目標所在。
[0006]網(wǎng)絡資源組織的相關(guān)技術(shù)中,話題檢測能夠?qū)⒎稚⒌木W(wǎng)絡資源有效地匯集并組織起來,然而由于網(wǎng)絡資源內(nèi)信息相似度較高,基于傳統(tǒng)向量空間模型的話題檢測效果不佳;合理的網(wǎng)絡資源組織模式能夠更好地幫助用戶去理解和探析網(wǎng)絡資源的信息,然而現(xiàn)有組織模式單一,難以呈現(xiàn)其的多維特征。
【發(fā)明內(nèi)容】
[0007](一)要解決的技術(shù)問題
[0008]本發(fā)明的目的在于提供一種基于語義的信息采集方法及系統(tǒng),由話題驅(qū)動進行網(wǎng)絡資源組織、可視化展示以及對網(wǎng)絡資源的下載和離線查看,從而可以多維度的對網(wǎng)絡信息進行展現(xiàn),以形象、直觀的方式將網(wǎng)絡信息呈現(xiàn)給用戶,進一步提高用戶的瀏覽效率。
[0009](二)技術(shù)方案
[0010]本發(fā)明技術(shù)方案如下:
[0011]一種基于語義的信息采集方法,包括步驟:
[0012]S1.根據(jù)網(wǎng)絡資源的典型特征,建立網(wǎng)絡資源抽象數(shù)據(jù)模型;[0013]S2.借助搜索引擎從互聯(lián)網(wǎng)采集網(wǎng)絡信息,并將采集的網(wǎng)絡信息用所述網(wǎng)絡資源抽象數(shù)據(jù)模型進行格式化處理;
[0014]S3.對格式化處理后的網(wǎng)絡信息進行聚類分析,并根據(jù)聚類分析結(jié)果將所述網(wǎng)絡信息劃分入對應的話題中,并提取每個話題的標簽;
[0015]S4.對所述步驟S3中處理結(jié)果進行可視化展示。
[0016]優(yōu)選的,所述步驟SI進一步包括:
[0017]根據(jù)互聯(lián)網(wǎng)資源的典型特征,總結(jié)網(wǎng)絡資源抽象數(shù)據(jù)模型模型要素,建立網(wǎng)絡資源抽象數(shù)據(jù)模型模型。
[0018]優(yōu)選的,所述步驟S2進一步包括:
[0019]S21.從互聯(lián)網(wǎng)上抓取搜索引擎搜索到的網(wǎng)絡信息;
[0020]S22.利用網(wǎng)頁抓取分析程序組件和正則表達式的規(guī)則對抓取的網(wǎng)絡信息進行解析分析,獲取文本信息;
[0021]S23.利用所述網(wǎng)絡資源抽象數(shù)據(jù)模型對獲取的文本信息進行格式化處理。
[0022]優(yōu)選的,所述步驟S3進一步包括:
[0023]S31.利用中文分詞工具對格式化處理后的文本信息進行分詞以及詞性標注;
[0024]S32.根據(jù)預設的候選關(guān)鍵詞標準,對所述步驟S31中分詞結(jié)果進行過濾,獲取候選關(guān)鍵詞;
[0025]S33.統(tǒng)計各候選關(guān)鍵詞對所述話題標簽的貢獻度,對所述網(wǎng)絡信息進行聚類分析,并根據(jù)聚類分析結(jié)果將所述網(wǎng)絡信息劃分入對應的話題中;
[0026]S34.對所述候選關(guān)鍵詞按照貢獻度降序排列,抽取前若干個候選關(guān)鍵詞,生成話題標簽。
[0027]優(yōu)選的,所述步驟S3進一步包括:
[0028]S35.建立所述候選關(guān)鍵詞在知識庫中的鏈接。
[0029]優(yōu)選的,所述步驟S4進一步包括:
[0030]S41.根據(jù)用戶提供的搜索詞,以搜索引擎搜索到的前若干項網(wǎng)絡信息為摘要,供用戶判斷是否所需內(nèi)容:若否,則結(jié)束;若是,則繼續(xù);
[0031]S42.根據(jù)所述步驟S1-步驟S3將所述步驟S41中獲取的網(wǎng)絡信息劃分入對應的話題中,并生成對應的話題標簽;
[0032]S43.根據(jù)話題與單條網(wǎng)絡信息之間的關(guān)系度排序,生成話題實體關(guān)系圖以及與知識庫的鏈接。
[0033]優(yōu)選的,所述步驟S4之后還包括:
[0034]S5.根據(jù)生成的話題標簽及話題標簽下的網(wǎng)絡信息,選擇要打包下載的資料內(nèi)容并對打包下載到的資料內(nèi)容建立索引。
[0035]優(yōu)選的,所述步驟S5之后還包括:
[0036]S6.將所述步驟S5中打包下載的資料內(nèi)容復制到指定的文件夾或者目錄下;自動的對復制的資料內(nèi)容進行解壓處理以及數(shù)據(jù)還原,并以網(wǎng)頁的形式呈現(xiàn)出來供用戶瀏覽。
[0037]本發(fā)明還提供一種根據(jù)上述任意一種的基于語義的信息采集方法實現(xiàn)的基于語義的信息采集系統(tǒng):
[0038]—種的基于語義的信息米集系統(tǒng),包括:[0039]抽象數(shù)據(jù)模型構(gòu)建模塊:用于根據(jù)網(wǎng)絡資源的典型特征,建立網(wǎng)絡資源抽象數(shù)據(jù)模型;
[0040]網(wǎng)絡信息采集模塊:借助搜索引擎從互聯(lián)網(wǎng)采集網(wǎng)絡信息,并將采集的網(wǎng)絡信息用所述網(wǎng)絡資源抽象數(shù)據(jù)模型進行格式化處理;
[0041]聚類分析模塊:對格式化處理后的網(wǎng)絡信息進行聚類分析,并根據(jù)聚類分析結(jié)果將所述網(wǎng)絡信息劃分入對應的話題中,并提取每個話題的標簽;
[0042]分析結(jié)果展示模塊:用于對所述聚類分析模塊的處理結(jié)果進行可視化展示。
[0043]優(yōu)選的,還包括:
[0044]資料內(nèi)容下載模塊:用于根據(jù)生成的話題標簽及話題標簽下的網(wǎng)絡信息,選擇要打包下載的資料內(nèi)容并對打包下載到的資料內(nèi)容建立索引;
[0045]離線瀏覽模塊:用于將打包下載的資料內(nèi)容復制到指定的文件夾或者目錄下并自動的對復制的資料內(nèi)容進行解壓處理以及數(shù)據(jù)還原,并以網(wǎng)頁的形式呈現(xiàn)出來供用戶瀏覽。
[0046](三)有益效果
[0047]本發(fā)明實施例所提供的基于語義的信息采集方法及系統(tǒng),由話題驅(qū)動進行網(wǎng)絡資源組織、可視化展示以及對網(wǎng)絡資源的下載和離線查看,從而可以多維度的對網(wǎng)絡信息進行展現(xiàn),以形象、直觀的方式將網(wǎng)絡信息呈現(xiàn)給用戶,實現(xiàn)了提高用戶瀏覽效率的效果。
【專利附圖】
【附圖說明】
[0048]圖1是本發(fā)明實施例中基于語義的信息采集方法的流程示意圖;
[0049]圖2是本發(fā)明實施例中基于語義的信息采集系統(tǒng)的硬件結(jié)構(gòu)示意圖;
[0050]圖3是本發(fā)明實施例中基于語義的信息采集方法及系統(tǒng)的實現(xiàn)效果圖。
【具體實施方式】
[0051]下面結(jié)合附圖和實施例,對本發(fā)明的【具體實施方式】做進一步描述。以下實施例僅用于說明本發(fā)明,但不用來限制本發(fā)明的范圍。
[0052]實施例一
[0053]本實施例中首先提供了一種基于語義的信息采集方法,如圖1中所示,該基于語義的信息采集方法主要包括步驟:
[0054]S1.根據(jù)網(wǎng)絡資源的典型特征,總結(jié)模型要素,建立網(wǎng)絡資源抽象數(shù)據(jù)模型;
[0055]S2.借助搜索引擎從互聯(lián)網(wǎng)采集網(wǎng)絡信息,并將采集的網(wǎng)絡信息用所述網(wǎng)絡資源抽象數(shù)據(jù)模型進行格式化處理;
[0056]S3.對格式化處理后的網(wǎng)絡信息進行聚類分析,并根據(jù)聚類分析結(jié)果將所述網(wǎng)絡信息劃分入對應的話題中,并提取每個話題的標簽;
[0057]S4.對所述步驟S3中處理結(jié)果進行可視化展示。
[0058]除此之外,還可以包括以下步驟:
[0059]S5.網(wǎng)絡信息的打包下載:根據(jù)生成的話題標簽及話題標簽下的網(wǎng)絡信息,選擇要打包下載的資料內(nèi)容并對打包下載到的資料內(nèi)容建立索引;
[0060]S6.網(wǎng)絡信息的離線查看:將所述步驟S5中打包下載的資料內(nèi)容復制到指定的文件夾或者目錄下;自動的對所述步驟S6中復制的資料內(nèi)容進行解壓處理以及數(shù)據(jù)還原,并以網(wǎng)頁的形式呈現(xiàn)出來供用戶瀏覽。
[0061]下面對本實施例中基于語義的信息采集方法的步驟進行進一步的詳細說明。
[0062]其中,所述步驟SI包括:
[0063]根據(jù)互聯(lián)網(wǎng)資源的典型特征,總結(jié)模型要素,建立網(wǎng)絡資源抽象數(shù)據(jù)模型;本實施例中,該步驟可以具體為:
[0064]對比互聯(lián)網(wǎng)資源的典型特征,并對互聯(lián)網(wǎng)資源的典型特征進行總結(jié)和分析,從而獲取網(wǎng)絡資源抽象數(shù)據(jù)模型的模型要素;例如,網(wǎng)絡信息文本通常包括專題(Topic),標題(Title),發(fā)布時間(Time),發(fā)布者(Author),正文內(nèi)容(Content),資料的鏈接(URL)等。而互聯(lián)網(wǎng)資源一般都包括這幾個要素;同時,這幾個要素也通常是用戶所關(guān)心的,網(wǎng)絡資源抽象數(shù)據(jù)模型的模型應該以這幾個要素為準。通過網(wǎng)絡資源抽象模型的建立,可以讓用戶更清晰、更便捷的了解網(wǎng)絡資源所包含的內(nèi)容,更便于用戶理解網(wǎng)絡資源所表達的意思,以便于讓用戶更便捷的使用互聯(lián)網(wǎng)資源。
[0065]其中,所述步驟S2進一步包括:
[0066]S21.以用戶輸入詞為搜索詞,利用百度或者谷歌等搜索引擎進行網(wǎng)絡信息的采集,從互聯(lián)網(wǎng)上抓取搜索引擎搜索到的網(wǎng)絡信息;
[0067]S22.利用網(wǎng)頁抓取分析程序組件和正則表達式的規(guī)則對抓取的網(wǎng)絡信息(如HTML網(wǎng)頁的標簽)進行解析分析,獲取文本信息;同時,對互聯(lián)網(wǎng)上噪音信息(比如廣告詞或者Flash等)進彳了過濾;
[0068]S23.將提取的文本信息用步驟SI中所建立的網(wǎng)絡資源抽象數(shù)據(jù)模型進行數(shù)據(jù)的格式化處理。
[0069]其中,所述步驟S3進一步包括:
[0070]S31.利用 ICTCLAS (Institute of Computing Technology-Chinese LexicalAnalysis System,漢語詞法分析系統(tǒng))等分詞工具對所述文本信息進行分詞以及詞性標注;
[0071]S32.網(wǎng)絡信息中的關(guān)鍵信息應該容易被用戶所理解,語義明確。為了降低關(guān)鍵詞的異義性,本實施例中還加入了一些專有領(lǐng)域的專業(yè)術(shù)語,規(guī)定除了個別化學元素、動植物統(tǒng)稱及其他專有名詞外,關(guān)鍵詞不能是單個字。另外,除了節(jié)假日外,用戶一般不會對特定的日期、時間感興趣,因此,除非文本確實強調(diào)某個具體時間,否則如“2003年”、“三月”等詞不應是話題標簽的內(nèi)容。以此標準來統(tǒng)計分詞數(shù)據(jù)作為話題標簽的候選關(guān)鍵詞標準;根據(jù)該候選詞標準,去掉一些不符合定義規(guī)范的詞(例如一些虛詞、數(shù)量詞、擬聲詞等)及停用詞,即對所述步驟S31中分詞結(jié)果進行過濾,將一些單個字的詞和停用詞表中的詞語過濾掉,獲取候選關(guān)鍵詞;
[0072]S33.保存所有候選關(guān)鍵詞,統(tǒng)計各候選關(guān)鍵詞對所述話題標簽的貢獻度,利用LDA (Latent Dirichlet Allocation,潛在狄利克雷分配模型)話題模型算法,對所述網(wǎng)絡信息進行聚類分析;本實施例中,該步驟具體包括:
[0073]除詞性外,從詞的詞頻、出現(xiàn)位置及形態(tài)三方面考慮,為每個詞設置了八個貢獻度,所有貢獻度及計算方法如表I所示。
[0074]表I詞語貢獻度及其計算方法
【權(quán)利要求】
1.一種基于語義的信息采集方法,其特征在于,包括步驟: 51.根據(jù)網(wǎng)絡資源的典型特征,建立網(wǎng)絡資源抽象數(shù)據(jù)模型; 52.借助搜索引擎從互聯(lián)網(wǎng)采集網(wǎng)絡信息,并將采集的網(wǎng)絡信息用所述網(wǎng)絡資源抽象數(shù)據(jù)模型進行格式化處理; 53.對格式化處理后的網(wǎng)絡信息進行聚類分析,并根據(jù)聚類分析結(jié)果將所述網(wǎng)絡信息劃分入對應的話題中,并提取每個話題的標簽; 54.對所述步驟S3中處理結(jié)果進行可視化展示。
2.根據(jù)權(quán)利要求1所述的基于語義的信息采集方法,其特征在于,所述步驟SI進一步包括: 根據(jù)互聯(lián)網(wǎng)資源的典型特征,總結(jié)網(wǎng)絡資源抽象數(shù)據(jù)模型模型要素,建立網(wǎng)絡資源抽象數(shù)據(jù)模型模型。
3.根據(jù)權(quán)利要求2所述的基于語義的信息采集方法,其特征在于,所述步驟S2進一步包括: 521.從互聯(lián)網(wǎng)上抓取搜索引擎搜索到的網(wǎng)絡信息; 522.利用網(wǎng)頁抓取分析程序組件和正則表達式的規(guī)則對抓取的網(wǎng)絡信息進行解析分析,獲取文本信息; 523.利用所述網(wǎng)絡資源抽象數(shù)據(jù)模型對獲取的文本信息進行格式化處理。
4.根據(jù)權(quán)利要求3所述的基于語義的信息采集方法,其特征在于,所述步驟S3進一步包括: 531.利用中文分詞工具對格式化處理后的文本信息進行分詞以及詞性標注; 532.根據(jù)預設的候選關(guān)鍵詞標準,對所述步驟S31中分詞結(jié)果進行過濾,獲取候選關(guān)鍵詞; 533.統(tǒng)計各候選關(guān)鍵詞對所述話題標簽的貢獻度,對所述網(wǎng)絡信息進行聚類分析,并根據(jù)聚類分析結(jié)果將所述網(wǎng)絡信息劃分入對應的話題中; 534.對所述候選關(guān)鍵詞按照貢獻度降序排列,抽取前若干個候選關(guān)鍵詞,生成話題標簽。
5.根據(jù)權(quán)利要求4所述的基于語義的信息采集方法,其特征在于,所述步驟S3進一步包括:535.建立所述候選關(guān)鍵詞在知識庫中的鏈接。
6.根據(jù)權(quán)利要求5所述的基于語義的信息采集方法,其特征在于,所述步驟S4進一步包括: 541.根據(jù)用戶提供的搜索詞,以搜索引擎搜索到的前若干項網(wǎng)絡信息為摘要,供用戶判斷是否所需內(nèi)容:若否,則結(jié)束;若是,則繼續(xù); 542.根據(jù)所述步驟S1-步驟S3將所述步驟S41中獲取的網(wǎng)絡信息劃分入對應的話題中,并生成對應的話題標簽; 543.根據(jù)話題與單條網(wǎng)絡信息之間的關(guān)系度排序,生成話題實體關(guān)系圖以及與知識庫的鏈接。
7.根據(jù)權(quán)利要求1-6任意一項所述的基于語義的信息采集方法,其特征在于,所述步驟S4之后還包括:S5.根據(jù)生成的話題標簽及話題標簽下的網(wǎng)絡信息,選擇要打包下載的資料內(nèi)容并對打包下載到的資料內(nèi)容建立索引。
8.根據(jù)權(quán)利要求7所述的基于語義的信息采集方法,其特征在于,所述步驟S5之后還包括: S6.將所述步驟S5中打包下載的資料內(nèi)容復制到指定的文件夾或者目錄下;自動的對復制的資料內(nèi)容進行解壓處理以及數(shù)據(jù)還原,并以網(wǎng)頁的形式呈現(xiàn)出來供用戶瀏覽。
9.一種根據(jù)權(quán)利要求1-8任意一項所示的方法實現(xiàn)的基于語義的信息采集系統(tǒng),其特征在于,包括: 抽象數(shù)據(jù)模型構(gòu)建模塊:用于根據(jù)網(wǎng)絡資源的典型特征,建立網(wǎng)絡資源抽象數(shù)據(jù)模型; 網(wǎng)絡信息采集模塊:借助搜索引擎從互聯(lián)網(wǎng)采集網(wǎng)絡信息,并將采集的網(wǎng)絡信息用所述網(wǎng)絡資源抽象數(shù)據(jù)模型進行格式化處理; 聚類分析模塊:對格式化處理后的網(wǎng)絡信息進行聚類分析,并根據(jù)聚類分析結(jié)果將所述網(wǎng)絡信息劃分入對應的話題中,并提取每個話題的標簽; 分析結(jié)果展示模塊:用于對所述聚類分析模塊的處理結(jié)果進行可視化展示。
10.根據(jù)權(quán)利要求9所述的基于語義的信息采集系統(tǒng),其特征在于,還包括: 資料內(nèi)容下載模塊:用于根據(jù)生成的話題標簽及話題標簽下的網(wǎng)絡信息,選擇要打包下載的資料內(nèi)容并對打包下載到的資料內(nèi)容建立索引; 離線瀏覽模塊:用于將打包下載的資料內(nèi)容復制到指定的文件夾或者目錄下并自動的對復制的資料內(nèi)容進行解壓處理以及數(shù)據(jù)還原,并以網(wǎng)頁的形式呈現(xiàn)出來供用戶瀏覽。
【文檔編號】G06F17/30GK103473369SQ201310452655
【公開日】2013年12月25日 申請日期:2013年9月27日 優(yōu)先權(quán)日:2013年9月27日
【發(fā)明者】李涓子, 祁羽, 何巍, 焦程波, 張鵬, 楊瑞兵 申請人:清華大學