一種語義搜索方法及系統(tǒng)的制作方法
【專利摘要】本發(fā)明公開了一種語義搜索方法及系統(tǒng),該方法包括以下步驟:建立語義本體庫;根據(jù)語義本體庫分析句子,得到句子的名詞性概念、動作概念和傾向性,得到語句的語義描述,統(tǒng)計分析段落主要語義指代,然后利用文檔篇章結(jié)構(gòu)總結(jié)篇章主要描述對象、語義傾向性等語義基本信息,并與文檔一起關(guān)聯(lián)存儲;根據(jù)語義本體庫進行行業(yè)相關(guān)數(shù)據(jù)探測和抓取。本發(fā)明通過網(wǎng)絡(luò)探針技術(shù),自動發(fā)現(xiàn)內(nèi)容相似度高的網(wǎng)站;通過提取網(wǎng)頁正文,對每段文本編碼,可準確判斷一篇文章重復(fù)度。
【專利說明】一種語義搜索方法及系統(tǒng)
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及數(shù)據(jù)網(wǎng)絡(luò)【技術(shù)領(lǐng)域】,尤其涉及一種語義搜索方法及系統(tǒng)。
【背景技術(shù)】
[0002]目前互聯(lián)網(wǎng)上信息轉(zhuǎn)載率很高,再加上百度、google等搜索引擎為了搜索的查全率,導(dǎo)致通用搜索的搜索結(jié)果重復(fù)度非常高,不利于企業(yè)快速發(fā)現(xiàn)有價值的內(nèi)容。
【發(fā)明內(nèi)容】
[0003]為了解決【背景技術(shù)】中存在的技術(shù)問題,本發(fā)明提出了一種語義搜索方法及系統(tǒng),通過網(wǎng)絡(luò)探針技術(shù),自動發(fā)現(xiàn)內(nèi)容相似度高的網(wǎng)站;通過提取網(wǎng)頁正文,對每段文本編碼,可準確判斷一篇文章重復(fù)度。
[0004]本發(fā)明提出的一種語義搜索方法,包括以下步驟:
[0005]建立語義本體庫;
[0006]根據(jù)語義本體庫分析句子,得到句子的名詞性概念、動作概念和傾向性,得到語句的語義描述,統(tǒng)計分析段落主要語義指代,然后利用文檔篇章結(jié)構(gòu)總結(jié)篇章主要描述對象、語義傾向性等語義基本信息,并與文檔一起關(guān)聯(lián)存儲;
[0007]根據(jù)語義本體庫進行行業(yè)相關(guān)數(shù)據(jù)探測和抓取。
[0008]優(yōu)選地,所述語義本體庫包括行業(yè)概念體系、概念之間語義關(guān)系、詞語與概念之間的關(guān)系。
[0009]優(yōu)選地,所述語義本體庫包括行業(yè)無關(guān)的內(nèi)置本體庫和行業(yè)相關(guān)的行業(yè)本體庫。
[0010]優(yōu)選地,所述根據(jù)語義本體庫進行行業(yè)相關(guān)數(shù)據(jù)探測和抓取,具體包括:采用網(wǎng)絡(luò)行業(yè)信息探針,利用語義本體庫,通過URL鏈路、搜索引擎跳板等手段,找備選網(wǎng)站,然后驗證網(wǎng)站或者子站、子目錄是否為企業(yè)相關(guān)信息、相關(guān)密度是什么,并通過網(wǎng)站拓撲、URL鏈路,form表格對深度網(wǎng)絡(luò)進行挖掘,以找潛在數(shù)據(jù)源。
[0011]優(yōu)選地,所述采用網(wǎng)絡(luò)行業(yè)信息探針,具體包括不斷探測一個站點網(wǎng)頁,通過自動填充表單的方式,測試返回數(shù)據(jù),從而找到最合適的表單格式,找到表單格式之后,自動提交表單,比較獲取網(wǎng)頁。
[0012]本發(fā)明提出的一種語義搜索系統(tǒng),包括:
[0013]建立模塊,用于建立語義本體庫;
[0014]分析模塊,與所述建立模塊連接,用于根據(jù)語義本體庫分析句子,得到句子的名詞性概念、動作概念和傾向性,得到語句的語義描述,統(tǒng)計分析段落主要語義指代,然后利用文檔篇章結(jié)構(gòu)總結(jié)篇章主要描述對象、語義傾向性等語義基本信息,并與文檔一起關(guān)聯(lián)存儲;
[0015]探測和抓取模塊,與所述分析模塊連接,用于根據(jù)語義本體庫進行行業(yè)相關(guān)數(shù)據(jù)探測和抓取。
[0016]優(yōu)選地,所述語義本體庫包括行業(yè)概念體系、概念之間語義關(guān)系、詞語與概念之間的關(guān)系。
[0017]優(yōu)選地,所述語義本體庫包括行業(yè)無關(guān)的內(nèi)置本體庫和行業(yè)相關(guān)的行業(yè)本體庫。
[0018]優(yōu)選地,所述根據(jù)語義本體庫進行行業(yè)相關(guān)數(shù)據(jù)探測和抓取,具體包括:采用網(wǎng)絡(luò)行業(yè)信息探針,利用語義本體庫,通過URL鏈路、搜索引擎跳板等手段,找備選網(wǎng)站,然后驗證網(wǎng)站或者子站、子目錄是否為企業(yè)相關(guān)信息、相關(guān)密度是什么,并通過網(wǎng)站拓撲、URL鏈路,form表格對深度網(wǎng)絡(luò)進行挖掘,以找潛在數(shù)據(jù)源。
[0019]優(yōu)選地,所述采用網(wǎng)絡(luò)行業(yè)信息探針,具體包括不斷探測一個站點網(wǎng)頁,通過自動填充表單的方式,測試返回數(shù)據(jù),從而找到最合適的表單格式,找到表單格式之后,自動提交表單,比較獲取網(wǎng)頁。
[0020]本發(fā)明中,通過分析句子,得到句子的名詞性概念、動作概念和傾向性、語句的語義描述,然后統(tǒng)計分析段落主要語義指代,利用文檔篇章結(jié)構(gòu)總結(jié)篇章主要描述對象、語義傾向性等語義基本信息,并與文檔一起關(guān)聯(lián)存儲,以支持語義搜索和情報分析。并且可以利用企業(yè)搜索需求所關(guān)注的一般為針對性強的行業(yè)內(nèi)信息的特點,結(jié)合業(yè)已相當(dāng)豐富的互聯(lián)網(wǎng)資源,快速構(gòu)建適合本項目所提出的語義搜索模型中所需要的本體,然后利用本體語義信息豐富的特點,實現(xiàn)了實用的、語義層面的行業(yè)定制搜索引擎。
【專利附圖】
【附圖說明】
[0021]圖1為本發(fā)明實施例提出的一種語義搜索方法流程圖;
[0022]圖2為本發(fā)明實施例提出的一種語義搜索系統(tǒng)結(jié)構(gòu)圖。
【具體實施方式】
[0023]如圖1所示,本發(fā)明實施例提出了一種語義搜索方法及系統(tǒng),包括以下步驟:
[0024]步驟101,建立語義本體庫。其中,語義本體庫描述的要點包括行業(yè)概念體系、概念之間語義關(guān)系、詞語與概念之間的關(guān)系等。構(gòu)建該語義本體庫,需要利用數(shù)據(jù)挖掘和互聯(lián)網(wǎng)資源相互對照實現(xiàn)概念體系和語義關(guān)系等,并提供可視化人工修整工具,大大縮減構(gòu)建成本。語義本體庫主要為兩套,一套是行業(yè)無關(guān)的內(nèi)置本體庫,可描述一般性、行業(yè)無關(guān)的詞匯和語言概念,并且用戶可以通過系統(tǒng)自動更新來更新該本體庫;一套是描述行業(yè)相關(guān)的行業(yè)本體庫,主要描述行業(yè)概念以及概念之間的關(guān)系。
[0025]步驟102,根據(jù)語義本體庫分析句子,得到句子的名詞性概念、動作概念和傾向性,得到語句的語義描述,統(tǒng)計分析段落主要語義指代,然后利用文檔篇章結(jié)構(gòu)總結(jié)篇章主要描述對象、語義傾向性等語義基本信息,并與文檔一起關(guān)聯(lián)存儲,以支持語義搜索和情報分析。
[0026]步驟103,根據(jù)語義本體庫進行行業(yè)相關(guān)數(shù)據(jù)探測和抓取。采用網(wǎng)絡(luò)行業(yè)信息(deep web)探針,利用語義本體庫,通過URL鏈路、搜索引擎跳板等手段,找備選網(wǎng)站,然后驗證網(wǎng)站或者子站、子目錄是否為企業(yè)相關(guān)信息、相關(guān)密度是什么,并通過網(wǎng)站拓撲、URL鏈路,form表格等對深度網(wǎng)絡(luò)進行挖掘,以找潛在數(shù)據(jù)源。由于de印web很多是結(jié)構(gòu)化良好的數(shù)據(jù),便于分析,且往往在通用搜索引擎下無法搜索得到,對客戶有巨大價值。這種策略在沒有損失行業(yè)數(shù)據(jù)收錄量的情況下,極大地節(jié)約帶寬和數(shù)據(jù)檢索量,并提高了數(shù)據(jù)入庫周期,提高實時度。
[0027]其中,采用網(wǎng)絡(luò)行業(yè)信息探針,不斷探測一個站點網(wǎng)頁,通過自動填充表單的方式,測試返回數(shù)據(jù),從而找到最合適的表單格式,找到表單格式之后,自動提交表單,比較獲取網(wǎng)頁。
[0028]其中,Deep Web指那些存儲在網(wǎng)絡(luò)數(shù)據(jù)庫里、不能通過超鏈接訪問而需要通過動態(tài)網(wǎng)頁技術(shù)訪問的資源集合。Web頁面解析即通過分析標簽,解析HTML頁面,并提取出正文內(nèi)容,利用HTML規(guī)范和基于視覺頁面分塊技術(shù),提取頁面的元信息(如標題、關(guān)鍵字等)和正文文本,有效避免無關(guān)信息的干擾。
[0029]在本發(fā)明實驗中,同一站點的De印web資源返回頁面結(jié)構(gòu)差別很小,利用此特點,分析前后獲取頁面DOM樹,抽取出DOM樹中節(jié)點內(nèi)容不同的節(jié)點,這就是需要采集的數(shù)據(jù)。提取到正確的數(shù)據(jù)后,通知管理員配置數(shù)據(jù)格式,完成Deep Web站點發(fā)現(xiàn)和采集。
[0030]本發(fā)明中,利用語義分析技術(shù),對篇章每句話作語義分析,標注動詞性語義點、名詞性語義點和語義傾向性,然后匯總成段落和整個篇章的語義側(cè)重點,最后利用語義側(cè)重點,結(jié)合篇章特點,以字數(shù)(如400字)為約束條件,來挑選盡可能涵蓋全文語義的若干個“句組”組成全文摘要。搜索結(jié)果的文檔摘要實現(xiàn)上不同之處在于增加搜索詞(包括概念接近詞)的密度這個約束條件。
[0031]文檔的概念化索引基于上文描述的文檔語義表示技術(shù),將文檔的語義描述(語義本體空間),然后把這些概念以及概念的權(quán)重等其他附加語義信息作為索引對象,存儲為倒排索引索引文件。搜索詞的概念化重寫指的是將用戶的搜索詞也映射到本體所定義的語義空間中。語義搜索技術(shù)在本系統(tǒng)中還是其他若干模塊(如重點推薦情報,情報漫游等)的底層支持。實現(xiàn)上將用戶高頻度搜索詞與最近搜索詞進行排序,并驗證最近采集到的數(shù)據(jù)與之匹配程度,來估算用戶對其感興趣的程度,作為推薦情報和瀏覽排序的重要參考依據(jù)。
[0032]如圖2所示,本發(fā)明實施例提出了一種語義搜索系統(tǒng),包括:建立模塊10,用于建立語義本體庫;分析模塊20,與所述建立模塊10連接,用于根據(jù)語義本體庫分析句子,得到句子的名詞性概念、動作概念和傾向性,得到語句的語義描述,統(tǒng)計分析段落主要語義指代,然后利用文檔篇章結(jié)構(gòu)總結(jié)篇章主要描述對象、語義傾向性等語義基本信息,并與文檔一起關(guān)聯(lián)存儲;探測和抓取模塊30,與所述分析模塊20連接,用于根據(jù)語義本體庫進行行業(yè)相關(guān)數(shù)據(jù)探測和抓取。
[0033]所述語義本體庫包括行業(yè)概念體系、概念之間語義關(guān)系、詞語與概念之間的關(guān)系。
[0034]所述語義本體庫包括行業(yè)無關(guān)的內(nèi)置本體庫和行業(yè)相關(guān)的行業(yè)本體庫。
【權(quán)利要求】
1.一種語義搜索方法,其特征在于,包括以下步驟: 建立語義本體庫; 根據(jù)語義本體庫分析句子,得到句子的名詞性概念、動作概念和傾向性,得到語句的語義描述,統(tǒng)計分析段落主要語義指代,然后利用文檔篇章結(jié)構(gòu)總結(jié)篇章主要描述對象、語義傾向性等語義基本信息,并與文檔一起關(guān)聯(lián)存儲; 根據(jù)語義本體庫進行行業(yè)相關(guān)數(shù)據(jù)探測和抓取。
2.根據(jù)權(quán)利要求1所述的語義搜索方法,其特征在于,所述語義本體庫包括行業(yè)概念體系、概念之間語義關(guān)系、詞語與概念之間的關(guān)系。
3.根據(jù)權(quán)利要求1所述的語義搜索方法,其特征在于,所述語義本體庫包括行業(yè)無關(guān)的內(nèi)置本體庫和行業(yè)相關(guān)的行業(yè)本體庫。
4.根據(jù)權(quán)利要求1所述的語義搜索方法,其特征在于,所述根據(jù)語義本體庫進行行業(yè)相關(guān)數(shù)據(jù)探測和抓取,具體包括:采用網(wǎng)絡(luò)行業(yè)信息探針,利用語義本體庫,通過URL鏈路、搜索引擎跳板等手段,找備選網(wǎng)站,然后驗證網(wǎng)站或者子站、子目錄是否為企業(yè)相關(guān)信息、相關(guān)密度是什么,并通過網(wǎng)站拓撲、URL鏈路,form表格對深度網(wǎng)絡(luò)進行挖掘,以找潛在數(shù)據(jù)源。
5.根據(jù)權(quán)利要求4所述的語義搜索方法,其特征在于,所述采用網(wǎng)絡(luò)行業(yè)信息探針,具體包括不斷探測一個站點網(wǎng)頁,通過自動填充表單的方式,測試返回數(shù)據(jù),從而找到最合適的表單格式,找到表單格式之后,自動提交表單,比較獲取網(wǎng)頁。
6.一種語義搜索系統(tǒng),其特征在于,包括: 建立模塊,用于建立語義本體庫; 分析模塊,與所述建立模塊連接,用于根據(jù)語義本體庫分析句子,得到句子的名詞性概念、動作概念和傾向性,得到語句的語義描述,統(tǒng)計分析段落主要語義指代,然后利用文檔篇章結(jié)構(gòu)總結(jié)篇章主要描述對象、語義傾向性等語義基本信息,并與文檔一起關(guān)聯(lián)存儲; 探測和抓取模塊,與所述分析模塊連接,用于根據(jù)語義本體庫進行行業(yè)相關(guān)數(shù)據(jù)探測和抓取。
7.根據(jù)權(quán)利要求6所述的語義搜索系統(tǒng),其特征在于,所述語義本體庫包括行業(yè)概念體系、概念之間語義關(guān)系、詞語與概念之間的關(guān)系。
8.根據(jù)權(quán)利要求6所述的語義搜索系統(tǒng),其特征在于,所述語義本體庫包括行業(yè)無關(guān)的內(nèi)置本體庫和行業(yè)相關(guān)的行業(yè)本體庫。
9.根據(jù)權(quán)利要求6所述的語義搜索系統(tǒng),其特征在于,所述根據(jù)語義本體庫進行行業(yè)相關(guān)數(shù)據(jù)探測和抓取,具體包括:采用網(wǎng)絡(luò)行業(yè)信息探針,利用語義本體庫,通過URL鏈路、搜索引擎跳板等手段,找備選網(wǎng)站,然后驗證網(wǎng)站或者子站、子目錄是否為企業(yè)相關(guān)信息、相關(guān)密度是什么,并通過網(wǎng)站拓撲、URL鏈路,form表格對深度網(wǎng)絡(luò)進行挖掘,以找潛在數(shù)據(jù)源。
10.根據(jù)權(quán)利要求9所述的語義搜索系統(tǒng),其特征在于,所述采用網(wǎng)絡(luò)行業(yè)信息探針,具體包括不斷探測一個站點網(wǎng)頁,通過自動填充表單的方式,測試返回數(shù)據(jù),從而找到最合適的表單格式,找到表單格式之后,自動提交表單,比較獲取網(wǎng)頁。
【文檔編號】G06F17/27GK104281693SQ201410537867
【公開日】2015年1月14日 申請日期:2014年10月13日 優(yōu)先權(quán)日:2014年10月13日
【發(fā)明者】賈巖 申請人:安徽華貞信息科技有限公司