本發(fā)明涉及信息處理領(lǐng)域,尤其涉及一種知識(shí)抽取方法及裝置。
背景技術(shù):
::計(jì)算機(jī)科學(xué)相關(guān)技術(shù)的發(fā)展在給人們的工作和生活帶來便利的同時(shí),也提出了更加智能化的需求,學(xué)術(shù)界及工業(yè)界都投入大量人力物力研究智能化技術(shù),本體知識(shí)系統(tǒng)作為人工智能學(xué)科最重要的工業(yè)化和商業(yè)化產(chǎn)物,輔助計(jì)算機(jī)科學(xué)領(lǐng)域向更加智能化方向發(fā)展,為了構(gòu)建本體知識(shí),人們探索了很多方法來幫助從非結(jié)構(gòu)化的文本數(shù)據(jù)中提取知識(shí),由于互聯(lián)網(wǎng)頁(yè)面包含的數(shù)據(jù)和知識(shí)豐富,為本體知識(shí)構(gòu)建提供了寶貴資源,而互聯(lián)網(wǎng)頁(yè)面中的表格數(shù)據(jù)由于結(jié)構(gòu)化的組織形式,有利于實(shí)現(xiàn)知識(shí)與數(shù)據(jù)之間的映射,通過抽取網(wǎng)頁(yè)表格數(shù)據(jù)用于本體知識(shí)構(gòu)建,將有效幫助完成本體知識(shí)構(gòu)建過程;目前,本體知識(shí)的自動(dòng)化抽取已經(jīng)成為行業(yè)和產(chǎn)業(yè)向前推進(jìn)的關(guān)鍵部分。現(xiàn)有本體知識(shí)抽取技術(shù),主要集中在本體知識(shí)構(gòu)建過程的整體實(shí)現(xiàn)上,較多注重系統(tǒng)或設(shè)備本身,只是提供了人機(jī)交互接口,輔助完成本體知識(shí)構(gòu)建的各個(gè)流程,較少涉及知識(shí)自動(dòng)化抽取技術(shù)的創(chuàng)新,知識(shí)抽取大多需要依賴專家進(jìn)行抽取規(guī)則或訓(xùn)練數(shù)據(jù)的整理,現(xiàn)有技術(shù)實(shí)質(zhì)上是輔助進(jìn)行人工整理工作的半自動(dòng)化抽取系統(tǒng),并非真正意義上的自動(dòng)化抽取,且存在由于專家和數(shù)據(jù)的知識(shí)偏差導(dǎo)致后續(xù)錯(cuò)誤的風(fēng)險(xiǎn),抽取成本很高;如此,會(huì)降低抽取效率。技術(shù)實(shí)現(xiàn)要素:有鑒于此,本發(fā)明實(shí)施例期望提供一種知識(shí)抽取方法及裝置,能實(shí)現(xiàn)表格數(shù)據(jù)的自動(dòng)化抽取,降低了抽取成本,提高了抽取效率。為達(dá)到上述目的,本發(fā)明的技術(shù)方案是這樣實(shí)現(xiàn)的:本發(fā)明實(shí)施例提供一種知識(shí)抽取方法,包括:獲取表格數(shù)據(jù)的語(yǔ)義相似度,根據(jù)所述語(yǔ)義相似度確定表格結(jié)構(gòu);根據(jù)所述表格結(jié)構(gòu)確定表頭屬性名稱;抽取所述表頭屬性名稱及所述表頭屬性名稱對(duì)應(yīng)的表格內(nèi)容分別作為知識(shí)屬性名稱和屬性值。在上述方案中,所述獲取表格數(shù)據(jù)的語(yǔ)義相似度,根據(jù)所述語(yǔ)義相似度確定表格結(jié)構(gòu)包括:將表格數(shù)據(jù)按照橫表結(jié)構(gòu)拆分為第一表頭和多個(gè)第一表格內(nèi)容時(shí),獲取所述第一表頭與各所述第一表格內(nèi)容間的語(yǔ)義相似度、及各所述第一表格內(nèi)容之間的語(yǔ)義相似度;將所述表格數(shù)據(jù)按照豎表結(jié)構(gòu)拆分為第二表頭和多個(gè)第二表格內(nèi)容時(shí),獲取所述第二表頭與各所述第二表格內(nèi)容間的語(yǔ)義相似度、及各所述第二表格內(nèi)容之間的語(yǔ)義相似度;根據(jù)所述第一表頭與各所述第一表格內(nèi)容間的語(yǔ)義相似度、各所述第一表格內(nèi)容之間的語(yǔ)義相似度、所述第二表頭與各所述第二表格內(nèi)容間的語(yǔ)義相似度、各所述第二表格內(nèi)容之間的語(yǔ)義相似度,及預(yù)設(shè)的表頭與表格內(nèi)容間的語(yǔ)義相似度閾值和表格內(nèi)容之間的語(yǔ)義相似度閾值,確定表格結(jié)構(gòu)。在上述方案中,所述根據(jù)所述表格結(jié)構(gòu)確定表頭屬性名稱包括:根據(jù)所述表格結(jié)構(gòu)確定所述表格數(shù)據(jù)的初始表頭;在確定所述初始表頭存在屬性名稱的總分結(jié)構(gòu)時(shí),對(duì)所述初始表頭進(jìn)行屬性合并,確定表頭屬性名稱。在上述方案中,所述抽取所述表頭屬性名稱及所述表頭屬性名稱對(duì)應(yīng)的表格內(nèi)容分別作為知識(shí)屬性名稱和屬性值之前,所述方法還包括:根據(jù)所述表頭屬性名稱,對(duì)所述表頭屬性名稱對(duì)應(yīng)的表格內(nèi)容進(jìn)行合并。本發(fā)明實(shí)施例還提供一種知識(shí)抽取裝置,包括:獲取模塊,用于獲取表格數(shù)據(jù)的語(yǔ)義相似度;確定模塊,用于根據(jù)所述獲取模塊獲取的所述語(yǔ)義相似度確定表格結(jié)構(gòu); 還用于根據(jù)所述表格結(jié)構(gòu)確定表頭屬性名稱;抽取模塊,用于抽取所述表頭屬性名稱及所述表頭屬性名稱對(duì)應(yīng)的表格內(nèi)容分別作為知識(shí)屬性名稱和屬性值。在上述方案中,所述獲取模塊,具體用于將表格數(shù)據(jù)按照橫表結(jié)構(gòu)拆分為第一表頭和多個(gè)第一表格內(nèi)容時(shí),獲取所述第一表頭與各所述第一表格內(nèi)容間的語(yǔ)義相似度、及各所述第一表格內(nèi)容之間的語(yǔ)義相似度;將所述表格數(shù)據(jù)按照豎表結(jié)構(gòu)拆分為第二表頭和多個(gè)第二表格內(nèi)容時(shí),獲取所述第二表頭與各所述第二表格內(nèi)容間的語(yǔ)義相似度、及各所述第二表格內(nèi)容之間的語(yǔ)義相似度;所述確定模塊,具體用于根據(jù)所述第一表頭與各所述第一表格內(nèi)容間的語(yǔ)義相似度、各所述第一表格內(nèi)容之間的語(yǔ)義相似度、所述第二表頭與各所述第二表格內(nèi)容間的語(yǔ)義相似度、各所述第二表格內(nèi)容之間的語(yǔ)義相似度,及預(yù)設(shè)的表頭與表格內(nèi)容間的語(yǔ)義相似度閾值和表格內(nèi)容之間的語(yǔ)義相似度閾值,確定表格結(jié)構(gòu)。在上述方案中,所述確定模塊,具體用于根據(jù)所述表格結(jié)構(gòu)確定所述表格數(shù)據(jù)的初始表頭;在確定所述初始表頭存在屬性名稱的總分結(jié)構(gòu)時(shí),對(duì)所述表格數(shù)據(jù)的初始表頭進(jìn)行合并,確定表頭屬性名稱。在上述方案中,所述裝置還包括:對(duì)齊模塊,用于根據(jù)所述表頭屬性名稱,對(duì)所述表頭屬性名稱對(duì)應(yīng)的表格內(nèi)容進(jìn)行合并。本發(fā)明實(shí)施例提供的知識(shí)抽取方法及裝置,通過獲取表格數(shù)據(jù)的語(yǔ)義相似度,利用表格數(shù)據(jù)自身的語(yǔ)義特征來識(shí)別表格結(jié)構(gòu),通過抽取表頭屬性名稱及表頭屬性名稱對(duì)應(yīng)的表格內(nèi)容分別作為知識(shí)屬性名稱和屬性值,得到可直接用于本體知識(shí)構(gòu)建的知識(shí)數(shù)據(jù),整個(gè)表格數(shù)據(jù)抽取過程并不受限于任何先驗(yàn)知識(shí),不需要人工介入;如此,能實(shí)現(xiàn)表格結(jié)構(gòu)識(shí)別和表格數(shù)據(jù)抽取的自動(dòng)化,降低了知識(shí)抽取的人力成本,進(jìn)而可提高本體知識(shí)的抽取效率。附圖說明圖1為本發(fā)明實(shí)施例提供的知識(shí)抽取方法的流程圖;圖2為本發(fā)明實(shí)施例提供的一份網(wǎng)頁(yè)表格示例圖;圖3為本發(fā)明實(shí)施例提供的另一份網(wǎng)頁(yè)表格示例圖;圖4為本發(fā)明實(shí)施例提供的再一份網(wǎng)頁(yè)表格示例圖;圖5為本發(fā)明實(shí)施例提供的知識(shí)抽取裝置的結(jié)構(gòu)示意圖;圖6為本發(fā)明實(shí)施例提供的知識(shí)抽取裝置的另一結(jié)構(gòu)示意圖。具體實(shí)施方式下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述。圖1為本發(fā)明實(shí)施例提供的知識(shí)抽取方法的流程圖,如圖1所示,該方法包括:步驟101、獲取表格數(shù)據(jù)的語(yǔ)義相似度,根據(jù)所述語(yǔ)義相似度確定表格結(jié)構(gòu)。本發(fā)明實(shí)施例提供的知識(shí)抽取方法,可以應(yīng)用于人工智能、計(jì)算語(yǔ)言、數(shù)據(jù)原理、知識(shí)工程、知識(shí)表示、語(yǔ)言工程、數(shù)據(jù)設(shè)計(jì)、信息模型、信息集成、信息檢索、信息摘要、知識(shí)管理、法律信息系統(tǒng)、生物信息系統(tǒng)等領(lǐng)域;本發(fā)明實(shí)施例的執(zhí)行主體可以為知識(shí)抽取裝置。在本發(fā)明實(shí)施例中,所述表格數(shù)據(jù)可以為超文本標(biāo)記語(yǔ)言(HTML,HyperTextMark-upLanguage)網(wǎng)頁(yè)中的表格數(shù)據(jù);HTML網(wǎng)頁(yè)中使用<表格(table)></table>標(biāo)簽表示表格,其中又使用<tr></tr>和<td></td>劃分行列數(shù)據(jù);然而并非所有<table>標(biāo)簽內(nèi)的數(shù)據(jù)都表達(dá)結(jié)構(gòu)化知識(shí)體系,也可能是偽裝表格,例如,用于頁(yè)面排版的表格數(shù)據(jù),為了頁(yè)面排版的美觀整潔,重在樣式及內(nèi)容的編輯,一般不太嚴(yán)格遵循表格結(jié)構(gòu)化組織形式。在本發(fā)明實(shí)施例中,至少可以通過以下任一方法篩選掉這類偽裝表格:1、利用表格中的兩個(gè)參數(shù):跨列數(shù)(colspan)和跨行數(shù)(rowspan),初步統(tǒng)計(jì)表 格布局情況,排除不符合表格結(jié)構(gòu)化組織形式的偽裝表格;2、根據(jù)表格數(shù)據(jù)的語(yǔ)義分析排除部分偽裝表格。對(duì)于篩選方法1,符合結(jié)構(gòu)化組織形式的表格數(shù)據(jù)會(huì)通過colspan和rowspan參數(shù)布局為m*n的結(jié)構(gòu)化形式,便于體現(xiàn)系統(tǒng)知識(shí)結(jié)構(gòu),達(dá)到使用表格形式表現(xiàn)數(shù)據(jù)的意義。在本發(fā)明實(shí)施例中,在獲取到HTML網(wǎng)頁(yè)中的表格數(shù)據(jù)后,初步統(tǒng)計(jì)整理該表格的組織結(jié)構(gòu),若該表格不滿足m*n形式,則將其淘汰;具體步驟如下:1)逐行讀取表格數(shù)據(jù),記錄每行包含列數(shù),每行包含列數(shù)為該行每項(xiàng)數(shù)據(jù)的colspan的總和;如果某項(xiàng)數(shù)據(jù)的rowspan大于1,說明此項(xiàng)數(shù)據(jù)跨越了多行,在相應(yīng)行計(jì)算列數(shù)時(shí)應(yīng)補(bǔ)全此項(xiàng)數(shù)據(jù)的占位。2)比較每行列數(shù)是否一致:如果不同,則判斷此表格數(shù)據(jù)為偽裝表格,不對(duì)齊進(jìn)行后續(xù)的數(shù)據(jù)抽?。环粗?,則得到該表格數(shù)據(jù)的總列數(shù)N。3)讀取過程中記錄表格行數(shù),讀取完畢后得到該表格數(shù)據(jù)的總行數(shù)M。圖2為本發(fā)明實(shí)施例提供的一份網(wǎng)頁(yè)表格示例圖,如圖2所示,該網(wǎng)頁(yè)表格的第1行第8列數(shù)據(jù)“超出后”的colspan為2,因此,在計(jì)算第1行數(shù)據(jù)的列數(shù)時(shí)應(yīng)加1,第1行的總列數(shù)為11;第1行第1列數(shù)據(jù)“資費(fèi)標(biāo)識(shí)”的rowspan為2,此數(shù)據(jù)橫跨了兩行表格,則在第1行和第2行計(jì)算列數(shù)據(jù)時(shí)都需要加1;最終得到該網(wǎng)頁(yè)表格每行都為11列,共8行,符合表格組織結(jié)構(gòu)化組織形式。由于表格數(shù)據(jù)內(nèi)容組織的特殊形式,通常同一屬性數(shù)值表現(xiàn)為同一語(yǔ)義內(nèi)容,但不一定是同一內(nèi)容數(shù)值,所以一些特殊數(shù)據(jù)僅需要在同一語(yǔ)義范圍內(nèi)即可認(rèn)為結(jié)構(gòu)一致。為了在語(yǔ)義比較中更好地體現(xiàn)數(shù)據(jù)相關(guān)性,歸一化部分特殊的數(shù)據(jù),包括時(shí)間、地點(diǎn)、人名等命名實(shí)體,唯一化替換為{時(shí)間}、{地點(diǎn)}、{人名}等,另外識(shí)別數(shù)字型數(shù)據(jù)替換為{數(shù)值}。例如圖2中第3行數(shù)據(jù)內(nèi)容,經(jīng)命名實(shí)體歸一化后為:BCAZ{數(shù)字}|全省|全球通統(tǒng)一套餐({時(shí)間}版)_商旅套餐{數(shù)字}檔|{數(shù)字}元|免費(fèi)|{數(shù)字}分鐘|{數(shù)字}M|{數(shù)字}元/分|{數(shù)字}元/M|來電顯示|金卡VIP服務(wù)、電話客戶經(jīng)理專屬服務(wù)。本發(fā)明實(shí)施例利用表格數(shù)據(jù)自身的語(yǔ)義特征來識(shí)別表格結(jié)構(gòu)。實(shí)際中,表格結(jié)構(gòu)可以分為橫表和豎表兩種。步驟102、根據(jù)所述表格結(jié)構(gòu)確定表頭屬性名稱。步驟103、抽取所述表頭屬性名稱及所述表頭屬性名稱對(duì)應(yīng)的表格內(nèi)容分別作為知識(shí)屬性名稱和屬性值。區(qū)別于現(xiàn)有技術(shù)依賴于人工整理知識(shí)抽取規(guī)則的方法,本發(fā)明實(shí)施例提供的知識(shí)抽取方法,利用表格數(shù)據(jù)自身的語(yǔ)義特征來識(shí)別表格結(jié)構(gòu),及通過抽取表頭屬性名稱及表頭屬性名稱對(duì)應(yīng)的表格內(nèi)容分別作為知識(shí)屬性名稱和屬性值,得到可直接用于本體知識(shí)構(gòu)建的知識(shí)數(shù)據(jù),整個(gè)表格數(shù)據(jù)抽取過程并不受限于任何先驗(yàn)知識(shí),不需要人工介入;如此,能實(shí)現(xiàn)表格結(jié)構(gòu)識(shí)別和表格數(shù)據(jù)抽取的自動(dòng)化,降低了知識(shí)抽取的人力成本,進(jìn)而可提高本體知識(shí)的抽取效率,同時(shí)也可以提升本體知識(shí)的抽取性能。在上述實(shí)施例的基礎(chǔ)上,所述獲取表格數(shù)據(jù)的語(yǔ)義相似度,根據(jù)所述語(yǔ)義相似度確定表格結(jié)構(gòu)的一種可選實(shí)施方式包括:步驟a)將表格數(shù)據(jù)按照橫表結(jié)構(gòu)拆分為第一表頭和多個(gè)第一表格內(nèi)容時(shí),獲取所述第一表頭與各所述第一表格內(nèi)容間的語(yǔ)義相似度、及各所述第一表格內(nèi)容之間的語(yǔ)義相似度。在步驟a)中假設(shè)所述表格數(shù)據(jù)為橫表結(jié)構(gòu),將所述表格數(shù)據(jù)拆分為第一表頭和第一表格內(nèi)容;例如,讀取首行數(shù)據(jù)為第一表頭,其余表格數(shù)據(jù)為第一表格內(nèi)容,且所述其余表格數(shù)據(jù)的每一行即對(duì)應(yīng)為一條知識(shí),由于每一列對(duì)應(yīng)同一屬性,所以數(shù)據(jù)間在語(yǔ)義上應(yīng)具有相似性。需要注意的是,所述第一表頭并非是簡(jiǎn)單的使用表格數(shù)據(jù)的首行數(shù)據(jù),由于表頭屬性存在細(xì)分,可能使用多行表示,表頭的首行數(shù)據(jù)包括了第一行數(shù)據(jù)中rowspan最大值包括的所有行數(shù)據(jù),所述第一表頭的行數(shù)記為M′。在本發(fā)明實(shí)施例中,所述第一表頭與所述第一表格內(nèi)容間的語(yǔ)義相似度scorehead-M可以根據(jù)公式(1)獲得,所述第一表格內(nèi)容之間的語(yǔ)義相似度scoretable-M可以根據(jù)公式(2)獲得:其中,所述M為所述表格數(shù)據(jù)的行數(shù),所述N為所述表格數(shù)據(jù)的列數(shù), 所述M′為所述第一表頭的行數(shù),所述i表示行數(shù)、所述j表示列數(shù),所述sim(CM′,j,Ci,j)為所述表格數(shù)據(jù)的第M′行第j列表格內(nèi)容與第i行第j列表格內(nèi)容的語(yǔ)義相似度,sim(Ci,j,Ci+1,j)為所述表格數(shù)據(jù)的第i行第j列表格內(nèi)容與第i+1行第j列表格內(nèi)容的語(yǔ)義相似度。在計(jì)算行數(shù)據(jù)之間的相似度時(shí),如果遇到跨行或跨列的數(shù)據(jù),先不必糾結(jié)于表格數(shù)據(jù)的正確拆分整合,只有根據(jù)表格結(jié)構(gòu)屬性抽取出的數(shù)據(jù)才對(duì)知識(shí)構(gòu)建有意義;使用多維向量表示行數(shù)據(jù),列數(shù)據(jù)為對(duì)應(yīng)的向量值,跨行或跨列的數(shù)據(jù)使用同一表格數(shù)值補(bǔ)齊對(duì)應(yīng)向量數(shù)據(jù),而表頭中需要整合的列數(shù)據(jù)則直接合并。這樣,表頭和每行表格數(shù)據(jù)都統(tǒng)一為多維向量。表格數(shù)據(jù)的語(yǔ)義相似度計(jì)算,包括計(jì)算第一表頭與第一表格內(nèi)容間的語(yǔ)義相似度,及計(jì)算第一表格內(nèi)容之間的語(yǔ)義相似度,總的來說,就是計(jì)算多維向量間的語(yǔ)義相似度;在本發(fā)明實(shí)施例中,使用任意歸一化的相似度計(jì)算公式,計(jì)算第i行第j列表格內(nèi)容與第i+1行第j列表格內(nèi)容的語(yǔ)義相似度sim(Ci,j,Ci+1,j),通過加權(quán)平均得到行數(shù)據(jù)wi與wi+1之間的語(yǔ)義似度值sim(wi,wj),進(jìn)而得到所述第一表頭與所述第一表格內(nèi)容間的語(yǔ)義相似度、及所述第一表格內(nèi)容之間的語(yǔ)義相似度。b)將所述表格數(shù)據(jù)按照豎表結(jié)構(gòu)拆分為第二表頭和多個(gè)第二表格內(nèi)容時(shí),獲取所述第二表頭與各所述第二表格內(nèi)容間的語(yǔ)義相似度、及各所述第二表格內(nèi)容之間的語(yǔ)義相似度。在步驟b)中假設(shè)所述表格數(shù)據(jù)為豎表結(jié)構(gòu),將所述表格數(shù)據(jù)按照豎表結(jié)構(gòu)拆分為第二表頭和第二表格內(nèi)容;在本發(fā)明實(shí)施例中,所述第二表頭與所述第二表格內(nèi)容間的語(yǔ)義相似度scorehead-N可以根據(jù)公式(3)獲得,所述第二表格內(nèi)容之間的語(yǔ)義相似度scoretable-N可以根據(jù)公式(4)獲得:其中,所述M為所述表格數(shù)據(jù)的行數(shù),所述N為所述表格數(shù)據(jù)的列數(shù),所述N′為所述第二表頭的列數(shù),所述i表示行數(shù)、所述j表示列數(shù),所述 sim(Ci,N′,Ci,j)為所述表格數(shù)據(jù)的第i行第N′列表格內(nèi)容與第i行第j列表格內(nèi)容的語(yǔ)義相似度,sim(Ci,j,Ci,j+1)為所述表格數(shù)據(jù)的第i行第j列表格內(nèi)容與第i行第j+1列表格內(nèi)容的語(yǔ)義相似度。c)根據(jù)所述第一表頭與各所述第一表格內(nèi)容間的語(yǔ)義相似度scorehead-M、各所述第一表格內(nèi)容之間的語(yǔ)義相似度scoretable-M、所述第二表頭與各所述第二表格內(nèi)容間的語(yǔ)義相似度scorehead-N、各所述第二表格內(nèi)容之間的語(yǔ)義相似度scoretable-N,及預(yù)設(shè)的表頭與表格內(nèi)容間的語(yǔ)義相似度閾值和表格內(nèi)容之間的語(yǔ)義相似度閾值,確定表格結(jié)構(gòu)。在本發(fā)明實(shí)施例中,判斷表格數(shù)據(jù)的表格結(jié)構(gòu)既要考慮表格數(shù)據(jù)之間的相似性,也要考慮表頭和表格數(shù)據(jù)的不同,只有同時(shí)滿足這兩個(gè)條件才能準(zhǔn)確給出表格結(jié)構(gòu):具體判斷過程描述如下:首先,對(duì)步驟a)中假設(shè)表格數(shù)據(jù)為橫表結(jié)構(gòu)的情況進(jìn)行初步判斷:根據(jù)scorehead-M、scoretable-M,及預(yù)設(shè)的表頭與表格內(nèi)容間的語(yǔ)義相似度閾值α、及表格內(nèi)容之間的語(yǔ)義相似度閾值θ,若判定scorehead-M大于閾值α,則初步判斷此表格不是橫表;如判定scorehead-M不大于閾值α,則繼續(xù)比較scoretable-M與θ的大小關(guān)系,若scoretable-M大于θ,則說明第一表格內(nèi)容之間的語(yǔ)義相似度很高,具有一定的結(jié)構(gòu)化組織形式,初步判斷此表為橫表,假設(shè)成立;其次,對(duì)步驟b)中假設(shè)表格數(shù)據(jù)為豎表結(jié)構(gòu)的情況進(jìn)行初步判斷:根據(jù)scorehead-N、scoretable-N,及預(yù)設(shè)的表頭與表格內(nèi)容間的語(yǔ)義相似度閾值α、及表格內(nèi)容之間的語(yǔ)義相似度閾值θ,若判定scorehead-N大于閾值α,則初步判斷此表格不是豎表;若判定scorehead-N不大于閾值α,則繼續(xù)比較scoretable-N與θ的大小關(guān)系,若scoretable-N大于θ,則說明第二表格內(nèi)容之間的語(yǔ)義相似度很高,具有一定的結(jié)構(gòu)化組織形式,初步判斷此表為豎表,假設(shè)成立;否則,假設(shè)不成立;最后,判斷表格結(jié)構(gòu)需要計(jì)算橫表結(jié)構(gòu)、豎表結(jié)構(gòu)兩種情況,在上述初步判斷表格結(jié)構(gòu)的基礎(chǔ)上,綜合比較兩個(gè)初步判斷結(jié)果才能得出最終結(jié)論,如果上述兩個(gè)初步判斷中:若只有一種表格結(jié)構(gòu)為真,則得到確定的表格結(jié)構(gòu);若兩種表格結(jié)構(gòu)的初步判斷結(jié)果都為否,則表示該表格數(shù)據(jù)不具備表格結(jié)構(gòu)的結(jié)構(gòu)化組織形式,篩除該表格數(shù)據(jù);若兩種表格結(jié)構(gòu)的初步判斷結(jié)果都為是,即同時(shí)滿足兩種表格結(jié)構(gòu),則比較語(yǔ)義相似度大小,即分別比較scorehead-M與scorehead-N、scoretable-M與scoretable-N的大小關(guān)系,若大小相近無法區(qū)分表格結(jié)構(gòu),則淘汰此表格數(shù)據(jù),若大小差異明顯則判為該結(jié)構(gòu)。表格數(shù)據(jù)廣泛應(yīng)用在百度百科詞條的知識(shí)整理中,整齊規(guī)范展示電影、明星、書籍等相關(guān)信息。電信、金融、醫(yī)療等行業(yè)也常使用表格描述復(fù)雜的業(yè)務(wù)內(nèi)容,如運(yùn)營(yíng)商資費(fèi)、銀行理財(cái)產(chǎn)品等數(shù)據(jù)。圖3為本發(fā)明實(shí)施例提供的另一份網(wǎng)頁(yè)表格示例圖,下面以圖3為例,舉例說明表格結(jié)構(gòu)的判斷過程,將圖3的表格數(shù)據(jù)轉(zhuǎn)換為表格結(jié)構(gòu)計(jì)算向量:假設(shè)為橫表,則表頭數(shù)據(jù)向量為{“資費(fèi)標(biāo)識(shí)”,“產(chǎn)品名稱”,“月租(元)”,“國(guó)內(nèi)被叫”,“包含本地主叫國(guó)內(nèi)分鐘”,“超出后本地(元/分)主叫市話”,“超出后本地(元/分)國(guó)內(nèi)長(zhǎng)途”,“國(guó)內(nèi)漫游(元/分)”,“包含新業(yè)務(wù)”},表格內(nèi)容按行表示得到行數(shù)據(jù)向量,如第二行為{“BCAZ2021”,“全球通58元本地套餐(全球通專屬數(shù)據(jù)包)”,“58”,“免費(fèi)”,“260”,“0.25”,“主叫0.29”,“30M流量、來電顯示、139郵箱5元版”};計(jì)算表頭與表格內(nèi)容的相似度,可得出兩者并不相似;繼續(xù)計(jì)算表格內(nèi)容間的相似度,得分較高,可能為橫表結(jié)構(gòu);假設(shè)為豎表,則表頭數(shù)據(jù)向量為{“資費(fèi)標(biāo)識(shí)”,“BCAZ2021”,“BCAZ2037”,“BCAZ2014”},表格內(nèi)容按列表示得到列數(shù)據(jù)向量,如第二列為{“產(chǎn)品名稱”,“全球通58元本地套餐(全球通專屬數(shù)據(jù)包)”,“全球通88元本地套餐(全球通專屬數(shù)據(jù)包)”,“全球通128元本地套餐(全球通專屬數(shù)據(jù)包)”};計(jì)算表頭與表格內(nèi)容的相似度,可得出兩者并不相似;繼續(xù)計(jì)算表格內(nèi)容間的相似度,表格內(nèi)容間也不存在相似性,豎表結(jié)構(gòu)不成立;綜合以上兩種假設(shè)結(jié)構(gòu)的計(jì)算結(jié)果,最終判定表格結(jié)構(gòu)為橫表,表頭包括前兩行數(shù)據(jù)。在上述實(shí)施例的基礎(chǔ)上,所述根據(jù)所述表格結(jié)構(gòu)確定表頭屬性名稱的一種可選實(shí)施方式為:根據(jù)所述表格結(jié)構(gòu)確定所述表格數(shù)據(jù)的初始表頭;在確定所 述初始表頭存在屬性名稱的總分結(jié)構(gòu)時(shí),對(duì)所述初始表頭進(jìn)行屬性合并。在本發(fā)明實(shí)施例中,通過表格結(jié)構(gòu)的識(shí)別,確定了表格結(jié)構(gòu)是橫表還是豎表,并劃分出相應(yīng)的表頭(即初始表頭)和表格數(shù)據(jù);劃分時(shí),根據(jù)表格結(jié)構(gòu),讀取橫表邏輯上的第一行、或豎表邏輯上的第一列作為表頭,如果橫表的初始表頭的最大rowspan大于1,或者豎表初始表頭的最大colspan大于1,則說明初始表頭數(shù)據(jù)存在屬性名稱的總分結(jié)構(gòu),需要做進(jìn)一步的屬性合并,統(tǒng)一表示為最終的細(xì)分屬性,使得表頭屬性可以通過一個(gè)一維向量表示出來,其中,每個(gè)向量值對(duì)應(yīng)一個(gè)表頭屬性名稱;以橫表為例,讀取橫表第一行rowspan的最大值為R,判斷每個(gè)表格數(shù)據(jù)rowspan是否為R,若是,則直接使用該表格數(shù)據(jù)為對(duì)應(yīng)的屬性向量值;如果小于R,則將該表格數(shù)據(jù)添加到其colspan包括的下一行所有表格數(shù)據(jù)中,最終將x*y的數(shù)據(jù)組織形式,拉平為包含y個(gè)值的一維向量;舉個(gè)例子來說,圖3中橫表的表頭數(shù)據(jù),最大rowspan為2,需要整合表頭屬性結(jié)構(gòu),“主叫市話”和“國(guó)內(nèi)長(zhǎng)途”是“超出后本地(元/分)”的細(xì)分,則將“超出后本地(元/分)”數(shù)據(jù)分別添加到其colspan包括下一行的2個(gè)表格數(shù)據(jù)中,拉平為最終屬性名稱“超出后本地(元/分)主叫市話”和“超出后本地(元/分)國(guó)內(nèi)長(zhǎng)途”,得到表頭屬性名稱向量后,記錄每個(gè)表頭屬性名稱所包含的列數(shù)即colspan值,這里可以注意到,在本發(fā)明實(shí)施例中,橫表表頭的屬性結(jié)構(gòu),包括表頭屬性名稱及每個(gè)表頭屬性對(duì)應(yīng)的表格列數(shù);豎表的處理方法類似,在此不再贅述。在上述實(shí)施例的基礎(chǔ)上,在抽取所述表頭屬性名稱及所述表頭屬性名稱對(duì)應(yīng)的表格內(nèi)容分別作為知識(shí)屬性名稱和屬性值之前,還可以根據(jù)所述表頭屬性名稱,對(duì)所述表頭屬性名稱對(duì)應(yīng)的表格內(nèi)容進(jìn)行合并。以橫表為例,設(shè)表格內(nèi)容的rowspan為r,將r大于1的表格內(nèi)容拆分為r行,使用此表格內(nèi)容補(bǔ)齊所有行里相應(yīng)的數(shù)據(jù),確保每行該屬性都有相應(yīng)的屬性值,從而每條知識(shí)都不缺失屬性數(shù)據(jù);逐行讀取表格內(nèi)容,每行表格內(nèi)容對(duì)應(yīng)一條知識(shí),對(duì)比參照表頭屬性對(duì)應(yīng)的表格列數(shù),對(duì)表頭屬性名稱對(duì)應(yīng)的表格內(nèi)容進(jìn)行合并,整合每行表格內(nèi)容為表頭屬性名稱對(duì)應(yīng)屬性值;如果表格內(nèi)容 colspan小于對(duì)應(yīng)屬性列數(shù),準(zhǔn)備將下一表格內(nèi)容合并到此表格內(nèi)容中;如果表格內(nèi)容colspan大于對(duì)應(yīng)屬性列數(shù),則復(fù)制該表格內(nèi)容,繼續(xù)參與下一表格內(nèi)容的整合,最終得到整齊的知識(shí)表格內(nèi)容,即一一對(duì)應(yīng)的屬性和屬性值對(duì)。圖4為本發(fā)明實(shí)施例提供的再一份網(wǎng)頁(yè)表格示例圖,如圖4所示,表格結(jié)構(gòu)為橫表,表頭包含4個(gè)屬性,向量表示為{“資費(fèi)特點(diǎn)”,“資費(fèi)標(biāo)識(shí)”,“產(chǎn)品名稱”,“資費(fèi)描述”}。相應(yīng)的表頭屬性colspan值為{2,1,1,1},說明前兩列數(shù)據(jù)需整合為一個(gè)值來描述“資費(fèi)特點(diǎn)”這一屬性,而其他屬性對(duì)應(yīng)一個(gè)表格數(shù)據(jù);表頭確定包含4個(gè)屬性,則需要將表格內(nèi)容對(duì)齊規(guī)整為4個(gè)屬性值,與表頭中的表頭屬性名稱相對(duì)應(yīng);“自選套餐”和“本地”兩個(gè)表格數(shù)據(jù)都位于“資費(fèi)特點(diǎn)”屬性包含的colspan下,需要合并兩項(xiàng)數(shù)據(jù)描述一個(gè)屬性;其中,“自選套餐”rowspan為8,縱向跨越了8行數(shù)據(jù),表示8行數(shù)據(jù)的“資費(fèi)特點(diǎn)”屬性對(duì)應(yīng)的值都是“自選套餐”;最終為每行數(shù)據(jù)補(bǔ)全規(guī)整后,前4條知識(shí)的“資費(fèi)特點(diǎn)”屬性值都為“自選套餐本地”;在對(duì)表頭屬性名稱對(duì)應(yīng)的表格內(nèi)容進(jìn)行規(guī)整對(duì)齊后,能將表格內(nèi)容對(duì)齊整合到相應(yīng)表頭屬性名稱下,抽取表頭屬性名稱及表頭屬性名稱對(duì)應(yīng)的表格內(nèi)容分別作為知識(shí)屬性名稱和屬性值,例如圖4中知識(shí)屬性和屬性值的對(duì)象關(guān)系為:[{“資費(fèi)特點(diǎn)”:“自選套餐本地”,“資費(fèi)標(biāo)識(shí)”:“BCAF7913”,“產(chǎn)品名稱”:“神州行9元本地套餐”,“資費(fèi)描述”:“無月租費(fèi),每月合約消費(fèi)9元...”},...,{“資費(fèi)特點(diǎn)”:“自選套餐長(zhǎng)途”,“資費(fèi)標(biāo)識(shí)”:“BCAF7917”,“產(chǎn)品名稱”:“神州行18元長(zhǎng)途套餐”,“資費(fèi)描述”:“每月收取18元,在本地接聽電話免費(fèi)...”},...,{“資費(fèi)特點(diǎn)”:“無月租”,“資費(fèi)標(biāo)識(shí)”:“BCAZ2118”,“產(chǎn)品名稱”:“38元暢聊卡(+5元綜合包)”,“資費(fèi)描述”:“(月合約消費(fèi)43元),向用戶宣傳...”}]。如此,可得到知識(shí)屬性和屬性值一一對(duì)應(yīng)的知識(shí)描述數(shù)據(jù),每行數(shù)據(jù)形成一條知識(shí),存儲(chǔ)到關(guān)鍵字/值(K/V)庫(kù)中,K/V對(duì)能夠準(zhǔn)確表達(dá)知識(shí)內(nèi)涵,便可用于后續(xù)的本體知識(shí)構(gòu)建。豎表的處理方法類似,在此不再贅述。圖5為本發(fā)明實(shí)施例提供的知識(shí)抽取裝置的結(jié)構(gòu)示意圖,如圖5所示,所 述裝置包括:獲取模塊501,用于獲取表格數(shù)據(jù)的語(yǔ)義相似度;確定模塊502,用于根據(jù)所述獲取模塊501獲取的所述語(yǔ)義相似度確定表格結(jié)構(gòu);所述確定模塊502,還用于根據(jù)所述表格結(jié)構(gòu)確定表頭屬性名稱;抽取模塊503,用于抽取所述表頭屬性名稱及所述表頭屬性名稱對(duì)應(yīng)的表格內(nèi)容分別作為知識(shí)屬性名稱和屬性值。本發(fā)明實(shí)施例提供的知識(shí)抽取裝置,通過獲取模塊501獲取表格數(shù)據(jù)的語(yǔ)義相似度;確定模塊502根據(jù)所述獲取模塊501獲取的所述語(yǔ)義相似度確定表格結(jié)構(gòu),根據(jù)所述表格結(jié)構(gòu)確定表頭屬性名稱;抽取模塊503抽取所述表頭屬性名稱及所述表頭屬性名稱對(duì)應(yīng)的表格內(nèi)容分別作為知識(shí)屬性名稱和屬性值,得到可直接用于本體知識(shí)構(gòu)建的知識(shí)數(shù)據(jù),整個(gè)表格數(shù)據(jù)抽取過程并不受限于任何先驗(yàn)知識(shí),不需要人工介入;如此,能實(shí)現(xiàn)表格結(jié)構(gòu)識(shí)別和表格數(shù)據(jù)抽取的自動(dòng)化,降低了知識(shí)抽取的人力成本,進(jìn)而可提高本體知識(shí)的抽取效率。在上述實(shí)施例的基礎(chǔ)上,所述獲取模塊501,具體用于將表格數(shù)據(jù)按照橫表結(jié)構(gòu)拆分為第一表頭和多個(gè)第一表格內(nèi)容時(shí),獲取所述第一表頭與各所述第一表格內(nèi)容間的語(yǔ)義相似度、及各所述第一表格內(nèi)容之間的語(yǔ)義相似度;將所述表格數(shù)據(jù)按照豎表結(jié)構(gòu)拆分為第二表頭和多個(gè)第二表格內(nèi)容時(shí),獲取所述第二表頭與各所述第二表格內(nèi)容間的語(yǔ)義相似度、及各所述第二表格內(nèi)容之間的語(yǔ)義相似度;所述確定模塊502,具體用于根據(jù)所述獲取模塊501獲取的所述第一表頭與各所述第一表格內(nèi)容間的語(yǔ)義相似度、各所述第一表格內(nèi)容之間的語(yǔ)義相似度、所述第二表頭與各所述第二表格內(nèi)容間的語(yǔ)義相似度、各所述第二表格內(nèi)容之間的語(yǔ)義相似度,及預(yù)設(shè)的表頭與表格內(nèi)容間的語(yǔ)義相似度閾值和表格內(nèi)容之間的語(yǔ)義相似度閾值,確定表格結(jié)構(gòu)。在上述實(shí)施例的基礎(chǔ)上,所述確定模塊502,具體用于根據(jù)所述表格結(jié)構(gòu)確定所述表格數(shù)據(jù)的初始表頭;在確定所述初始表頭存在屬性名稱的總分結(jié)構(gòu) 時(shí),對(duì)所述表格數(shù)據(jù)的初始表頭進(jìn)行合并,確定表頭屬性名稱。圖6為本發(fā)明實(shí)施例提供的知識(shí)抽取裝置的另一結(jié)構(gòu)示意圖,本發(fā)明實(shí)施例提供的裝置以圖5示出的裝置為基礎(chǔ),如圖6所示,本發(fā)明實(shí)施例提供的裝置也包括:獲取模塊501、確定模塊502、抽取模塊503,并且各功能模塊也分別具有圖5中的功能和作用;進(jìn)一步,本發(fā)明實(shí)施例提供的裝置,還包括對(duì)齊模塊601,用于根據(jù)所述表頭屬性名稱,對(duì)所述表頭屬性名稱對(duì)應(yīng)的表格內(nèi)容進(jìn)行合并。在實(shí)際應(yīng)用中,所述獲取模塊501、確定模塊502、抽取模塊503及所述對(duì)齊模塊601,均可由位于業(yè)務(wù)平臺(tái)的中央處理器(CPU)、微處理器(MPU)、數(shù)字信號(hào)處理器(DSP)、或現(xiàn)場(chǎng)可編程門陣列(FPGA)等實(shí)現(xiàn)。本領(lǐng)域內(nèi)的技術(shù)人員應(yīng)明白,本發(fā)明的實(shí)施例可提供為方法、系統(tǒng)、或計(jì)算機(jī)程序產(chǎn)品。因此,本發(fā)明可采用硬件實(shí)施例、軟件實(shí)施例、或結(jié)合軟件和硬件方面的實(shí)施例的形式。而且,本發(fā)明可采用在一個(gè)或多個(gè)其中包含有計(jì)算機(jī)可用程序代碼的計(jì)算機(jī)可用存儲(chǔ)介質(zhì)(包括但不限于磁盤存儲(chǔ)器和光學(xué)存儲(chǔ)器等)上實(shí)施的計(jì)算機(jī)程序產(chǎn)品的形式。本發(fā)明是參照根據(jù)本發(fā)明實(shí)施例的方法、設(shè)備(系統(tǒng))、和計(jì)算機(jī)程序產(chǎn)品的流程圖和/或方框圖來描述的。應(yīng)理解可由計(jì)算機(jī)程序指令實(shí)現(xiàn)流程圖和/或方框圖中的每一流程和/或方框、以及流程圖和/或方框圖中的流程和/或方框的結(jié)合??商峁┻@些計(jì)算機(jī)程序指令到通用計(jì)算機(jī)、專用計(jì)算機(jī)、嵌入式處理機(jī)或其他可編程數(shù)據(jù)處理設(shè)備的處理器以產(chǎn)生一個(gè)機(jī)器,使得通過計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備的處理器執(zhí)行的指令產(chǎn)生用于實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能的裝置。這些計(jì)算機(jī)程序指令也可存儲(chǔ)在能引導(dǎo)計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備以特定方式工作的計(jì)算機(jī)可讀存儲(chǔ)器中,使得存儲(chǔ)在該計(jì)算機(jī)可讀存儲(chǔ)器中的指令產(chǎn)生包括指令裝置的制造品,該指令裝置實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能。這些計(jì)算機(jī)程序指令也可裝載到計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備上,使 得在計(jì)算機(jī)或其他可編程設(shè)備上執(zhí)行一系列操作步驟以產(chǎn)生計(jì)算機(jī)實(shí)現(xiàn)的處理,從而在計(jì)算機(jī)或其他可編程設(shè)備上執(zhí)行的指令提供用于實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能的步驟。以上所述,僅為本發(fā)明的較佳實(shí)施例而已,并非用于限定本發(fā)明的保護(hù)范圍。當(dāng)前第1頁(yè)1 2 3 當(dāng)前第1頁(yè)1 2 3