欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

信息提取方法和裝置的制造方法_3

文檔序號:9911130閱讀:來源:國知局
并根據(jù)分類結(jié)果從文本內(nèi)容中提取出網(wǎng)頁內(nèi)容中包含的問題和答案。
[0050]本申請的上述實施例提供的方法通過將網(wǎng)頁文件解析為標(biāo)簽樹,并將識別出的正文節(jié)點包含的內(nèi)容進(jìn)行段落劃分和標(biāo)簽屬性設(shè)定,最終提取出網(wǎng)頁正文中包含問題和答案的ig息,實現(xiàn)了息的自動、精確的提取。
[0051]進(jìn)一步參考圖4,其示出了信息提取方法的又一個實施例的流程400。該信息提取方法的流程400,包括以下步驟:
[0052]步驟401,將預(yù)先獲取的網(wǎng)頁文件解析為標(biāo)簽樹結(jié)構(gòu),并從標(biāo)簽樹的節(jié)點中識別出網(wǎng)頁文件中的網(wǎng)頁正文所在的至少一個正文節(jié)點。
[0053]在本實施例中,信息提取方法運行于其上的電子設(shè)備可以預(yù)先從本地或遠(yuǎn)程獲取網(wǎng)頁文件,并將上述網(wǎng)頁文件解析為標(biāo)簽樹結(jié)構(gòu)。之后,上述電子設(shè)備還可以根據(jù)各個節(jié)點的所包含的內(nèi)容進(jìn)一步從標(biāo)簽樹的節(jié)點中識別出網(wǎng)頁正文所在的至少一個正文節(jié)點。
[0054]步驟402,將至少一個正文節(jié)點包含的內(nèi)容進(jìn)行段落劃分,生成各個段落塊,并根據(jù)各個段落塊關(guān)聯(lián)的標(biāo)簽的屬性為各個段落塊設(shè)定標(biāo)簽屬性。
[0055]在本實施例中,上述電子設(shè)備可以將上述至少一個正文節(jié)點中包含的文本內(nèi)容進(jìn)行段落劃分,生成各個段落塊,同時,根據(jù)各個段落塊所關(guān)聯(lián)的標(biāo)簽的屬性為各個段落塊設(shè)定標(biāo)簽屬性。
[0056]步驟403,將標(biāo)簽屬性相同的段落塊劃分為同一段落塊集合。
[0057]在本實施例中,上述電子設(shè)備可以將步驟402得到段落塊中標(biāo)簽屬性相同的段落塊劃分為同一段落塊集合。
[0058]步驟404,根據(jù)各個段落塊集合中的各個段落塊包含的字符數(shù)以及各個段落塊之間的行間隔識別出各個分塊集合中的短標(biāo)題結(jié)構(gòu)。
[0059]在本實施例中,上述電子設(shè)備可以計算各個段落塊集合內(nèi)的各個段落塊之間的平均行間隔、最大連續(xù)行間隔數(shù)、平均字符數(shù)、最大字符數(shù)等并設(shè)定閾值,將有一定行間隔、字符長度均勻且不是很大的段落塊識別為短標(biāo)題結(jié)構(gòu)。
[0060]步驟405,將各個段落塊集合中的非短標(biāo)題結(jié)構(gòu)的段落塊根據(jù)包含的文本進(jìn)行分類。
[0061]在本實施例中,上述電子設(shè)備可以將各個段落塊集合中的非短標(biāo)題結(jié)構(gòu)的段落塊根據(jù)包含的文本進(jìn)行分類,例如可以根據(jù)段落塊內(nèi)的文本是否包含數(shù)字、是否在段落開頭部分有強(qiáng)調(diào)結(jié)構(gòu)將段落塊劃分為編號鍵值型段落、鍵值型段落、編號型段落以及普通型段落等類別,其中上述編號鍵值型段落是指有編號且為鍵值型結(jié)構(gòu)的段落(例如1、提煉中心思想的方法:透過表面分析本質(zhì))。
[0062]步驟406,基于分類結(jié)果從段落塊包含的文本內(nèi)容中提取包含問題和答案的信息。
[0063]在本實施例中,上述電子設(shè)備可以基于步驟405中得到的分類結(jié)果,從各個段落塊中所包含的文本內(nèi)容中提取出問題和該問題對應(yīng)的答案。
[0064]在本實施例的一些可選的實現(xiàn)方式中,上述電子設(shè)備可以首先根據(jù)步驟404中識別出的短標(biāo)題結(jié)構(gòu)對網(wǎng)頁文件對應(yīng)的網(wǎng)頁正文內(nèi)容進(jìn)行邏輯塊劃分,例如可以將識別出的短標(biāo)題結(jié)構(gòu)以及該短標(biāo)題結(jié)構(gòu)與下一短標(biāo)題結(jié)構(gòu)之間的部分劃分為一個邏輯塊;之后,利用正則表達(dá)式判斷各個短標(biāo)題結(jié)構(gòu)是否是問題,如果是問題,則將該短標(biāo)題設(shè)定為候選問題;然后,根據(jù)候選問題在上述網(wǎng)頁內(nèi)容中的位置以及網(wǎng)頁內(nèi)容的邏輯塊劃分結(jié)果提取與候選問題對應(yīng)的候選答案;最后,基于候選問題與候選答案之間所間隔的行數(shù)、候選答案中數(shù)字編號是否連續(xù)、答案條目數(shù)、答案中被判定為問題的條目數(shù)中的至少一項,提取包含問題和答案的信息,例如當(dāng)候選問題與候選答案的首條內(nèi)容之間的行數(shù)超過預(yù)定的閾值時,去掉該候選問題與候選答案;當(dāng)候選答案中包括多條帶有數(shù)字編號的內(nèi)容且編號不連續(xù)時,去掉該候選答案以及與該候選答案相對應(yīng)的候選問題;當(dāng)候選答案中包括的答案條目數(shù)小于設(shè)定閾值時,去掉該候選答案以及與該候選答案相對應(yīng)的候選問題,其中答案條目數(shù)可以是指答案中包含的條目的數(shù)量,每一條目可以是指一個段落,也可以是指一句話;當(dāng)候選答案中包括的答案條目有多條被判斷為是問題(例如多條被判斷為問句)時,去掉該候選答案以及與該候選答案相對應(yīng)的候選問題。
[0065]從圖4中可以看出,與圖2對應(yīng)的實施例相比,本實施例中的信息提取方法的流程400突出了對各個段落塊的劃分以及各個分塊集合中的短標(biāo)題結(jié)構(gòu)的識別。由此,本實施例描述的方案可以更加準(zhǔn)確地識別出網(wǎng)頁內(nèi)容中的問題,從而實現(xiàn)信息的精確提取。
[0066]進(jìn)一步參考圖5,作為對上述各圖所示方法的實現(xiàn),本申請?zhí)峁┝艘环N信息提取裝置的一個實施例,該裝置實施例與圖2所示的方法實施例相對應(yīng),該裝置具體可以應(yīng)用于各種電子設(shè)備中。
[0067]如圖5所示,本實施例所述的信息提取裝置500包括:解析單元501、劃分單元502、分類單元503和提取單元504。其中,解析單元501配置用于將預(yù)先獲取的網(wǎng)頁文件解析為標(biāo)簽樹結(jié)構(gòu),并從上述標(biāo)簽樹的節(jié)點中識別出上述網(wǎng)頁文件中的網(wǎng)頁正文所在的至少一個正文節(jié)點;劃分單元502配置用于將上述至少一個正文節(jié)點包含的內(nèi)容進(jìn)行段落劃分,生成各個段落塊,并根據(jù)各個段落塊關(guān)聯(lián)的標(biāo)簽的屬性為各個段落塊設(shè)定標(biāo)簽屬性;分類單元503配置用于基于各個段落塊的標(biāo)簽屬性將各個段落塊包含的文本內(nèi)容進(jìn)行分類;提取單元504配置用于基于分類結(jié)果從段落塊包含的文本內(nèi)容中提取包含問題和答案的信息。
[0068]在本實施例中,信息提取裝置500的解析單元501可以將預(yù)先獲取的網(wǎng)頁文件解析為標(biāo)簽樹結(jié)構(gòu),并從上述標(biāo)簽樹的節(jié)點中識別出上述網(wǎng)頁文件中的網(wǎng)頁正文所在的至少一個正文節(jié)點。
[0069]在本實施例中,上述劃分單元502可以將上述至少一個正文節(jié)點包含的內(nèi)容進(jìn)行段落劃分,生成各個段落塊,并根據(jù)各個段落塊關(guān)聯(lián)的標(biāo)簽的屬性為各個段落塊設(shè)定標(biāo)簽屬性
[0070]在本實施例中,上述分類單元503可以基于上述劃分單元502得到的各個段落塊的標(biāo)簽屬性將各個段落塊包含的文本內(nèi)容進(jìn)行分類。
[0071]在本實施例中,上述提取單元504可以基于上述分類單元503得到的分類結(jié)果從段落塊包含的文本內(nèi)容中提取包含問題和答案的信息。
[0072]本領(lǐng)域技術(shù)人員可以理解,上述信息提取裝置500還包括一些其他公知結(jié)構(gòu),例如處理器、存儲器等,為了不必要地模糊本公開的實施例,這些公知的結(jié)構(gòu)在圖5中未示出。
[0073]下面參考圖6,其示出了適于用來實現(xiàn)本申請實施例的終端設(shè)備或服務(wù)器的計算機(jī)系統(tǒng)600的結(jié)構(gòu)示意圖。
[0074]如圖6所示,計算機(jī)系統(tǒng)600包括中央處理單元(CPU)601,其可以根據(jù)存儲在只讀存儲器(R0M)602中的程序或者從存儲部分608加載到隨機(jī)訪問存儲器(RAM)603中的程序而執(zhí)行各種適當(dāng)?shù)膭幼骱吞幚怼T赗AM 603中,還存儲有系統(tǒng)600操作所需的各種程序和數(shù)據(jù)。CPU 60KROM 602以及RAM 603通過總線604彼此相連。輸入/輸出(I/O)接口605也連接至總線 604。
[0075]以下部件連接至I/O接口605:包括鍵盤、鼠標(biāo)等的輸入部分606 ;包括諸如陰極射線管(CRT)、液晶顯示器(LCD)等以及揚聲器等的輸出部分607;包括硬盤等的存儲部分608;以及包括諸如LAN卡、調(diào)制解調(diào)器等的網(wǎng)絡(luò)接口卡的通信部分609。通信部分609經(jīng)由諸如因特網(wǎng)的網(wǎng)絡(luò)執(zhí)行通信處理。驅(qū)動器610也根據(jù)需要連接至I/O接口 605。可拆卸介質(zhì)611,諸如磁盤、光盤、磁光盤、半導(dǎo)體存儲器等等,根據(jù)需要安裝在驅(qū)動器610上,以便于從其上讀出的計算機(jī)程序根據(jù)需要被安裝入存儲部分608。
[0076]特別地,根據(jù)本公開的實施例,上文參考流程圖描述的過程可以被實現(xiàn)為計算機(jī)軟件程序。例如,本公開的實施例包括一種計算機(jī)程序產(chǎn)品,其包括有形地包含在機(jī)器可讀介質(zhì)上的計算機(jī)程序,所述計算機(jī)程序包含用于執(zhí)行流程圖所示的方法的程序代碼。在這樣的實施例中,該計算機(jī)程序可以通過通信部分609從網(wǎng)絡(luò)上被下載和安裝,和/或從可拆卸介質(zhì)611被安裝。
[0077]附圖中的流程圖和框圖,圖示了按照本申請各種實施例的系統(tǒng)、方法和計算機(jī)程序產(chǎn)品的可能實現(xiàn)的體系架構(gòu)、功能和操作。在這點上,流程圖或框圖中的每個方框可以代表一個模塊、程序段、或代碼的一部分,所述模塊、程序段、或代碼的一部分包含一個或多個用于實現(xiàn)規(guī)定的邏輯功能的可執(zhí)行指令。也應(yīng)當(dāng)注意,在有些作為替換的實現(xiàn)中,方框中所標(biāo)注的功能也可以以不同于附圖中所標(biāo)注的順序發(fā)生。例如,兩個接連地表示的方框?qū)嶋H上可以基本并行地執(zhí)行,它們有時也可以按相反的順序執(zhí)行,這依所涉及的功能而定。也要注意的是,框圖和/或流程圖中的每個方框、以及框圖和/或流程圖中的方框的組合,可以用執(zhí)行規(guī)定的功能或操作的專用的基于硬件的系統(tǒng)來實現(xiàn),或者可以用專用硬件與計算機(jī)指令的組合來實現(xiàn)。
[0078]描述于本申請實施例中所涉及到的單元可以通過軟件的方式實現(xiàn),也可以通過硬件的方式來實現(xiàn)。所描述的單元也可以設(shè)置在處理器中,例如,可以描述為:一種處理器包括解析單元、劃分單元、分類單元和提取單元。其中,這些單元的名稱在某種情況下并不構(gòu)成對該單元
當(dāng)前第3頁1 2 3 4 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
晋江市| 东辽县| 黄石市| 成武县| 古丈县| 周宁县| 元谋县| 晴隆县| 博乐市| 景东| 肥东县| 出国| 叶城县| 望谟县| 延吉市| 清水县| 北票市| 阜南县| 安乡县| 海盐县| 泰兴市| 响水县| 通许县| 泉州市| 宁波市| 威宁| 黑龙江省| 岳池县| 平果县| 海兴县| 靖宇县| 扬州市| 曲阳县| 康乐县| 盈江县| 凌云县| 花莲市| 当阳市| 云龙县| 九寨沟县| 宜春市|