本身的限定,例如,解析單元還可以被描述為“將預(yù)先獲取的網(wǎng)頁文件解析為標(biāo)簽樹結(jié)構(gòu),并從所述標(biāo)簽樹的節(jié)點(diǎn)中識(shí)別出所述網(wǎng)頁文件中的網(wǎng)頁正文所在的至少一個(gè)正文節(jié)點(diǎn)的單元”。
[0079]作為另一方面,本申請(qǐng)還提供了一種非易失性計(jì)算機(jī)存儲(chǔ)介質(zhì),該非易失性計(jì)算機(jī)存儲(chǔ)介質(zhì)可以是上述實(shí)施例中所述裝置中所包含的非易失性計(jì)算機(jī)存儲(chǔ)介質(zhì);也可以是單獨(dú)存在,未裝配入終端中的非易失性計(jì)算機(jī)存儲(chǔ)介質(zhì)。上述非易失性計(jì)算機(jī)存儲(chǔ)介質(zhì)存儲(chǔ)有一個(gè)或者多個(gè)程序,當(dāng)所述一個(gè)或者多個(gè)程序被一個(gè)設(shè)備執(zhí)行時(shí),使得所述設(shè)備:將預(yù)先獲取的網(wǎng)頁文件解析為標(biāo)簽樹結(jié)構(gòu),并從所述標(biāo)簽樹的節(jié)點(diǎn)中識(shí)別出所述網(wǎng)頁文件中的網(wǎng)頁正文所在的至少一個(gè)正文節(jié)點(diǎn);將所述至少一個(gè)正文節(jié)點(diǎn)包含的內(nèi)容進(jìn)行段落劃分,生成各個(gè)段落塊,并根據(jù)各個(gè)段落塊關(guān)聯(lián)的標(biāo)簽的屬性為各個(gè)段落塊設(shè)定標(biāo)簽屬性;基于各個(gè)段落塊的標(biāo)簽屬性將各個(gè)段落塊包含的文本內(nèi)容進(jìn)行分類;基于分類結(jié)果從段落塊包含的文本內(nèi)容中提取包含問題和答案的信息。
[0080]以上描述僅為本申請(qǐng)的較佳實(shí)施例以及對(duì)所運(yùn)用技術(shù)原理的說明。本領(lǐng)域技術(shù)人員應(yīng)當(dāng)理解,本申請(qǐng)中所涉及的發(fā)明范圍,并不限于上述技術(shù)特征的特定組合而成的技術(shù)方案,同時(shí)也應(yīng)涵蓋在不脫離所述發(fā)明構(gòu)思的情況下,由上述技術(shù)特征或其等同特征進(jìn)行任意組合而形成的其它技術(shù)方案。例如上述特征與本申請(qǐng)中公開的(但不限于)具有類似功能的技術(shù)特征進(jìn)行互相替換而形成的技術(shù)方案。
【主權(quán)項(xiàng)】
1.一種信息提取方法,其特征在于,所述方法包括: 將預(yù)先獲取的網(wǎng)頁文件解析為標(biāo)簽樹結(jié)構(gòu),并從所述標(biāo)簽樹的節(jié)點(diǎn)中識(shí)別出所述網(wǎng)頁文件中的網(wǎng)頁正文所在的至少一個(gè)正文節(jié)點(diǎn); 將所述至少一個(gè)正文節(jié)點(diǎn)包含的內(nèi)容進(jìn)行段落劃分,生成各個(gè)段落塊,并根據(jù)各個(gè)段落塊關(guān)聯(lián)的標(biāo)簽的屬性為各個(gè)段落塊設(shè)定標(biāo)簽屬性; 基于各個(gè)段落塊的標(biāo)簽屬性將各個(gè)段落塊包含的文本內(nèi)容進(jìn)行分類; 基于分類結(jié)果從段落塊包含的文本內(nèi)容中提取包含問題和答案的信息。2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述將所述至少一個(gè)正文節(jié)點(diǎn)包含的內(nèi)容進(jìn)行段落劃分,生成各個(gè)段落塊,包括: 從所述至少一個(gè)正文節(jié)點(diǎn)包含的內(nèi)容中識(shí)別出所述網(wǎng)頁文件的網(wǎng)頁內(nèi)容的標(biāo)題;將所述至少一個(gè)正文節(jié)點(diǎn)包含的內(nèi)容中的、所述標(biāo)題之外的內(nèi)容進(jìn)行段落劃分,生成各個(gè)段落塊。3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述將預(yù)先獲取的網(wǎng)頁文件解析為標(biāo)簽樹結(jié)構(gòu),并從所述標(biāo)簽樹的節(jié)點(diǎn)中識(shí)別出所述網(wǎng)頁文件中的網(wǎng)頁正文所在的至少一個(gè)正文節(jié)點(diǎn),包括: 將預(yù)先獲取的網(wǎng)頁文件進(jìn)行規(guī)范化處理,使所述網(wǎng)頁文件符合超文本標(biāo)記語言規(guī)范; 對(duì)規(guī)范化的網(wǎng)頁文件進(jìn)行文檔對(duì)象模型樹解析,生成標(biāo)簽樹; 訪問所述標(biāo)簽樹的各個(gè)節(jié)點(diǎn),并根據(jù)各個(gè)節(jié)點(diǎn)包含的內(nèi)容確定出正文節(jié)點(diǎn)。4.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述從所述至少一個(gè)正文節(jié)點(diǎn)包含的內(nèi)容中識(shí)別出所述網(wǎng)頁文件的網(wǎng)頁內(nèi)容的標(biāo)題,包括: 根據(jù)所述至少一個(gè)正文節(jié)點(diǎn)包含的內(nèi)容在所述網(wǎng)頁內(nèi)容中的位置,從所述至少一個(gè)正文節(jié)點(diǎn)中選取至少一個(gè)候選標(biāo)題節(jié)點(diǎn); 計(jì)算各個(gè)候選標(biāo)題節(jié)點(diǎn)內(nèi)的文本與所述網(wǎng)頁文件的標(biāo)題標(biāo)簽對(duì)應(yīng)的文本的編輯距離,以及各個(gè)候選標(biāo)題節(jié)點(diǎn)內(nèi)的文本與錨標(biāo)簽對(duì)應(yīng)的文本的編輯距離; 根據(jù)各個(gè)候選標(biāo)題節(jié)點(diǎn)內(nèi)的標(biāo)簽信息以及所計(jì)算的編輯距離將各個(gè)候選標(biāo)題節(jié)點(diǎn)進(jìn)tx排序; 根據(jù)排序結(jié)果從所述至少一個(gè)候選標(biāo)題節(jié)點(diǎn)中確定一個(gè)正文標(biāo)題節(jié)點(diǎn),并將所述正文標(biāo)題節(jié)點(diǎn)內(nèi)的文本確定為網(wǎng)頁內(nèi)容的標(biāo)題。5.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述將所述至少一個(gè)正文節(jié)點(diǎn)包含的內(nèi)容進(jìn)行段落劃分,生成各個(gè)段落塊,并根據(jù)各個(gè)段落塊關(guān)聯(lián)的標(biāo)簽的屬性為各個(gè)段落塊設(shè)定標(biāo)簽屬性,包括: 識(shí)別各個(gè)正文節(jié)點(diǎn)中的至少一個(gè)塊元素; 如果塊元素中包含子塊元素,則利用子塊元素和換行標(biāo)簽對(duì)正文節(jié)點(diǎn)中包含的文本進(jìn)行段落劃分,得到至少一個(gè)段落塊;否則,利用換行標(biāo)簽對(duì)正文節(jié)點(diǎn)中包含的文本進(jìn)行段落劃分,得到至少一個(gè)段落塊; 根據(jù)塊元素以及子塊元素中關(guān)聯(lián)的標(biāo)簽的屬性為各個(gè)段落塊設(shè)定標(biāo)簽屬性。6.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述基于各個(gè)段落塊的標(biāo)簽屬性將各個(gè)段落塊包含的文本內(nèi)容進(jìn)行分類,包括: 將標(biāo)簽屬性相同的段落塊劃分為同一段落塊集合; 根據(jù)各個(gè)段落塊集合中的各個(gè)段落塊包含的字符數(shù)以及各個(gè)段落塊之間的行間隔識(shí)別出各個(gè)分塊集合中的短標(biāo)題結(jié)構(gòu); 將各個(gè)段落塊集合中的非短標(biāo)題結(jié)構(gòu)的段落塊根據(jù)包含的文本進(jìn)行分類。7.根據(jù)權(quán)利要求6所述的方法,其特征在于,所述基于分類結(jié)果從段落塊包含的文本內(nèi)容中提取包含問題和答案的信息,包括: 根據(jù)識(shí)別出來的短標(biāo)題結(jié)構(gòu)對(duì)網(wǎng)頁文件對(duì)應(yīng)的網(wǎng)頁正文內(nèi)容進(jìn)行邏輯塊劃分; 利用正則表達(dá)式判斷各個(gè)短標(biāo)題結(jié)構(gòu)是否是問題,如果是問題,則將該短標(biāo)題設(shè)定為候選問題; 根據(jù)候選問題在所述網(wǎng)頁內(nèi)容中的位置以及網(wǎng)頁內(nèi)容的邏輯塊劃分結(jié)果提取與候選問題對(duì)應(yīng)的候選答案; 基于候選問題與候選答案之間所間隔的行數(shù)、候選答案中數(shù)字編號(hào)是否連續(xù)、答案條目數(shù)、答案中被判定為問題的條目數(shù)中的至少一項(xiàng),提取包含問題和答案的信息。8.一種信息提取裝置,其特征在于,所述裝置包括: 解析單元,配置用于將預(yù)先獲取的網(wǎng)頁文件解析為標(biāo)簽樹結(jié)構(gòu),并從所述標(biāo)簽樹的節(jié)點(diǎn)中識(shí)別出所述網(wǎng)頁文件中的網(wǎng)頁正文所在的至少一個(gè)正文節(jié)點(diǎn); 劃分單元,配置用于將所述至少一個(gè)正文節(jié)點(diǎn)包含的內(nèi)容進(jìn)行段落劃分,生成各個(gè)段落塊,并根據(jù)各個(gè)段落塊關(guān)聯(lián)的標(biāo)簽的屬性為各個(gè)段落塊設(shè)定標(biāo)簽屬性; 分類單元,配置用于基于各個(gè)段落塊的標(biāo)簽屬性將各個(gè)段落塊包含的文本內(nèi)容進(jìn)行分類; 提取單元,配置用于基于分類結(jié)果從段落塊包含的文本內(nèi)容中提取包含問題和答案的?目息O9.根據(jù)權(quán)利要求8所述的裝置,其特征在于,所述劃分單元包括: 識(shí)別子單元,配置用于從所述至少一個(gè)正文節(jié)點(diǎn)包含的內(nèi)容中識(shí)別出所述網(wǎng)頁文件的網(wǎng)頁內(nèi)容的標(biāo)題; 劃分子單元,配置用于將所述至少一個(gè)正文節(jié)點(diǎn)包含的內(nèi)容中的、所述標(biāo)題之外的內(nèi)容進(jìn)行段落劃分,生成各個(gè)段落塊。10.根據(jù)權(quán)利要求8所述的裝置,其特征在于,所述解析單元進(jìn)一步配置用于: 將預(yù)先獲取的網(wǎng)頁文件進(jìn)行規(guī)范化處理,使所述網(wǎng)頁文件符合超文本標(biāo)記語言規(guī)范; 對(duì)規(guī)范化的網(wǎng)頁文件進(jìn)行文檔對(duì)象模型樹解析,生成標(biāo)簽樹; 訪問所述標(biāo)簽樹的各個(gè)節(jié)點(diǎn),并根據(jù)各個(gè)節(jié)點(diǎn)包含的內(nèi)容確定出正文節(jié)點(diǎn)。11.根據(jù)權(quán)利要求9所述的裝置,其特征在于,所述識(shí)別子單元進(jìn)一步配置用于: 根據(jù)所述至少一個(gè)正文節(jié)點(diǎn)包含的內(nèi)容在所述網(wǎng)頁內(nèi)容中的位置,從所述至少一個(gè)正文節(jié)點(diǎn)中選取至少一個(gè)候選標(biāo)題節(jié)點(diǎn); 計(jì)算各個(gè)候選標(biāo)題節(jié)點(diǎn)內(nèi)的文本與所述網(wǎng)頁文件的標(biāo)題標(biāo)簽對(duì)應(yīng)的文本的編輯距離,以及各個(gè)候選標(biāo)題節(jié)點(diǎn)內(nèi)的文本與錨標(biāo)簽對(duì)應(yīng)的文本的編輯距離; 根據(jù)各個(gè)候選標(biāo)題節(jié)點(diǎn)內(nèi)的標(biāo)簽信息以及所計(jì)算的編輯距離將各個(gè)候選標(biāo)題節(jié)點(diǎn)進(jìn)tx排序; 根據(jù)排序結(jié)果從所述至少一個(gè)候選標(biāo)題節(jié)點(diǎn)中確定一個(gè)正文標(biāo)題節(jié)點(diǎn),并將所述正文標(biāo)題節(jié)點(diǎn)內(nèi)的文本確定為網(wǎng)頁內(nèi)容的標(biāo)題。12.根據(jù)權(quán)利要求8所述的裝置,其特征在于,所述劃分單元進(jìn)一步配置用于: 識(shí)別各個(gè)正文節(jié)點(diǎn)中的至少一個(gè)塊元素; 如果塊元素中包含子塊元素,則利用子塊元素和換行標(biāo)簽對(duì)正文節(jié)點(diǎn)中包含的文本進(jìn)行段落劃分,得到至少一個(gè)段落塊;否則,利用換行標(biāo)簽對(duì)正文節(jié)點(diǎn)中包含的文本進(jìn)行段落劃分,得到至少一個(gè)段落塊; 根據(jù)塊元素以及子塊元素中關(guān)聯(lián)的標(biāo)簽的屬性為各個(gè)段落塊設(shè)定標(biāo)簽屬性。13.根據(jù)權(quán)利要求8所述的裝置,其特征在于,所述分類單元進(jìn)一步配置用于: 將標(biāo)簽屬性相同的段落塊劃分為同一段落塊集合; 根據(jù)各個(gè)段落塊集合中的各個(gè)段落塊包含的字符數(shù)以及各個(gè)段落塊之間的行間隔識(shí)別出各個(gè)分塊集合中的短標(biāo)題結(jié)構(gòu); 將各個(gè)段落塊集合中的非短標(biāo)題結(jié)構(gòu)的段落塊根據(jù)包含的文本進(jìn)行分類。14.根據(jù)權(quán)利要求13所述的裝置,其特征在于,所述提取單元進(jìn)一步配置用于: 根據(jù)識(shí)別出來的短標(biāo)題結(jié)構(gòu)對(duì)網(wǎng)頁文件對(duì)應(yīng)的網(wǎng)頁正文內(nèi)容進(jìn)行邏輯塊劃分; 利用正則表達(dá)式判斷各個(gè)短標(biāo)題結(jié)構(gòu)是否是問題,如果是問題,則將該短標(biāo)題設(shè)定為候選問題; 根據(jù)候選問題在所述網(wǎng)頁內(nèi)容中的位置以及網(wǎng)頁內(nèi)容的邏輯塊劃分結(jié)果提取與候選問題對(duì)應(yīng)的候選答案; 基于候選問題與候選答案之間所間隔的行數(shù)、候選答案中數(shù)字編號(hào)是否連續(xù)、答案條目數(shù)、答案中被判定為問題的條目數(shù)中的至少一項(xiàng),提取包含問題和答案的信息。
【專利摘要】本申請(qǐng)公開了信息提取方法和裝置。所述方法的一【具體實(shí)施方式】包括:將預(yù)先獲取的網(wǎng)頁文件解析為標(biāo)簽樹結(jié)構(gòu),并從所述標(biāo)簽樹的節(jié)點(diǎn)中識(shí)別出所述網(wǎng)頁文件中的網(wǎng)頁正文所在的至少一個(gè)正文節(jié)點(diǎn);將所述至少一個(gè)正文節(jié)點(diǎn)包含的內(nèi)容進(jìn)行段落劃分,生成各個(gè)段落塊,并根據(jù)各個(gè)段落塊關(guān)聯(lián)的標(biāo)簽的屬性為各個(gè)段落塊設(shè)定標(biāo)簽屬性;基于各個(gè)段落塊的標(biāo)簽屬性將各個(gè)段落塊包含的文本內(nèi)容進(jìn)行分類;基于分類結(jié)果從段落塊包含的文本內(nèi)容中提取包含問題和答案的信息。該實(shí)施方式實(shí)現(xiàn)了信息自動(dòng)、精確的提取。
【IPC分類】G06F17/30
【公開號(hào)】CN105677764
【申請(qǐng)?zhí)枴緾N201511022937
【發(fā)明人】秦首科, 韓友, 陳志揚(yáng), 馬飛超, 徐培治
【申請(qǐng)人】百度在線網(wǎng)絡(luò)技術(shù)(北京)有限公司
【公開日】2016年6月15日
【申請(qǐng)日】2015年12月30日