信息提取方法和裝置的制造方法
【技術(shù)領(lǐng)域】
[0001]本申請(qǐng)涉及計(jì)算機(jī)技術(shù)領(lǐng)域,具體涉及信息技術(shù)領(lǐng)域,尤其涉及信息提取方法和
目.0
【背景技術(shù)】
[0002]隨著互聯(lián)網(wǎng)技術(shù)的蓬勃發(fā)展,互聯(lián)網(wǎng)上的信息資源越來越豐富。一方面,搜索引擎為網(wǎng)絡(luò)用戶在互聯(lián)網(wǎng)上快速找到所求信息提供了極大的便利。另一方面,隨著互聯(lián)網(wǎng)上資源的增多,以及搜索引擎中用戶行為數(shù)據(jù)的積累,搜索引擎具備了提供自動(dòng)問答的能力。相比于傳統(tǒng)的搜索引擎,自動(dòng)問答系統(tǒng)的搜索結(jié)果不再是一個(gè)排好序的網(wǎng)頁列表,而是直接從相關(guān)網(wǎng)頁中抽取出來的答案,用戶無需再花費(fèi)時(shí)間從網(wǎng)頁中尋找答案,從而節(jié)約了用戶時(shí)間。
[0003]由于自動(dòng)問答系統(tǒng)索引的內(nèi)容不再是整篇網(wǎng)頁的內(nèi)容,而是網(wǎng)頁內(nèi)容中包含問答的一個(gè)段落或者幾句話,且互聯(lián)網(wǎng)上天然存在的問題以及問題答案的資源較少,因此需要從網(wǎng)頁內(nèi)容中提取問題以及問題答案的信息。
【發(fā)明內(nèi)容】
[0004]本申請(qǐng)的目的在于提出一種改進(jìn)的信息提取方法和裝置,來解決以上【背景技術(shù)】部分提到的技術(shù)問題。
[0005]第一方面,本申請(qǐng)?zhí)峁┝艘环N信息提取方法,所述方法包括:將預(yù)先獲取的網(wǎng)頁文件解析為標(biāo)簽樹結(jié)構(gòu),并從所述標(biāo)簽樹的節(jié)點(diǎn)中識(shí)別出所述網(wǎng)頁文件中的網(wǎng)頁正文所在的至少一個(gè)正文節(jié)點(diǎn);將所述至少一個(gè)正文節(jié)點(diǎn)包含的內(nèi)容進(jìn)行段落劃分,生成各個(gè)段落塊,并根據(jù)各個(gè)段落塊關(guān)聯(lián)的標(biāo)簽的屬性為各個(gè)段落塊設(shè)定標(biāo)簽屬性;基于各個(gè)段落塊的標(biāo)簽屬性將各個(gè)段落塊包含的文本內(nèi)容進(jìn)行分類;基于分類結(jié)果從段落塊包含的文本內(nèi)容中提取包含問題和答案的信息。
[0006]在一些實(shí)施例中,所述將所述至少一個(gè)正文節(jié)點(diǎn)包含的內(nèi)容進(jìn)行段落劃分,生成各個(gè)段落塊,包括:從所述至少一個(gè)正文節(jié)點(diǎn)包含的內(nèi)容中識(shí)別出所述網(wǎng)頁文件的網(wǎng)頁內(nèi)容的標(biāo)題;將所述至少一個(gè)正文節(jié)點(diǎn)包含的內(nèi)容中的、所述標(biāo)題之外的內(nèi)容進(jìn)行段落劃分,生成各個(gè)段落塊。
[0007]在一些實(shí)施例中,所述將預(yù)先獲取的網(wǎng)頁文件解析為標(biāo)簽樹結(jié)構(gòu),并從所述標(biāo)簽樹的節(jié)點(diǎn)中識(shí)別出所述網(wǎng)頁文件中的網(wǎng)頁正文所在的至少一個(gè)正文節(jié)點(diǎn),包括:將預(yù)先獲取的網(wǎng)頁文件進(jìn)行規(guī)范化處理,使所述網(wǎng)頁文件符合超文本標(biāo)記語言規(guī)范;對(duì)規(guī)范化的網(wǎng)頁文件進(jìn)行文檔對(duì)象模型樹解析,生成標(biāo)簽樹;訪問所述標(biāo)簽樹的各個(gè)節(jié)點(diǎn),并根據(jù)各個(gè)節(jié)點(diǎn)包含的內(nèi)容確定出正文節(jié)點(diǎn)。
[0008]在一些實(shí)施例中,所述從所述至少一個(gè)正文節(jié)點(diǎn)包含的內(nèi)容中識(shí)別出所述網(wǎng)頁文件的網(wǎng)頁內(nèi)容的標(biāo)題,包括:根據(jù)所述至少一個(gè)正文節(jié)點(diǎn)包含的內(nèi)容在所述網(wǎng)頁內(nèi)容中的位置,從所述至少一個(gè)正文節(jié)點(diǎn)中選取至少一個(gè)候選標(biāo)題節(jié)點(diǎn);計(jì)算各個(gè)候選標(biāo)題節(jié)點(diǎn)內(nèi)的文本與所述網(wǎng)頁文件的標(biāo)題標(biāo)簽對(duì)應(yīng)的文本的編輯距離,以及各個(gè)候選標(biāo)題節(jié)點(diǎn)內(nèi)的文本與錨標(biāo)簽對(duì)應(yīng)的文本的編輯距離;根據(jù)各個(gè)候選標(biāo)題節(jié)點(diǎn)內(nèi)的標(biāo)簽信息以及所計(jì)算的編輯距離將各個(gè)候選標(biāo)題節(jié)點(diǎn)進(jìn)行排序;根據(jù)排序結(jié)果從所述至少一個(gè)候選標(biāo)題節(jié)點(diǎn)中確定一個(gè)正文標(biāo)題節(jié)點(diǎn),并將所述正文標(biāo)題節(jié)點(diǎn)內(nèi)的文本確定為網(wǎng)頁內(nèi)容的標(biāo)題。
[0009]在一些實(shí)施例中,所述將所述至少一個(gè)正文節(jié)點(diǎn)包含的內(nèi)容進(jìn)行段落劃分,生成各個(gè)段落塊,并根據(jù)各個(gè)段落塊關(guān)聯(lián)的標(biāo)簽的屬性為各個(gè)段落塊設(shè)定標(biāo)簽屬性,包括:識(shí)別各個(gè)正文節(jié)點(diǎn)中的至少一個(gè)塊元素;如果塊元素中包含子塊元素,則利用子塊元素和換行標(biāo)簽對(duì)正文節(jié)點(diǎn)中包含的文本進(jìn)行段落劃分,得到至少一個(gè)段落塊;否則,利用換行標(biāo)簽對(duì)正文節(jié)點(diǎn)中包含的文本進(jìn)行段落劃分,得到至少一個(gè)段落塊;根據(jù)塊元素以及子塊元素中關(guān)聯(lián)的標(biāo)簽的屬性為各個(gè)段落塊設(shè)定標(biāo)簽屬性。
[0010]在一些實(shí)施例中,所述基于各個(gè)段落塊的標(biāo)簽屬性將各個(gè)段落塊包含的文本內(nèi)容進(jìn)行分類,包括:將標(biāo)簽屬性相同的段落塊劃分為同一段落塊集合;根據(jù)各個(gè)段落塊集合中的各個(gè)段落塊包含的字符數(shù)以及各個(gè)段落塊之間的行間隔識(shí)別出各個(gè)分塊集合中的短標(biāo)題結(jié)構(gòu);將各個(gè)段落塊集合中的非短標(biāo)題結(jié)構(gòu)的段落塊根據(jù)包含的文本進(jìn)行分類。
[0011]在一些實(shí)施例中,所述基于分類結(jié)果從段落塊包含的文本內(nèi)容中提取包含問題和答案的信息,包括:根據(jù)識(shí)別出來的短標(biāo)題結(jié)構(gòu)對(duì)網(wǎng)頁文件對(duì)應(yīng)的網(wǎng)頁正文內(nèi)容進(jìn)行邏輯塊劃分;利用正則表達(dá)式判斷各個(gè)短標(biāo)題結(jié)構(gòu)是否是問題,如果是問題,則將該短標(biāo)題設(shè)定為候選問題;根據(jù)候選問題在所述網(wǎng)頁內(nèi)容中的位置以及網(wǎng)頁內(nèi)容的邏輯塊劃分結(jié)果提取與候選問題對(duì)應(yīng)的候選答案;基于候選問題與候選答案之間所間隔的行數(shù)、候選答案中數(shù)字編號(hào)是否連續(xù)、答案條目數(shù)、答案中被判定為問題的條目數(shù)中的至少一項(xiàng),提取包含問題和答案的信息。
[0012]第二方面,本申請(qǐng)?zhí)峁┝艘环N信息提取裝置,所述裝置包括:解析單元,配置用于將預(yù)先獲取的網(wǎng)頁文件解析為標(biāo)簽樹結(jié)構(gòu),并從所述標(biāo)簽樹的節(jié)點(diǎn)中識(shí)別出所述網(wǎng)頁文件中的網(wǎng)頁正文所在的至少一個(gè)正文節(jié)點(diǎn);劃分單元,配置用于將所述至少一個(gè)正文節(jié)點(diǎn)包含的內(nèi)容進(jìn)行段落劃分,生成各個(gè)段落塊,并根據(jù)各個(gè)段落塊關(guān)聯(lián)的標(biāo)簽的屬性為各個(gè)段落塊設(shè)定標(biāo)簽屬性;分類單元,配置用于基于各個(gè)段落塊的標(biāo)簽屬性將各個(gè)段落塊包含的文本內(nèi)容進(jìn)行分類;提取單元,配置用于基于分類結(jié)果從段落塊包含的文本內(nèi)容中提取包含問題和答案的信息。
[0013]在一些實(shí)施例中,所述劃分單元包括:識(shí)別子單元,配置用于從所述至少一個(gè)正文節(jié)點(diǎn)包含的內(nèi)容中識(shí)別出所述網(wǎng)頁文件的網(wǎng)頁內(nèi)容的標(biāo)題;劃分子單元,配置用于將所述至少一個(gè)正文節(jié)點(diǎn)包含的內(nèi)容中的、所述標(biāo)題之外的內(nèi)容進(jìn)行段落劃分,生成各個(gè)段落塊。
[0014]在一些實(shí)施例中,所述解析單元進(jìn)一步配置用于:將預(yù)先獲取的網(wǎng)頁文件進(jìn)行規(guī)范化處理,使所述網(wǎng)頁文件符合超文本標(biāo)記語言規(guī)范;對(duì)規(guī)范化的網(wǎng)頁文件進(jìn)行文檔對(duì)象模型樹解析,生成標(biāo)簽樹;訪問所述標(biāo)簽樹的各個(gè)節(jié)點(diǎn),并根據(jù)各個(gè)節(jié)點(diǎn)包含的內(nèi)容確定出正文節(jié)點(diǎn)。
[0015]在一些實(shí)施例中,所述識(shí)別子單元進(jìn)一步配置用于:根據(jù)所述至少一個(gè)正文節(jié)點(diǎn)包含的內(nèi)容在所述網(wǎng)頁內(nèi)容中的位置,從所述至少一個(gè)正文節(jié)點(diǎn)中選取至少一個(gè)候選標(biāo)題節(jié)點(diǎn);計(jì)算各個(gè)候選標(biāo)題節(jié)點(diǎn)內(nèi)的文本與所述網(wǎng)頁文件的標(biāo)題標(biāo)簽對(duì)應(yīng)的文本的編輯距離,以及各個(gè)候選標(biāo)題節(jié)點(diǎn)內(nèi)的文本與錨標(biāo)簽對(duì)應(yīng)的文本的編輯距離;根據(jù)各個(gè)候選標(biāo)題節(jié)點(diǎn)內(nèi)的標(biāo)簽信息以及所計(jì)算的編輯距離將各個(gè)候選標(biāo)題節(jié)點(diǎn)進(jìn)行排序;根據(jù)排序結(jié)果從所述至少一個(gè)候選標(biāo)題節(jié)點(diǎn)中確定一個(gè)正文標(biāo)題節(jié)點(diǎn),并將所述正文標(biāo)題節(jié)點(diǎn)內(nèi)的文本確定為網(wǎng)頁內(nèi)容的標(biāo)題。
[0016]在一些實(shí)施例中,所述劃分單元進(jìn)一步配置用于:識(shí)別各個(gè)正文節(jié)點(diǎn)中的至少一個(gè)塊元素;如果塊元素中包含子塊元素,則利用子塊元素和換行標(biāo)簽對(duì)正文節(jié)點(diǎn)中包含的文本進(jìn)行段落劃分,得到至少一個(gè)段落塊;否則,利用換行標(biāo)簽對(duì)正文節(jié)點(diǎn)中包含的文本進(jìn)行段落劃分,得到至少一個(gè)段落塊;根據(jù)塊元素以及子塊元素中關(guān)聯(lián)的標(biāo)簽的屬性為各個(gè)段落塊設(shè)定標(biāo)簽屬性。
[0017]在一些實(shí)施例中,所述分類單元進(jìn)一步配置用于:將標(biāo)簽屬性相同的段落塊劃分為同一段落塊集合;根據(jù)各個(gè)段落塊集合中的各個(gè)段落塊包含的字符數(shù)以及各個(gè)段落塊之間的行間隔識(shí)別出各個(gè)分塊集合中的短標(biāo)題結(jié)構(gòu);將各個(gè)段落塊集合中的非短標(biāo)題結(jié)構(gòu)的段落塊根據(jù)包含的文本進(jìn)行分類。
[0018]在一些實(shí)施例中,所述提取單元進(jìn)一步配置用于:根據(jù)識(shí)別出來的短標(biāo)題結(jié)構(gòu)對(duì)網(wǎng)頁文件對(duì)應(yīng)的網(wǎng)頁正文內(nèi)容進(jìn)行邏輯塊劃分;利用正則表達(dá)式判斷各個(gè)短標(biāo)題結(jié)構(gòu)是否是問題,如果是問題,則將該短標(biāo)題設(shè)定為候選問題;根據(jù)候選問題在所述網(wǎng)頁內(nèi)容中的位置以及網(wǎng)頁內(nèi)容的邏輯塊劃分結(jié)果提取與候選問題對(duì)應(yīng)的候選答案;基于候選問題與候選答案之間所間隔的行數(shù)、候選答案中數(shù)字編號(hào)是否連續(xù)、答案條目數(shù)、答案中被判定為問題的條目數(shù)中的至少一項(xiàng),提取包含問題和答案的信息。
[0019]本申請(qǐng)?zhí)峁┑男畔⑻崛》椒ê脱b置,通過將網(wǎng)頁文件解析為標(biāo)簽樹結(jié)構(gòu),而后將正文節(jié)點(diǎn)包含的內(nèi)容進(jìn)行段落劃分生成段落塊,最后將段落塊包含的文本內(nèi)容進(jìn)行分類,并基于分類結(jié)果從段落塊包含的文本內(nèi)容中提取包含問題和答案的信息,從而實(shí)現(xiàn)了信息自動(dòng)、精確的提取。
【附圖說明】
[0020]通過閱讀參照以下附圖所作的對(duì)非限制性實(shí)施例所作的詳細(xì)描述,本申請(qǐng)的其它特征、目的和優(yōu)點(diǎn)將會(huì)變得更明顯:
[0021]圖1是本申請(qǐng)可以應(yīng)用于其中的示例性系統(tǒng)架構(gòu)圖;
[0022]圖2是根據(jù)本申請(qǐng)的信息提取方法的一個(gè)實(shí)施例的流程圖;
[0023]圖3是根據(jù)本申請(qǐng)的信息提取方法的一個(gè)應(yīng)用場(chǎng)景的示意圖;
[0024]圖4是根據(jù)本申請(qǐng)的信息提取方法的又一個(gè)實(shí)施例的流程圖;
[0025]圖5是根據(jù)本申請(qǐng)的信息提取裝置的一個(gè)實(shí)施例的結(jié)構(gòu)示意圖;
[0026]圖6是適于用來實(shí)現(xiàn)本申請(qǐng)實(shí)施例的終端設(shè)備或服務(wù)器的計(jì)算機(jī)系統(tǒng)的結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0027]下面結(jié)合附圖和實(shí)施例對(duì)本申請(qǐng)作進(jìn)一步的詳細(xì)說明。可以理解的是,此處所描述的具體實(shí)施例僅僅用于解釋相關(guān)發(fā)明,而非對(duì)該發(fā)明的限定。另外還需要說明的是,為了便于描述,附圖中僅示出了與有關(guān)發(fā)明相關(guān)的部分。
[0028]需要說明的是,在不沖突的情況下,本申請(qǐng)中的