本發(fā)明涉及文本數(shù)據(jù)處理技術(shù)領(lǐng)域,特別涉及一種文本中知識(shí)領(lǐng)域識(shí)別方法及系統(tǒng)。
背景技術(shù):
文本中實(shí)體間的語義關(guān)系的揭示是實(shí)現(xiàn)文本中領(lǐng)域知識(shí)發(fā)現(xiàn)的重要前提和保障。當(dāng)前,對于社交媒體文本數(shù)據(jù)知識(shí)發(fā)現(xiàn)的研究多為對現(xiàn)有知識(shí)發(fā)現(xiàn)方法的應(yīng)用和改進(jìn),鮮少有對文本內(nèi)容中實(shí)體間語義關(guān)系的討論,現(xiàn)有技術(shù)中,對文本中知識(shí)領(lǐng)域的識(shí)別僅通過對關(guān)鍵詞的識(shí)別判定,識(shí)別效率不高,且對文本數(shù)據(jù)中領(lǐng)域知識(shí)的可靠性難以保證。
綜上所述,如何提高文本中知識(shí)領(lǐng)域的識(shí)別效率是本領(lǐng)域技術(shù)人員目前需要解決的技術(shù)問題。
技術(shù)實(shí)現(xiàn)要素:
有鑒于此,本發(fā)明的目的在于提供一種文本中知識(shí)領(lǐng)域識(shí)別方法及系統(tǒng),可以顯著提高文本中知識(shí)領(lǐng)域的識(shí)別效率。其具體方案如下:
一種文本中知識(shí)領(lǐng)域識(shí)別方法,包括:
步驟S1:判斷相關(guān)領(lǐng)域概念和目標(biāo)領(lǐng)域概念是否出現(xiàn)在同一句子中,若是,則進(jìn)行步驟S2,若否,則進(jìn)行步驟S6;
步驟S2:判斷所述相關(guān)領(lǐng)域概念的數(shù)量是否唯一,若是,則判定找到概念/關(guān)系對,若否,則進(jìn)行步驟S3;
步驟S3:計(jì)算第一相關(guān)領(lǐng)域概念距離和第二相關(guān)概念領(lǐng)域距離之差的絕對值,得到第一相對距離,其中,所述第一相關(guān)領(lǐng)域概念距離為所述第一相關(guān)領(lǐng)域概念與所述目標(biāo)領(lǐng)域概念之差的絕對值,所述第二相關(guān)領(lǐng)域概念距離為所述第二相關(guān)領(lǐng)域概念與所述目標(biāo)領(lǐng)域概念之差的絕對值;
步驟S4:判斷所述第一相對距離是否大于或等于第一閾值,若是,則進(jìn)行步驟S5,若否,則根據(jù)語境進(jìn)行分析,以得到概念/關(guān)系對;
步驟S5:判定所述第一相關(guān)領(lǐng)域概念距離和所述第二相關(guān)概念領(lǐng)域距離中的較小者相應(yīng)的相關(guān)概念領(lǐng)域?yàn)楦拍?關(guān)系對;
步驟S6:判斷步驟S1中所述相關(guān)領(lǐng)域概念在相鄰句中是否唯一,若是,則判定找到概念/關(guān)系對,若否,則進(jìn)行步驟S7;
步驟S7:計(jì)算第三相關(guān)領(lǐng)域概念距離和第四相關(guān)概念領(lǐng)域距離之差的絕對值,得到第二相對距離,其中,所述第三相關(guān)領(lǐng)域概念距離為所述第三相關(guān)領(lǐng)域概念與所述目標(biāo)領(lǐng)域概念之差的絕對值,所述第四相關(guān)領(lǐng)域概念距離為所述第四相關(guān)領(lǐng)域概念與所述目標(biāo)領(lǐng)域概念之差的絕對值;
步驟S8:判斷所述第三相對距離是否大于或等于第二閾值,若是,則進(jìn)行步驟S9,若否,則根據(jù)語境進(jìn)行分析,以得到概念/關(guān)系對;
步驟S9:判定所述第三相關(guān)領(lǐng)域概念距離和所述第四相關(guān)概念領(lǐng)域距離中的較小者相應(yīng)的相關(guān)概念領(lǐng)域?yàn)楦拍?關(guān)系對。
優(yōu)選的,步驟S4中所述根據(jù)語境進(jìn)行分析包括:
按照出現(xiàn)順序獲取所述第一相關(guān)領(lǐng)域概念、所述第二相關(guān)領(lǐng)域概念和所述目標(biāo)領(lǐng)域的序列集合,根據(jù)所述序列集合進(jìn)行分析。
優(yōu)選的,所述文本中知識(shí)領(lǐng)域識(shí)別方法還包括:
若存在相關(guān)領(lǐng)域概念的數(shù)量大于2時(shí),判斷每一個(gè)相關(guān)領(lǐng)域概念是否曾被確認(rèn)為所述目標(biāo)領(lǐng)域概念的概念/關(guān)系對,若否,則判定為找到新概念/關(guān)系對,若是,則需要根據(jù)語境判斷。
優(yōu)選的,所述文本中知識(shí)領(lǐng)域識(shí)別方法還包括:
若存在相關(guān)領(lǐng)域概念的數(shù)量大于2時(shí),判斷每一個(gè)相關(guān)領(lǐng)域概念是否曾作為所述目標(biāo)領(lǐng)域概念的結(jié)果出現(xiàn),若否,則判定為找到新概念/關(guān)系對,若是,則需要根據(jù)語境判斷。
本發(fā)明還公開了一種文本中知識(shí)領(lǐng)域識(shí)別系統(tǒng),包括同句判斷模塊、第一數(shù)量判斷模塊、第一相對距離計(jì)算模塊、第一閾值判斷模塊、第一距離確定模塊、第二數(shù)量判斷模塊、第二相對距離計(jì)算模塊、第二閾值判斷模塊和第二距離確定模塊,其中:
所述同句判斷模塊,用于判斷相關(guān)領(lǐng)域概念和目標(biāo)領(lǐng)域概念是否出現(xiàn)在同一句子中,若是,則控制所述第一數(shù)量判斷模塊工作,若否,則控制第二數(shù)量判斷模塊工作;
所述第一數(shù)量判斷模塊,用于判斷所述相關(guān)領(lǐng)域概念的數(shù)量是否唯一,若是,則判定找到概念/關(guān)系對,若否,則控制所述第一相對距離計(jì)算模塊工作;
所述第一相對距離計(jì)算模塊,用于計(jì)算第一相關(guān)領(lǐng)域概念距離和第二相關(guān)概念領(lǐng)域距離之差的絕對值,得到第一相對距離,其中,所述第一相關(guān)領(lǐng)域概念距離為所述第一相關(guān)領(lǐng)域概念與所述目標(biāo)領(lǐng)域概念之差的絕對值,所述第二相關(guān)領(lǐng)域概念距離為所述第二相關(guān)領(lǐng)域概念與所述目標(biāo)領(lǐng)域概念之差的絕對值;
所述第一閾值判斷模塊,用于判斷所述第一相對距離是否大于或等于第一閾值,若是,則控制所述第一距離確定模塊工作,若否,則根據(jù)語境進(jìn)行分析,以得到概念/關(guān)系對;
所述第一距離確定模塊,用于判定所述第一相關(guān)領(lǐng)域概念距離和所述第二相關(guān)概念領(lǐng)域距離中的較小者相應(yīng)的相關(guān)概念領(lǐng)域?yàn)楦拍?關(guān)系對;
所述第二數(shù)量判斷模塊,用于判斷所述同句判斷模塊中的所述相關(guān)領(lǐng)域概念在相鄰句中是否唯一,若是,則判定找到概念/關(guān)系對,若否,則控制所述第二相對距離計(jì)算模塊工作;
所述第二相對距離計(jì)算模塊,用于計(jì)算第三相關(guān)領(lǐng)域概念距離和第四相關(guān)概念領(lǐng)域距離之差的絕對值,得到第二相對距離,其中,所述第三相關(guān)領(lǐng)域概念距離為所述第三相關(guān)領(lǐng)域概念與所述目標(biāo)領(lǐng)域概念之差的絕對值,所述第四相關(guān)領(lǐng)域概念距離為所述第四相關(guān)領(lǐng)域概念與所述目標(biāo)領(lǐng)域概念之差的絕對值;
所述第二閾值判斷模塊,用于判斷所述第三相對距離是否大于或等于第二閾值,若是,則控制所述第二距離確定模塊工作,若否,則根據(jù)語境進(jìn)行分析,以得到概念/關(guān)系對;
所述第二距離確定模塊,用于判定所述第三相關(guān)領(lǐng)域概念距離和所述第四相關(guān)概念領(lǐng)域距離中的較小者相應(yīng)的相關(guān)概念領(lǐng)域?yàn)楦拍?關(guān)系對。
本發(fā)明公開了一種文本中知識(shí)領(lǐng)域識(shí)別方法,通過判斷相關(guān)概念領(lǐng)域和目標(biāo)概念領(lǐng)域的位置,若相關(guān)概念領(lǐng)域的數(shù)量唯一,則找到概念/關(guān)系對,若相關(guān)概念領(lǐng)域的數(shù)量不唯一,則對同句或相鄰句中的相關(guān)概念領(lǐng)域和目標(biāo)概念領(lǐng)域的相對距離進(jìn)行計(jì)算,若相對距離大于或等于閾值,則距離目標(biāo)概念領(lǐng)域更近的相關(guān)概念領(lǐng)域?yàn)楦拍?關(guān)系對,若小于閾值,則需要根據(jù)語境進(jìn)行分析判斷,可以較快速地處理文本中知識(shí)領(lǐng)域之間的匹配關(guān)系,從而提高了文本中知識(shí)領(lǐng)域的識(shí)別效率。
本發(fā)明還公開了一種文本中知識(shí)領(lǐng)域識(shí)別系統(tǒng),具有與上述權(quán)利要求相同的技術(shù)效果,在此不再贅述。
附圖說明
為了更清楚地說明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的實(shí)施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)提供的附圖獲得其他的附圖。
圖1為本發(fā)明公開的一種文本中知識(shí)領(lǐng)域識(shí)別方法的流程示意圖;
圖2為本發(fā)明公開的一種文本中知識(shí)領(lǐng)域識(shí)別系統(tǒng)的結(jié)構(gòu)示意圖。
具體實(shí)施方式
下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
本發(fā)明實(shí)施例公開了一種文本中知識(shí)領(lǐng)域識(shí)別方法,參見圖1所示,包括步驟S1至S9,其中:
步驟S1:判斷相關(guān)領(lǐng)域概念和目標(biāo)領(lǐng)域概念是否出現(xiàn)在同一句子中,若是,則進(jìn)行步驟S2,若否,則進(jìn)行步驟S6。
本發(fā)明對相關(guān)領(lǐng)域概念和目標(biāo)領(lǐng)域概念的位置進(jìn)行差異化判斷,具體分為出現(xiàn)在同一個(gè)句子和出現(xiàn)在不同句子,步驟S2至S5為出現(xiàn)在同一句子,步驟S6至S9為出現(xiàn)在相鄰句中。
可以理解的是,相關(guān)領(lǐng)域概念和目標(biāo)領(lǐng)域概念出現(xiàn)在不相鄰的句子中涵蓋范圍過大,例如相關(guān)領(lǐng)域概念和目標(biāo)領(lǐng)域概念分別出現(xiàn)在全文第一段和最后一段,對于出現(xiàn)在不相鄰的句子的情況,本發(fā)明不予考慮。
步驟S2:判斷所述相關(guān)領(lǐng)域概念的數(shù)量是否唯一,若是,則判定找到概念/關(guān)系對,若否,則進(jìn)行步驟S3;
步驟S3:計(jì)算第一相關(guān)領(lǐng)域概念距離和第二相關(guān)概念領(lǐng)域距離之差的絕對值,得到第一相對距離,其中,所述第一相關(guān)領(lǐng)域概念距離為所述第一相關(guān)領(lǐng)域概念與所述目標(biāo)領(lǐng)域概念之差的絕對值,所述第二相關(guān)領(lǐng)域概念距離為所述第二相關(guān)領(lǐng)域概念與所述目標(biāo)領(lǐng)域概念之差的絕對值;
步驟S4:判斷所述第一相對距離是否大于或等于第一閾值,若是,則進(jìn)行步驟S5,若否,則根據(jù)語境進(jìn)行分析,以得到概念/關(guān)系對;
步驟S5:判定所述第一相關(guān)領(lǐng)域概念距離和所述第二相關(guān)概念領(lǐng)域距離中的較小者相應(yīng)的相關(guān)概念領(lǐng)域?yàn)楦拍?關(guān)系對。
對于步驟S3至S5,一種具體的實(shí)施例為:
計(jì)算過程中的字符說明如下:
χ表示目標(biāo)領(lǐng)域概念;
φ表示與目標(biāo)領(lǐng)域概念有關(guān)系的第一相關(guān)領(lǐng)域概念;
τ表示與目標(biāo)領(lǐng)域概念有關(guān)的第二相關(guān)領(lǐng)域概念;
Pχ表示目標(biāo)領(lǐng)域概念在文本中出現(xiàn)的位置;
表示第一相關(guān)領(lǐng)域概念在文本中出現(xiàn)的位置;,
Pτ表示第二相關(guān)領(lǐng)域概念在文中出現(xiàn)的位置;
S表示包含目標(biāo)領(lǐng)域概念的句子及其相鄰句子組成的句子集合;
表示相關(guān)領(lǐng)域概念組成的集合;
χ表示目標(biāo)領(lǐng)域概念的集合;
Dist(Si):句子中相關(guān)領(lǐng)域概念φ或相關(guān)領(lǐng)域概念τ與目標(biāo)領(lǐng)域概念χ的距離,即第一相對距離。
表示是否找到相關(guān)領(lǐng)域概念φ與目標(biāo)領(lǐng)域概念χ概念對(φ,χ)。
以下推理規(guī)則的構(gòu)建是建立在包含目標(biāo)領(lǐng)域概念的當(dāng)前句子及其相鄰句子中只出現(xiàn)一個(gè)目標(biāo)領(lǐng)域概念的假設(shè)下的。
對于相關(guān)領(lǐng)域概念與目標(biāo)領(lǐng)域概念都出現(xiàn)在同一句子中的情況,抽取實(shí)體語義關(guān)系的推理規(guī)則公式如下:
為定義計(jì)算符號(hào),表示取或邏輯,左端表示存在的相關(guān)領(lǐng)域概念的數(shù)量唯一,右端表示第一相對距離大于或等于第一閾值3,且第一相關(guān)領(lǐng)域概念在文本中出現(xiàn)的位置比第二相關(guān)領(lǐng)域概念在文本中出現(xiàn)的位置Pτ更近;&表示與邏輯,在本式中表示同時(shí)滿足第一相關(guān)領(lǐng)域概念在文本中出現(xiàn)的位置比第二相關(guān)領(lǐng)域概念在文本中出現(xiàn)的位置Pτ更近的結(jié)果和第一相對距離大于或等于第一閾值3;Sequence(Si)表示相關(guān)領(lǐng)域概念與目標(biāo)領(lǐng)域概念的判定序列,其中判定序列包括第一相關(guān)領(lǐng)域概念構(gòu)成概念/關(guān)系對和第二相關(guān)領(lǐng)域概念構(gòu)成概念/關(guān)系對;R為相關(guān)領(lǐng)域概念與目標(biāo)領(lǐng)域概念組成的序列集合;others表示運(yùn)算的其他情況。
當(dāng)然,第一閾值也可以其他值。
句子中相關(guān)領(lǐng)域概念φ或相關(guān)領(lǐng)域概念τ與目標(biāo)領(lǐng)域概念χ的距離Dist(Si)的定義如下:
其中∞表示一定存在φ與χ構(gòu)成的領(lǐng)域概念/關(guān)系對;表示相關(guān)領(lǐng)域概念φ和相關(guān)領(lǐng)域概念τ與目標(biāo)領(lǐng)域概念χ的相對距離的差的絕對值。
根據(jù)以上定義,推理規(guī)則公式對應(yīng)的推理規(guī)則為:
①若當(dāng)前句子中只有相關(guān)領(lǐng)域概念φ,而沒有相關(guān)領(lǐng)域概念τ,則認(rèn)為φ即是要找的與目標(biāo)領(lǐng)域概念組成實(shí)體語義關(guān)系的那個(gè)領(lǐng)域相關(guān)概念,即找到概念/關(guān)系對。
②若當(dāng)前句子中同時(shí)出現(xiàn)相關(guān)領(lǐng)域概念φ和相關(guān)領(lǐng)域概念τ,則需分別計(jì)算相關(guān)領(lǐng)域概念φ和相關(guān)領(lǐng)域概念τ與目標(biāo)領(lǐng)域概念χ的相對距離。當(dāng)相對距離的差的絕對值大于等于某個(gè)預(yù)定的閥值,且相關(guān)領(lǐng)域概念φ與目標(biāo)概念χ的距離更近(即)時(shí),找到概念/關(guān)系對。
③當(dāng)相對距離的差的絕對值小于某個(gè)預(yù)定的閥值時(shí),由于相關(guān)領(lǐng)域概念φ和相關(guān)概念領(lǐng)域概念τ與目標(biāo)領(lǐng)域概念χ的相對距離差別不大,因此需根據(jù)φ、χ、τ出現(xiàn)在文本中的順序進(jìn)行進(jìn)一步分析。
對于步驟S4中所述根據(jù)語境進(jìn)行分析包括:
按照出現(xiàn)順序獲取所述第一相關(guān)領(lǐng)域概念、所述第二相關(guān)領(lǐng)域概念和所述目標(biāo)領(lǐng)域的序列集合,根據(jù)所述序列集合進(jìn)行分析。
根據(jù)上述具體的實(shí)施例,定義φ、χ、τ出現(xiàn)在文本中的序列集合R,其中包含φ、χ、τ在文本中出現(xiàn)的所有可能的次序的組合排列。
前四種為第一相關(guān)領(lǐng)域概念構(gòu)成概念/關(guān)系對,后兩種為第二相關(guān)領(lǐng)域概念構(gòu)成概念/關(guān)系對。
例如,判斷同句子中的第一相關(guān)概念領(lǐng)域disease、第二相關(guān)概念領(lǐng)域drug和目標(biāo)概念領(lǐng)域MedicalSign的序列集合,具體包括如下組合:
①在句子中出現(xiàn)的順序依次為Drug name、MedicalSign、disease name;
②在句子中出現(xiàn)的順序依次為Disease name、Drug name、MedicalSign;
③在句子中出現(xiàn)的順序依次為MedicalSign、Drug name、disease name;
④在句子中出現(xiàn)的順序依次為drug name、disease name、MedicalSign;
⑤在句子中出現(xiàn)的順序依次為disease name、MedicalSign、drug name;
⑥在句子中出現(xiàn)的順序依次為MedicalSign、disease name、drug name;
判斷結(jié)果為:前四個(gè)是藥物不良反應(yīng),后兩個(gè)是疾病的癥狀。
對于根據(jù)φ、χ、τ出現(xiàn)在文本中的順序不同組成的排列組合R,需要根據(jù)實(shí)際語境和語言習(xí)慣等進(jìn)行綜合判斷。
步驟S6:判斷步驟S1中所述相關(guān)領(lǐng)域概念在相鄰句中是否唯一,若是,則判定找到概念/關(guān)系對,若否,則進(jìn)行步驟S7;
步驟S7:計(jì)算第三相關(guān)領(lǐng)域概念距離和第四相關(guān)概念領(lǐng)域距離之差的絕對值,得到第二相對距離,其中,所述第三相關(guān)領(lǐng)域概念距離為所述第三相關(guān)領(lǐng)域概念與所述目標(biāo)領(lǐng)域概念之差的絕對值,所述第四相關(guān)領(lǐng)域概念距離為所述第四相關(guān)領(lǐng)域概念與所述目標(biāo)領(lǐng)域概念之差的絕對值;
步驟S8:判斷所述第三相對距離是否大于或等于第二閾值,若是,則進(jìn)行步驟S9,若否,則根據(jù)語境進(jìn)行分析,以得到概念/關(guān)系對;
步驟S9:判定所述第三相關(guān)領(lǐng)域概念距離和所述第四相關(guān)概念領(lǐng)域距離中的較小者相應(yīng)的相關(guān)概念領(lǐng)域?yàn)楦拍?關(guān)系對。
步驟S6至S9為相關(guān)領(lǐng)域概念和目標(biāo)領(lǐng)域概念出現(xiàn)在不同句子中,即相鄰句中。
需要說明的是,步驟S6至S9中出現(xiàn)的第三相關(guān)領(lǐng)域概念距離、第四相關(guān)概念領(lǐng)域距離和第二相對距離,與步驟S2至S5中出現(xiàn)的第一相關(guān)領(lǐng)域概念距離、第二相關(guān)概念領(lǐng)域距離和第一相對距離僅為防止本領(lǐng)域技術(shù)人員閱讀時(shí)對判斷語句內(nèi)容產(chǎn)生誤解而進(jìn)行的區(qū)別,在實(shí)際判斷中,對于目標(biāo)語句,相關(guān)領(lǐng)域概念和目標(biāo)領(lǐng)域概念出現(xiàn)的情況是確定的,所以步驟S2至S5和步驟S6至S9是排他的,因此,下述實(shí)施例中,仍用上述具體實(shí)施例一中的符號(hào)進(jìn)行舉例,即φ表示與目標(biāo)領(lǐng)域概念有關(guān)系的第三相關(guān)領(lǐng)域概念;τ表示與目標(biāo)領(lǐng)域概念有關(guān)的第四相關(guān)領(lǐng)域概念。由于判斷文本相同因此第一閾值和第二閾值一般相同,即取3,當(dāng)然也可以取其他值。
根據(jù)步驟S6至S9,具體的實(shí)施例二如下:
當(dāng)相關(guān)領(lǐng)域概念φ和相關(guān)領(lǐng)域概念τ與目標(biāo)領(lǐng)域概念χ不在同一句子當(dāng)中時(shí),抽取實(shí)體語義關(guān)系的推理規(guī)則公式如下所示。
其中表示包含目標(biāo)領(lǐng)域概念的句子及其相鄰句子組成的句子集合,Si代表當(dāng)前句,Si-1和Si+1分別表示目標(biāo)領(lǐng)域概念所在句子的前一句和后一句。
根據(jù)以上定義,推理規(guī)則公式對應(yīng)的推理規(guī)則為:
①當(dāng)相關(guān)領(lǐng)域概念φ出現(xiàn)在包含目標(biāo)領(lǐng)域概念的句子的相鄰句中,且相鄰句中沒有其他相關(guān)領(lǐng)域概念時(shí),即認(rèn)為找到概念/關(guān)系對。
②當(dāng)相關(guān)領(lǐng)域概念φ和相關(guān)領(lǐng)域概念τ都在包含目標(biāo)領(lǐng)域概念的句子的相鄰句中時(shí),分別計(jì)算相關(guān)領(lǐng)域概念φ和相關(guān)領(lǐng)域概念τ與目標(biāo)領(lǐng)域概念χ的相對距離。當(dāng)相關(guān)領(lǐng)域概念φ與目標(biāo)概念χ的距離更近(即)時(shí),找到概念/關(guān)系對。
為了提高本發(fā)明對存在多個(gè)目標(biāo)領(lǐng)域概念情況的識(shí)別效率,所述文本中知識(shí)領(lǐng)域識(shí)別方法還包括:
若存在相關(guān)領(lǐng)域概念的數(shù)量大于2時(shí),判斷每一個(gè)相關(guān)領(lǐng)域概念是否曾被確認(rèn)為所述目標(biāo)領(lǐng)域概念的概念/關(guān)系對,若否,則判定為找到新概念/關(guān)系對,若是,則需要根據(jù)語境判斷。
考慮到文本中內(nèi)容之間的關(guān)系,可以對上述存在多個(gè)目標(biāo)領(lǐng)域情況采取另一種判別方法,具體的,所述文本中知識(shí)領(lǐng)域識(shí)別方法還包括:
若存在相關(guān)領(lǐng)域概念的數(shù)量大于2時(shí),判斷每一個(gè)相關(guān)領(lǐng)域概念是否曾作為所述目標(biāo)領(lǐng)域概念的結(jié)果出現(xiàn),若否,則判定為找到新概念/關(guān)系對,若是,則需要根據(jù)語境判斷。
對于存在多個(gè)相關(guān)領(lǐng)域概念的情況和存在多個(gè)目標(biāo)領(lǐng)域概念的集合,具體的實(shí)施例三如下:
當(dāng)存在多個(gè)相關(guān)領(lǐng)域概念或多個(gè)目標(biāo)領(lǐng)域概念時(shí),抽取實(shí)體語義關(guān)系的推理規(guī)則公式如下所示:
其中,表示取或,在本推理公式中左端表示多領(lǐng)域集合大于1且從沒有被確認(rèn)為所述目標(biāo)領(lǐng)域概念的結(jié)果,右端表示多領(lǐng)域集合大于1且從沒有被作為所述目標(biāo)領(lǐng)域概念的結(jié)果出現(xiàn),表示多個(gè)相關(guān)領(lǐng)域概念的集合,X=(x1,x2,...,xm)表示多個(gè)目標(biāo)領(lǐng)域概念的集合,表示已被證明是所述目標(biāo)領(lǐng)域概念的結(jié)果的概念/關(guān)系對集合,其中表示已被證明是所述目標(biāo)領(lǐng)域概念的結(jié)果的概念/關(guān)系對,表示已確認(rèn)作為所述目標(biāo)領(lǐng)域概念的結(jié)果的集合。
上述推理規(guī)則公式對應(yīng)的推理規(guī)則為:
①若存在多個(gè)相關(guān)領(lǐng)域概念,判斷目標(biāo)領(lǐng)域概念x是否曾經(jīng)作為述目標(biāo)領(lǐng)域概念的結(jié)果出現(xiàn)過,若沒有,則認(rèn)為找到新的概念/關(guān)系對,只是此時(shí)獲得的概念/關(guān)系對可看作是“一對多”的形式,如
②對相關(guān)領(lǐng)域概念集合中的每個(gè)相關(guān)領(lǐng)域概念,都需要判斷目標(biāo)領(lǐng)域概念χ是否曾經(jīng)與相關(guān)領(lǐng)域概念集合中任意一個(gè)相關(guān)領(lǐng)域概念以概念/關(guān)系對的形式被確認(rèn)為述目標(biāo)領(lǐng)域概念的結(jié)果,若沒有,則可認(rèn)為找到新的概念/關(guān)系對。
本發(fā)明還公開了一種文本中知識(shí)領(lǐng)域識(shí)別系統(tǒng),包括同句判斷模塊11、第一數(shù)量判斷模塊12、第一相對距離計(jì)算模塊13、第一閾值判斷模塊14、第一距離確定模塊15、第二數(shù)量判斷模塊16、第二相對距離計(jì)算模塊17、第二閾值判斷模塊18和第二距離確定模塊19,其中:
所述同句判斷模塊,用于判斷相關(guān)領(lǐng)域概念和目標(biāo)領(lǐng)域概念是否出現(xiàn)在同一句子中,若是,則控制所述第一數(shù)量判斷模塊工作,若否,則控制第二數(shù)量判斷模塊工作;
所述第一數(shù)量判斷模塊,用于判斷所述相關(guān)領(lǐng)域概念的數(shù)量是否唯一,若是,則判定找到概念/關(guān)系對,若否,則控制所述第一相對距離計(jì)算模塊工作;
所述第一相對距離計(jì)算模塊,用于計(jì)算第一相關(guān)領(lǐng)域概念距離和第二相關(guān)概念領(lǐng)域距離之差的絕對值,得到第一相對距離,其中,所述第一相關(guān)領(lǐng)域概念距離為所述第一相關(guān)領(lǐng)域概念與所述目標(biāo)領(lǐng)域概念之差的絕對值,所述第二相關(guān)領(lǐng)域概念距離為所述第二相關(guān)領(lǐng)域概念與所述目標(biāo)領(lǐng)域概念之差的絕對值;
所述第一閾值判斷模塊,用于判斷所述第一相對距離是否大于或等于第一閾值,若是,則控制所述第一距離確定模塊工作,若否,則根據(jù)語境進(jìn)行分析,以得到概念/關(guān)系對;
所述第一距離確定模塊,用于判定所述第一相關(guān)領(lǐng)域概念距離和所述第二相關(guān)概念領(lǐng)域距離中的較小者相應(yīng)的相關(guān)概念領(lǐng)域?yàn)楦拍?關(guān)系對;
所述第二數(shù)量判斷模塊,用于判斷所述同句判斷模塊中的所述相關(guān)領(lǐng)域概念在相鄰句中是否唯一,若是,則判定找到概念/關(guān)系對,若否,則控制所述第二相對距離計(jì)算模塊工作;
所述第二相對距離計(jì)算模塊,用于計(jì)算第三相關(guān)領(lǐng)域概念距離和第四相關(guān)概念領(lǐng)域距離之差的絕對值,得到第二相對距離,其中,所述第三相關(guān)領(lǐng)域概念距離為所述第三相關(guān)領(lǐng)域概念與所述目標(biāo)領(lǐng)域概念之差的絕對值,所述第四相關(guān)領(lǐng)域概念距離為所述第四相關(guān)領(lǐng)域概念與所述目標(biāo)領(lǐng)域概念之差的絕對值;
所述第二閾值判斷模塊,用于判斷所述第三相對距離是否大于或等于第二閾值,若是,則控制所述第二距離確定模塊工作,若否,則根據(jù)語境進(jìn)行分析,以得到概念/關(guān)系對;
所述第二距離確定模塊,用于判定所述第三相關(guān)領(lǐng)域概念距離和所述第四相關(guān)概念領(lǐng)域距離中的較小者相應(yīng)的相關(guān)概念領(lǐng)域?yàn)楦拍?關(guān)系對。
最后,還需要說明的是,在本文中,諸如第一和第二等之類的關(guān)系術(shù)語僅僅用來將一個(gè)實(shí)體或者操作與另一個(gè)實(shí)體或操作區(qū)分開來,而不一定要求或者暗示這些實(shí)體或操作之間存在任何這種實(shí)際的關(guān)系或者順序。而且,術(shù)語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、物品或者設(shè)備不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、物品或者設(shè)備所固有的要素。在沒有更多限制的情況下,由語句“包括一個(gè)……”限定的要素,并不排除在包括所述要素的過程、方法、物品或者設(shè)備中還存在另外的相同要素。
以上對本發(fā)明所提供的一種文本中知識(shí)領(lǐng)域識(shí)別方法及系統(tǒng)進(jìn)行了詳細(xì)介紹,本文中應(yīng)用了具體個(gè)例對本發(fā)明的原理及實(shí)施方式進(jìn)行了闡述,以上實(shí)施例的說明只是用于幫助理解本發(fā)明的方法及其核心思想;同時(shí),對于本領(lǐng)域的一般技術(shù)人員,依據(jù)本發(fā)明的思想,在具體實(shí)施方式及應(yīng)用范圍上均會(huì)有改變之處,綜上所述,本說明書內(nèi)容不應(yīng)理解為對本發(fā)明的限制。