本申請(qǐng)涉及計(jì)算機(jī),特別涉及一種實(shí)體識(shí)別方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)。
背景技術(shù):
1、實(shí)體是指在特定上下文中具有獨(dú)立意義的事物或?qū)ο?,?shí)體可以包括多種類型,如音樂(lè)實(shí)體。
2、相關(guān)技術(shù)中,針對(duì)實(shí)體識(shí)別方法,包括兩種方法,方法1為基于深度學(xué)習(xí)的實(shí)體識(shí)別技術(shù),方法2為基于字典的實(shí)體識(shí)別(匹配)技術(shù)。其中,方法1包括訓(xùn)練階段和使用階段。訓(xùn)練階段可以包括:獲取樣本輸入文本,以及樣本輸入文本的標(biāo)注結(jié)果;通過(guò)深度學(xué)習(xí)模型根據(jù)樣本輸入文本以及標(biāo)注結(jié)果對(duì)該深度學(xué)習(xí)模型進(jìn)行監(jiān)督訓(xùn)練,以此得到訓(xùn)練后的深度學(xué)習(xí)模型。使用階段可以包括:將待測(cè)的輸入文本輸入至訓(xùn)練后的深度學(xué)習(xí)模型,以此得到待測(cè)的輸入文本的預(yù)測(cè)實(shí)體結(jié)果。方法2可以包括:首先構(gòu)建一個(gè)實(shí)體字典,字典中的每個(gè)條目對(duì)應(yīng)一個(gè)實(shí)體。例如,字典可以包含音樂(lè)實(shí)體字典,其中每一個(gè)條目為音樂(lè)相關(guān)的實(shí)體,如歌曲名、藝術(shù)家名、專輯名等。接著,對(duì)待測(cè)的輸入文本進(jìn)行預(yù)處理,通常包括分詞處理。然后,將預(yù)處理后的文本中的各個(gè)分詞與字典中的條目進(jìn)行匹配。如果某個(gè)分詞在字典中存在,則將其標(biāo)記為相應(yīng)的實(shí)體。最后,輸出待測(cè)的輸入文本包括的實(shí)體。
3、上述方法1,當(dāng)實(shí)體(如音樂(lè)實(shí)體)發(fā)生變化時(shí),如音樂(lè)實(shí)體增加,由于在深度學(xué)習(xí)模型的訓(xùn)練階段未對(duì)該增加的音樂(lè)實(shí)體進(jìn)行標(biāo)注,因此無(wú)法在使用階段識(shí)別出該實(shí)體,從而影響實(shí)體識(shí)別的準(zhǔn)確性。對(duì)于上述方法2,由于實(shí)體本身可能存在歧義性,示例性地,“這首”、“真好聽(tīng)呀”可以都是歌曲名(也即都可以在實(shí)體字典中進(jìn)行匹配),但是放在上下文中,可能并非實(shí)際的歌曲名,而是作為修辭或感嘆使用,如果直接使用實(shí)體字典匹配會(huì)導(dǎo)致誤召回歌曲實(shí)體。也即在進(jìn)行實(shí)體識(shí)別時(shí)需要結(jié)合輸入文本的上下文語(yǔ)義進(jìn)行區(qū)分,僅使用字典匹配,也會(huì)影響實(shí)體識(shí)別的準(zhǔn)確性。
技術(shù)實(shí)現(xiàn)思路
1、本申請(qǐng)實(shí)施例提供了一種實(shí)體識(shí)別方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)。本申請(qǐng)實(shí)施例提供的技術(shù)方案如下:
2、根據(jù)本申請(qǐng)實(shí)施例的一個(gè)方面,提供了一種實(shí)體識(shí)別方法,所述方法包括:
3、獲取第一輸入文本;
4、基于實(shí)體知識(shí)庫(kù),確定所述第一輸入文本中包括的至少一個(gè)潛在候選實(shí)體,所述實(shí)體知識(shí)庫(kù)中包括多個(gè)候選實(shí)體;
5、獲取所述至少一個(gè)潛在候選實(shí)體分別對(duì)應(yīng)的屬性信息,所述潛在候選實(shí)體對(duì)應(yīng)的屬性信息用于指示所述潛在候選實(shí)體的實(shí)體類別;
6、通過(guò)實(shí)體識(shí)別模型根據(jù)所述第一輸入文本以及所述至少一個(gè)潛在候選實(shí)體分別對(duì)應(yīng)的屬性信息,確定所述第一輸入文本中包括的至少一個(gè)實(shí)體。
7、根據(jù)本申請(qǐng)實(shí)施例的一個(gè)方面,提供了一種實(shí)體識(shí)別裝置,所述裝置包括:
8、第一獲取模塊,用于獲取第一輸入文本;
9、第一確定模塊,用于基于實(shí)體知識(shí)庫(kù),確定所述第一輸入文本中包括的至少一個(gè)潛在候選實(shí)體,所述實(shí)體知識(shí)庫(kù)中包括多個(gè)候選實(shí)體;
10、第二獲取模塊,用于獲取所述至少一個(gè)潛在候選實(shí)體分別對(duì)應(yīng)的屬性信息,所述潛在候選實(shí)體對(duì)應(yīng)的屬性信息用于指示所述潛在候選實(shí)體的實(shí)體類別;
11、第二確定模塊,用于通過(guò)實(shí)體識(shí)別模型根據(jù)所述第一輸入文本以及所述至少一個(gè)潛在候選實(shí)體分別對(duì)應(yīng)的屬性信息,確定所述第一輸入文本中包括的至少一個(gè)實(shí)體。
12、根據(jù)本申請(qǐng)實(shí)施例的一個(gè)方面,提供了一種計(jì)算機(jī)設(shè)備,所述計(jì)算機(jī)設(shè)備包括處理器和存儲(chǔ)器,所述存儲(chǔ)器中存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序由所述處理器加載并執(zhí)行以實(shí)現(xiàn)上述實(shí)體識(shí)別方法。
13、根據(jù)本申請(qǐng)實(shí)施例的一個(gè)方面,提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述可讀存儲(chǔ)介質(zhì)中存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序由處理器加載并執(zhí)行以實(shí)現(xiàn)上述實(shí)體識(shí)別方法。
14、根據(jù)本申請(qǐng)實(shí)施例的一個(gè)方面,提供了一種計(jì)算機(jī)程序產(chǎn)品,所述計(jì)算機(jī)程序產(chǎn)品包括計(jì)算機(jī)程序,所述計(jì)算機(jī)程序由處理器加載并執(zhí)行以實(shí)現(xiàn)上述實(shí)體識(shí)別方法。
15、本申請(qǐng)實(shí)施例提供的技術(shù)方案至少包括如下有益效果:
16、通過(guò)將第一輸入文本與實(shí)體知識(shí)庫(kù)中包括的候選實(shí)體進(jìn)行匹配,這種方法,能夠靈活適應(yīng)實(shí)體變動(dòng)的情況,確保潛在候選實(shí)體識(shí)別的完整性和準(zhǔn)確性,為后續(xù)實(shí)體識(shí)別模型提供更加準(zhǔn)確的輸入信息。并且通過(guò)實(shí)體識(shí)別模型,能夠?qū)Φ谝惠斎胛谋镜纳舷挛牡恼Z(yǔ)義信息進(jìn)行學(xué)習(xí),一方面,避免了由于實(shí)體自身的歧義性,帶來(lái)的識(shí)別不準(zhǔn)確的問(wèn)題。另一方面,由于實(shí)體識(shí)別模型的輸入包括潛在候選實(shí)體對(duì)應(yīng)的屬性信息,即使第一輸入文本包括的實(shí)體在實(shí)體識(shí)別模型的訓(xùn)練階段未被訓(xùn)練,實(shí)體識(shí)別模型也能夠根據(jù)屬性信息及時(shí)識(shí)別并適應(yīng)這些新實(shí)體,從而提高了實(shí)體識(shí)別的準(zhǔn)確性。并且,這種方法也不需要重新對(duì)實(shí)體識(shí)別模型進(jìn)行訓(xùn)練,提高了實(shí)體識(shí)別的效率。
1.一種實(shí)體識(shí)別方法,其特征在于,所述方法包括:
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述基于實(shí)體知識(shí)庫(kù),確定所述第一輸入文本中包括的至少一個(gè)潛在候選實(shí)體,包括:
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述實(shí)體知識(shí)庫(kù)中還包括所述多個(gè)候選實(shí)體分別對(duì)應(yīng)的權(quán)重信息,所述權(quán)重信息用于指示所述候選實(shí)體的熱度值;
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述根據(jù)所述多個(gè)候選實(shí)體分別對(duì)應(yīng)的權(quán)重信息,從所述至少一個(gè)第一待選實(shí)體中確定至少一個(gè)實(shí)體,作為至少一個(gè)第二待選實(shí)體,包括:
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述根據(jù)所述多個(gè)候選實(shí)體分別對(duì)應(yīng)的權(quán)重信息,確定所述至少一個(gè)第一待選實(shí)體分別對(duì)應(yīng)的概率信息,包括:
6.根據(jù)權(quán)利要求5所述的方法,其特征在于,所述路徑信息包括數(shù)量信息,所述數(shù)量信息用于指示所述第一待選實(shí)體包含其他第一待選實(shí)體的數(shù)量;
7.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述根據(jù)所述至少一個(gè)第一待選實(shí)體分別對(duì)應(yīng)的概率信息,從所述至少一個(gè)第一待選實(shí)體中確定至少一個(gè)實(shí)體,作為所述至少一個(gè)第二待選實(shí)體,包括:
8.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述將所述第一輸入文本與所述多個(gè)候選實(shí)體進(jìn)行匹配,確定所述第一輸入文本中包括在所述多個(gè)候選實(shí)體中的至少一個(gè)實(shí)體,作為至少一個(gè)第一待選實(shí)體,包括:
9.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述通過(guò)實(shí)體識(shí)別模型根據(jù)所述第一輸入文本以及所述至少一個(gè)潛在候選實(shí)體分別對(duì)應(yīng)的屬性信息,確定所述第一輸入文本中包括的至少一個(gè)實(shí)體,包括:
10.根據(jù)權(quán)利要求9所述的方法,其特征在于,所述獲取所述至少一個(gè)潛在候選實(shí)體包括的每一個(gè)字符對(duì)應(yīng)的屬性嵌入,包括:
11.根據(jù)權(quán)利要求6所述的方法,其特征在于,所述通過(guò)所述實(shí)體識(shí)別模型根據(jù)所述文本嵌入、所述分詞嵌入以及所述屬性嵌入,確定所述第一輸入文本中包括的至少一個(gè)實(shí)體,包括:
12.根據(jù)權(quán)利要求1至11任一項(xiàng)所述的方法,其特征在于,所述方法還包括:
13.根據(jù)權(quán)利要求1至11任一項(xiàng)所述的方法,其特征在于,所述實(shí)體知識(shí)庫(kù)中還包括所述多個(gè)候選實(shí)體分別對(duì)應(yīng)的權(quán)重信息,以及所述多個(gè)候選實(shí)體分別對(duì)應(yīng)的屬性信息,所述實(shí)體知識(shí)庫(kù)分布式存儲(chǔ)于多個(gè)存儲(chǔ)節(jié)點(diǎn),所述多個(gè)存儲(chǔ)節(jié)點(diǎn)中的每一個(gè)存儲(chǔ)節(jié)點(diǎn)定時(shí)更新新的候選實(shí)體加入所述存儲(chǔ)節(jié)點(diǎn)中。
14.根據(jù)權(quán)利要求1至11任一項(xiàng)所述的方法,其特征在于,所述實(shí)體識(shí)別模型的訓(xùn)練方法包括:
15.根據(jù)權(quán)利要求14所述的方法,其特征在于,所述實(shí)體標(biāo)注結(jié)果是通過(guò)大語(yǔ)言模型llm根據(jù)所述樣本輸入文本確定的,所述方法還包括:
16.一種實(shí)體識(shí)別裝置,其特征在于,所述裝置包括:
17.一種計(jì)算機(jī)設(shè)備,其特征在于,所述計(jì)算機(jī)設(shè)備包括處理器和存儲(chǔ)器,所述存儲(chǔ)器中存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序由所述處理器加載并執(zhí)行以實(shí)現(xiàn)如權(quán)利要求1至15任一項(xiàng)所述的方法。
18.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其特征在于,所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)中存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序由處理器加載并執(zhí)行以實(shí)現(xiàn)如權(quán)利要求1至15任一項(xiàng)所述的方法。
19.一種計(jì)算機(jī)程序產(chǎn)品,其特征在于,所述計(jì)算機(jī)程序產(chǎn)品包括計(jì)算機(jī)程序,所述計(jì)算機(jī)程序由處理器加載并執(zhí)行以實(shí)現(xiàn)如權(quán)利要求1至15任一項(xiàng)所述的方法。