本發(fā)明主要涉及文本匹配,具體涉及一種文本匹配方法、裝置、系統(tǒng)以及存儲介質。
背景技術:
1、隨著自然語言處理(nlp)領域的發(fā)展,有效的文本表示學習成為了一個關鍵的研究方向。文本表示不僅需要捕捉語言的豐富語義,還要能夠準確地反映句子之間的細微差別。隨著深度學習技術的發(fā)展,語言模型(plms)如bert、roberta等,通過在海量文本數據上的預訓練,已經能夠提供強大的文本編碼能力。然而,隨著模型深度的增加,這些模型在文本表示上面臨過平滑問題,即不同文本的表示趨于相似,導致信息丟失和區(qū)分度降低,也降低了文本匹配的準確率。
2、傳統(tǒng)的語言模型通常采用簡單方法,如僅使用最后一層的嵌入或所有層的平均嵌入來生成文本表示。然而,這種方法可能忽略了其他層中包含的重要信息,而固定的池化策略則由于不同領域或任務可能需要不同層的信息,無法適應所有情況,限制了性能的提升,也出現了文本不匹配情況的發(fā)生。
技術實現思路
1、本發(fā)明所要解決的技術問題是針對現有技術的不足,提供一種文本匹配方法、裝置、系統(tǒng)以及存儲介質。
2、本發(fā)明解決上述技術問題的技術方案如下:一種文本匹配方法,包括如下步驟:
3、導入多個原始文本,并將所有所述原始文本兩兩作為一組,從而得到多個原始語句組;
4、構建原始語言模型,根據所有所述原始語句組對所述原始語言模型進行模型分析,得到目標語言模型;
5、導入多個待處理文本,根據所述目標語言模型對所有所述待處理文本進行匹配,得到文本匹配結果。
6、本發(fā)明解決上述技術問題的另一技術方案如下:一種文本匹配裝置,包括:
7、導入模塊,用于導入多個原始文本;
8、分組模塊,用于將所有所述原始文本兩兩作為一組,從而得到多個原始語句組;
9、模型分析模塊,用于構建原始語言模型,根據所有所述原始語句組對所述原始語言模型進行模型分析,得到目標語言模型;
10、所述導入模塊,還用于導入多個待處理文本;
11、文本匹配結果獲得模塊,用于根據所述目標語言模型對所有所述待處理文本進行匹配,得到文本匹配結果。
12、基于上述一種文本匹配方法,本發(fā)明還提供一種文本匹配系統(tǒng)。
13、本發(fā)明解決上述技術問題的另一技術方案如下:一種文本匹配系統(tǒng),包括存儲器、處理器以及存儲在所述存儲器中并可在所述處理器上運行的計算機程序,當所述處理器執(zhí)行所述計算機程序時,實現如上所述的文本匹配方法。
14、基于上述一種文本匹配方法,本發(fā)明還提供一種計算機可讀存儲介質。
15、本發(fā)明解決上述技術問題的另一技術方案如下:一種計算機可讀存儲介質,所述計算機可讀存儲介質存儲有計算機程序,當所述計算機程序被處理器執(zhí)行時,實現如上所述的文本匹配方法。
16、本發(fā)明的有益效果是:通過將所有原始文本兩兩作為一組,從而得到原始語句組,根據原始語句組對原始語言模型的模型分析得到目標語言模型,根據目標語言模型對待處理文本的匹配得到文本匹配結果,增強了文本的多樣性和豐富性,有效地緩解了過平滑問題,提供了更加精確的語義匹配能力,也在語義搜索領域實現了突破,使得模型能夠快速準確地從大量文本數據中獲得語義最為接近的結果,提高了文本匹配的準確率。
1.一種文本匹配方法,其特征在于,包括如下步驟:
2.根據權利要求1所述的文本匹配方法,其特征在于,所述根據所有所述原始語句組對所述原始語言模型進行模型分析,得到目標語言模型的過程包括:
3.根據權利要求2所述的文本匹配方法,其特征在于,所述分別對各個所述原始語句組對應的多個第一語句特征向量以及各個所述原始語句組對應的多個第二語句特征向量進行目標重要性分數的計算,得到與各個所述原始語句組對應的目標重要性分數的過程包括:
4.根據權利要求2所述的文本匹配方法,其特征在于,所述分別對各個所述模型正樣本以及與各個所述原始語句組對應的模型負樣本進行損失值計算,得到與各個所述原始語句組對應的損失值的過程包括:
5.一種文本匹配裝置,其特征在于,包括:
6.根據權利要求5所述的文本匹配裝置,其特征在于,所述模型分析模塊具體用于:
7.根據權利要求6所述的文本匹配裝置,其特征在于,所述模型分析模塊中,分別對各個所述原始語句組對應的多個第一語句特征向量以及各個所述原始語句組對應的多個第二語句特征向量進行目標重要性分數的計算,得到與各個所述原始語句組對應的目標重要性分數的過程包括:
8.根據權利要求6所述的文本匹配裝置,其特征在于,所述模型分析模塊中,分別對各個所述模型正樣本以及與各個所述原始語句組對應的模型負樣本進行損失值計算,得到與各個所述原始語句組對應的損失值的過程包括:
9.一種文本匹配系統(tǒng),包括存儲器、處理器以及存儲在所述存儲器中并可在所述處理器上運行的計算機程序,其特征在于,當所述處理器執(zhí)行所述計算機程序時,實現如權利要求1至4任一項所述的文本匹配方法。
10.一種計算機可讀存儲介質,所述計算機可讀存儲介質存儲有計算機程序,其特征在于,當所述計算機程序被處理器執(zhí)行時,實現如權利要求1至4任一項所述的文本匹配方法。