一種文本匹配方法、裝置、系統(tǒng)以及存儲介質

文檔序號：40535801發(fā)布日期：2025-01-03 10:55閱讀：5來源：國知局

本發(fā)明主要涉及文本匹配，具體涉及一種文本匹配方法、裝置、系統(tǒng)以及存儲介質。

背景技術：

1、隨著自然語言處理(nlp)領域的發(fā)展，有效的文本表示學習成為了一個關鍵的研究方向。文本表示不僅需要捕捉語言的豐富語義，還要能夠準確地反映句子之間的細微差別。隨著深度學習技術的發(fā)展，語言模型(plms)如bert、roberta等，通過在海量文本數據上的預訓練，已經能夠提供強大的文本編碼能力。然而，隨著模型深度的增加，這些模型在文本表示上面臨過平滑問題，即不同文本的表示趨于相似，導致信息丟失和區(qū)分度降低，也降低了文本匹配的準確率。

2、傳統(tǒng)的語言模型通常采用簡單方法，如僅使用最后一層的嵌入或所有層的平均嵌入來生成文本表示。然而，這種方法可能忽略了其他層中包含的重要信息，而固定的池化策略則由于不同領域或任務可能需要不同層的信息，無法適應所有情況，限制了性能的提升，也出現了文本不匹配情況的發(fā)生。

技術實現思路

1、本發(fā)明所要解決的技術問題是針對現有技術的不足，提供一種文本匹配方法、裝置、系統(tǒng)以及存儲介質。

2、本發(fā)明解決上述技術問題的技術方案如下：一種文本匹配方法，包括如下步驟：

3、導入多個原始文本，并將所有所述原始文本兩兩作為一組，從而得到多個原始語句組；

4、構建原始語言模型，根據所有所述原始語句組對所述原始語言模型進行模型分析，得到目標語言模型；

5、導入多個待處理文本，根據所述目標語言模型對所有所述待處理文本進行匹配，得到文本匹配結果。

6、本發(fā)明解決上述技術問題的另一技術方案如下：一種文本匹配裝置，包括：

7、導入模塊，用于導入多個原始文本；

8、分組模塊，用于將所有所述原始文本兩兩作為一組，從而得到多個原始語句組；

9、模型分析模塊，用于構建原始語言模型，根據所有所述原始語句組對所述原始語言模型進行模型分析，得到目標語言模型；

10、所述導入模塊，還用于導入多個待處理文本；

11、文本匹配結果獲得模塊，用于根據所述目標語言模型對所有所述待處理文本進行匹配，得到文本匹配結果。

12、基于上述一種文本匹配方法，本發(fā)明還提供一種文本匹配系統(tǒng)。

13、本發(fā)明解決上述技術問題的另一技術方案如下：一種文本匹配系統(tǒng)，包括存儲器、處理器以及存儲在所述存儲器中并可在所述處理器上運行的計算機程序，當所述處理器執(zhí)行所述計算機程序時，實現如上所述的文本匹配方法。

14、基于上述一種文本匹配方法，本發(fā)明還提供一種計算機可讀存儲介質。

15、本發(fā)明解決上述技術問題的另一技術方案如下：一種計算機可讀存儲介質，所述計算機可讀存儲介質存儲有計算機程序，當所述計算機程序被處理器執(zhí)行時，實現如上所述的文本匹配方法。

16、本發(fā)明的有益效果是：通過將所有原始文本兩兩作為一組，從而得到原始語句組，根據原始語句組對原始語言模型的模型分析得到目標語言模型，根據目標語言模型對待處理文本的匹配得到文本匹配結果，增強了文本的多樣性和豐富性，有效地緩解了過平滑問題，提供了更加精確的語義匹配能力，也在語義搜索領域實現了突破，使得模型能夠快速準確地從大量文本數據中獲得語義最為接近的結果，提高了文本匹配的準確率。

技術特征：

1.一種文本匹配方法，其特征在于，包括如下步驟：

2.根據權利要求1所述的文本匹配方法，其特征在于，所述根據所有所述原始語句組對所述原始語言模型進行模型分析，得到目標語言模型的過程包括：

3.根據權利要求2所述的文本匹配方法，其特征在于，所述分別對各個所述原始語句組對應的多個第一語句特征向量以及各個所述原始語句組對應的多個第二語句特征向量進行目標重要性分數的計算，得到與各個所述原始語句組對應的目標重要性分數的過程包括：

4.根據權利要求2所述的文本匹配方法，其特征在于，所述分別對各個所述模型正樣本以及與各個所述原始語句組對應的模型負樣本進行損失值計算，得到與各個所述原始語句組對應的損失值的過程包括：

5.一種文本匹配裝置，其特征在于，包括：

6.根據權利要求5所述的文本匹配裝置，其特征在于，所述模型分析模塊具體用于：

7.根據權利要求6所述的文本匹配裝置，其特征在于，所述模型分析模塊中，分別對各個所述原始語句組對應的多個第一語句特征向量以及各個所述原始語句組對應的多個第二語句特征向量進行目標重要性分數的計算，得到與各個所述原始語句組對應的目標重要性分數的過程包括：

8.根據權利要求6所述的文本匹配裝置，其特征在于，所述模型分析模塊中，分別對各個所述模型正樣本以及與各個所述原始語句組對應的模型負樣本進行損失值計算，得到與各個所述原始語句組對應的損失值的過程包括：

9.一種文本匹配系統(tǒng)，包括存儲器、處理器以及存儲在所述存儲器中并可在所述處理器上運行的計算機程序，其特征在于，當所述處理器執(zhí)行所述計算機程序時，實現如權利要求1至4任一項所述的文本匹配方法。

10.一種計算機可讀存儲介質，所述計算機可讀存儲介質存儲有計算機程序，其特征在于，當所述計算機程序被處理器執(zhí)行時，實現如權利要求1至4任一項所述的文本匹配方法。

技術總結
本發(fā)明提供一種文本匹配方法、裝置、系統(tǒng)以及存儲介質，屬于文本匹配技術領域，方法包括：導入原始文本，并將原始文本兩兩作為一組從而得到原始語句組；構建原始語言模型，根據原始語句組對原始語言模型進行模型分析得到目標語言模型；導入待處理文本，根據目標語言模型對待處理文本進行匹配得到文本匹配結果。本發(fā)明增強了文本的多樣性和豐富性，有效地緩解了過平滑問題，提供了更加精確的語義匹配能力，也在語義搜索領域實現了突破，使得模型能夠快速準確地從大量文本數據中獲得語義最為接近的結果，提高了文本匹配的準確率。

技術研發(fā)人員：蔡曉東,王廣宇
受保護的技術使用者：桂林電子科技大學
技術研發(fā)日：
技術公布日：2025/1/2

完整全部詳細技術資料下載

該技術已申請專利。僅供學習研究，如用于商業(yè)用途，請聯系技術所有人。
技術研發(fā)人員：蔡曉東,王廣宇
技術所有人：桂林電子科技大學
我是此專利的發(fā)明人

該領域下的技術專家
如您需求助技術專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構動力學與控制
3、袁老師：1.計算機視覺 2.無線網絡及物聯網
4、王老師：1.計算機網絡安全 2.計算機仿真技術
5、王老師：1.網絡安全；物聯網安全、大數據安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應用
如您是高校老師，可以點此聯系我們加入專家?guī)臁?/a>

相關技術

網友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種文本匹配方法、裝置、系統(tǒng)以及存儲介質

一種文本匹配方法、裝置、系統(tǒng)以及存儲介質