本發(fā)明涉及一種航空維修處理方法,尤其涉及一種基于rag框架的航空維修處理方法。
背景技術(shù):
1、隨著航空行業(yè)的快速發(fā)展,飛機(jī)的運(yùn)維安全性和效率要求日益提高。在這種背景下,航空維修領(lǐng)域的技術(shù)創(chuàng)新顯得尤為重要。航空維修作為確保飛行安全的關(guān)鍵環(huán)節(jié),其數(shù)據(jù)處理和故障診斷的準(zhǔn)確性直接關(guān)系到飛機(jī)的運(yùn)行安全和效率。因此,尋找一種能夠提升維修數(shù)據(jù)處理效率和精確度的先進(jìn)技術(shù)顯得尤為迫切。rag(retrieval-augmentedgeneration)技術(shù),作為一種結(jié)合了信息檢索與生成模型的技術(shù),為航空維修提供了新的可能性。
2、rag技術(shù)通過有效地結(jié)合現(xiàn)有的維修數(shù)據(jù)和生成模型,能夠更準(zhǔn)確地解讀和響應(yīng)復(fù)雜的維修場(chǎng)景,顯著提升故障診斷的速度和準(zhǔn)確性。其核心優(yōu)勢(shì)在于能夠?qū)Υ罅糠稚⒌臍v史維修數(shù)據(jù)進(jìn)行快速檢索,并根據(jù)檢索結(jié)果輔助生成模型精確回答或提供解決方案。這一點(diǎn)在航空維修領(lǐng)域尤為關(guān)鍵,因?yàn)轱w機(jī)的停機(jī)時(shí)間與維修效率直接影響航空公司的運(yùn)營(yíng)成本和服務(wù)質(zhì)量。
3、此外,航空領(lǐng)域的維修數(shù)據(jù)通常以大表格和長(zhǎng)文本的形式存在,包含大量的細(xì)節(jié)信息和專業(yè)知識(shí),其內(nèi)容的復(fù)雜性和信息量的龐大使得傳統(tǒng)的數(shù)據(jù)處理方法難以滿足高效和準(zhǔn)確的要求。因此,針對(duì)長(zhǎng)文本和大表格的處理顯得尤為必要。rag技術(shù)通過對(duì)這些長(zhǎng)文本數(shù)據(jù)的高效理解和處理,不僅保證了信息的完整性,還顯著提高了處理速度和準(zhǔn)確性。通過長(zhǎng)期數(shù)據(jù)的有效管理和處理,rag技術(shù)能夠支持構(gòu)建更加全面和精確的知識(shí)圖譜,從而提供更為精確的維修指導(dǎo)和決策支持。
4、rag是一種結(jié)合了檢索和生成技術(shù)的自然語言處理模型。它將檢索和生成兩種技術(shù)相結(jié)合,解決了傳統(tǒng)生成模型中存在的一些問題,提高生成模型的效果和效率。rag技術(shù)包括兩個(gè)模塊:檢索器(retriever)和生成器(generator)。檢索器負(fù)責(zé)從大型知識(shí)庫中檢索與輸入查詢內(nèi)容相關(guān)的文檔或段落,生成器基于檢索器返回的文檔或段落,利用自回歸方式生成文本。通過將檢索器和生成器結(jié)合起來,rag模型既能夠利用大規(guī)模知識(shí)庫中的豐富信息,又能夠通過生成器生成高質(zhì)量的文本。這使得rag模型在問答、摘要生成、對(duì)話系統(tǒng)等自然語言處理任務(wù)中取得了顯著的進(jìn)展,在效率和性能上均有所提高。
5、但是rag技術(shù)中的檢索器模塊,受限于embedding模型的輸入長(zhǎng)度,通常需要把一個(gè)文檔切片,切片導(dǎo)致對(duì)于這個(gè)文本的內(nèi)容解讀缺乏整體觀念。特別是excel文檔,當(dāng)表格內(nèi)容非常大時(shí),需要把表格切分成多個(gè),也無法滿足對(duì)表格整體的匯總統(tǒng)計(jì)的需求。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明所要解決的技術(shù)問題是提供一種基于rag框架的航空維修處理方法,能夠滿足長(zhǎng)文本和大表格處理,大大減少誤診的可能性,提升故障診斷的精確度。
2、本發(fā)明為解決上述技術(shù)問題而采用的技術(shù)方案是提供一種基于rag框架的航空維修處理方法,包括如下步驟:s1)基于rag的框架,把本地知識(shí)文檔解析分為長(zhǎng)文本文檔和大表格文檔;s2)針對(duì)長(zhǎng)文本文檔,利用大語言模型先提取文檔的相關(guān)知識(shí)構(gòu)建multihop-rag數(shù)據(jù)集,把長(zhǎng)文本設(shè)計(jì)成長(zhǎng)序列思維鏈;對(duì)每個(gè)文檔切片生成知識(shí)圖譜的三元組,并對(duì)每個(gè)切片文檔的三元組抽取事實(shí)知識(shí);s3)針對(duì)大表格文檔,在文檔解析模塊中把excel表格解析成markdown格式;在chunk模塊中,按照一定的字節(jié)數(shù)切分原始大表格,并在每個(gè)chunk中添加表頭,把原始大表格切分成若干個(gè)小表格;s4)構(gòu)建針對(duì)用戶提示詞的向量檢索和關(guān)鍵字檢索;再利用大語言模型針對(duì)提示詞和檢索內(nèi)容進(jìn)行相關(guān)度排序,選取相似度最高的相關(guān)知識(shí)內(nèi)容;s5)構(gòu)建多跳查詢策略,先根據(jù)問題檢索到三元組,再把三元組信息變成檢索關(guān)鍵詞,進(jìn)行多跳查詢;s6)最后用大語言模型排序檢索到的知識(shí)相關(guān)度,根據(jù)歷史維修日志,生成對(duì)現(xiàn)有狀態(tài)做出故障診斷。
3、進(jìn)一步地,所述步驟s2中multihop-rag數(shù)據(jù)集構(gòu)建如下:先利用大語言模型抽取每篇文章中的事實(shí)性句子作為原始證據(jù);接著利用大語言模型改寫每個(gè)證據(jù),生成對(duì)應(yīng)的聲明,并識(shí)別出其中的核心實(shí)體和話題作為后續(xù)生成多跳問題的橋接點(diǎn);然后再利用大語言模型圍繞相同的橋接實(shí)體或話題,構(gòu)造出推理類、比較類、時(shí)序類和空問題類四種多跳問題及其答案。
4、進(jìn)一步地,所述步驟s3包括在解析表格之后,引入索引技術(shù)把表格中的中文字符替換為數(shù)字索引,得到縮小后的表格用于匯總統(tǒng)計(jì)。
5、進(jìn)一步地,所述步驟s3包括:當(dāng)一列數(shù)據(jù)為數(shù)字格式或重復(fù)率低于預(yù)設(shè)閾值時(shí),則判定該列數(shù)據(jù)是不需要進(jìn)行匯總的細(xì)分?jǐn)?shù)據(jù),并對(duì)其他所有列進(jìn)行匯總統(tǒng)計(jì)。
6、進(jìn)一步地,所述步驟s5包括判斷prompt與知識(shí)圖譜三元組的相關(guān)性,若有強(qiáng)相關(guān)則把triple數(shù)組作為關(guān)鍵字,進(jìn)行第二次查詢。
7、進(jìn)一步地,所述步驟s5包括:s51:根據(jù)prompt要求到向量庫中檢索相關(guān)知識(shí);利用關(guān)鍵字到文本知識(shí)庫中檢索相關(guān)知識(shí);s52:把s51中檢索到的知識(shí)與prompt結(jié)合在一起,利用大語言模型計(jì)算相關(guān)性,選取相關(guān)性較強(qiáng)的作為新的關(guān)鍵字;s53:根據(jù)s52中獲取的知識(shí)關(guān)鍵字,進(jìn)行多跳查詢,分別利用向量檢索和關(guān)鍵字檢索獲取相關(guān)知識(shí);s54:利用s52和s53中獲取的相關(guān)知識(shí),利用大語言模型排序,選取融合關(guān)鍵字方法,獲取排序靠前的相關(guān)知識(shí)。
8、進(jìn)一步地,所述步驟s6包括:由一個(gè)故障狀態(tài),去檢測(cè)一個(gè)故障設(shè)備,根據(jù)故障設(shè)備,查詢?cè)O(shè)備的設(shè)計(jì)文檔和廠家信息,再根據(jù)這些信息去制定維修策略,根據(jù)維修策略來實(shí)施維修。
9、本發(fā)明對(duì)比現(xiàn)有技術(shù)有如下的有益效果:本發(fā)明提供的基于rag框架的航空維修處理方法,基于自然語言處理以及索引技術(shù),提出了針對(duì)long-term的處理方案,把long-term變成short-term,從而能夠滿足長(zhǎng)文本和大表格處理,大大減少誤診的可能性,提升故障診斷的精確度,采用rag技術(shù)結(jié)合歷史維修日志,利用大語言模型搭建航空維修知識(shí)庫領(lǐng)域的智能問答系統(tǒng)。
1.一種基于rag框架的航空維修處理方法,其特征在于,包括如下步驟:
2.如權(quán)利要求1所述的基于rag框架的航空維修處理方法,其特征在于,所述步驟s2中multihop-rag數(shù)據(jù)集構(gòu)建如下:先利用大語言模型抽取每篇文章中的事實(shí)性句子作為原始證據(jù);接著利用大語言模型改寫每個(gè)證據(jù),生成對(duì)應(yīng)的聲明,并識(shí)別出其中的核心實(shí)體和話題作為后續(xù)生成多跳問題的橋接點(diǎn);然后再利用大語言模型圍繞相同的橋接實(shí)體或話題,構(gòu)造出推理類、比較類、時(shí)序類和空問題類四種多跳問題及其答案。
3.如權(quán)利要求1所述的基于rag框架的航空維修處理方法,其特征在于,所述步驟s3包括在解析表格之后,引入索引技術(shù)把表格中的中文字符替換為數(shù)字索引,得到縮小后的表格用于匯總統(tǒng)計(jì)。
4.如權(quán)利要求1所述的基于rag框架的航空維修處理方法,其特征在于,所述步驟s3包括:當(dāng)一列數(shù)據(jù)為數(shù)字格式或重復(fù)率低于預(yù)設(shè)閾值時(shí),則判定該列數(shù)據(jù)是不需要進(jìn)行匯總的細(xì)分?jǐn)?shù)據(jù),并對(duì)其他所有列進(jìn)行匯總統(tǒng)計(jì)。
5.如權(quán)利要求1所述的基于rag框架的航空維修處理方法,其特征在于,所述步驟s5包括判斷prompt與知識(shí)圖譜三元組的相關(guān)性,若有強(qiáng)相關(guān)則把triple數(shù)組作為關(guān)鍵字,進(jìn)行第二次查詢。
6.如權(quán)利要求1所述的基于rag框架的航空維修處理方法,其特征在于,所述步驟s5包括:
7.如權(quán)利要求1所述的基于rag框架的航空維修處理方法,其特征在于,所述步驟s6包括:由一個(gè)故障狀態(tài),去檢測(cè)一個(gè)故障設(shè)備,根據(jù)故障設(shè)備,查詢?cè)O(shè)備的設(shè)計(jì)文檔和廠家信息,再根據(jù)這些信息去制定維修策略,根據(jù)維修策略來實(shí)施維修。