本發(fā)明涉及文檔處理領域,尤其涉及一種文檔的分類拆分方法、設備及存儲介質。
背景技術:
1、隨著人工智能和互聯網信息技術的發(fā)展,智能化聊天系統因其巨大的潛力和開發(fā)價值受到越來越多研究者和從業(yè)者的關注,聊天的主要種類包括通用類、工具類、faq、推理類等。目前ai已經廣泛應用在智能客服、智能醫(yī)療、智能金融、智能教育、智能能源、智能農業(yè)等眾多場景。
2、智能化聊天能否準確回答用戶提出的問題,需要關注ai智能模型內所存儲的知識是否完善以及是否準確。為了達到回答準確的效果,就要保證向量庫內的內容是準確的,目前現有技術無法滿足正確的切分文檔,且不能滿足按照段落或章節(jié)拆分,這會導致出現很多斷句,從而也就導致片段內容不正確或切分位置不對導致片段內容不完整,進而使得ai大模型回答不全面或回答有誤。因此,為了能解決當前文檔數據的切分不準確影響ai大模型的數據處理的技術問題,需要一種新的技術來解決當前問題。
技術實現思路
1、本發(fā)明的主要目的在于解決當前文檔數據的切分不準確影響ai大模型的數據處理的技術問題。
2、本發(fā)明第一方面提供了一種文檔的分類拆分方法,所述文檔的分類拆分方法包括:
3、接收文檔向量化指令,以及接收所述文檔向量化指令對應的文檔數據,其中,所述文檔向量化指令包括:通用拆分模式,所述文檔數據包括:文檔類型;
4、當文檔類型為excel類型,則利用預置apache?poi組件,對所述文檔數據進行解析處理,得到文檔字符串,以及根據預置正則表達式,對所述文檔字符串進行拆分處理,得到文檔分片數據;
5、當文檔類型為pdf類型,則利用預置pdfplumber組件,對所述文檔數據進行解析分片處理,得到文檔分片數據;
6、當文檔類型為通用文檔,則利用langchain4j組件解析所述文檔數據,得到文檔字符串,以及根據所述通用拆分模式,對所述文檔字符串進行拆分處理,得到文檔分片數據;
7、可視化展示所述文檔分片數據;
8、接收用戶的存儲指令,以及根據所述存儲指令,將所述文檔分片數據存儲至預置向量數據庫中。
9、可選的,在本發(fā)明第一方面的第一種實現方式中,所述根據所述通用拆分模式,對所述文檔字符串進行拆分處理,得到文檔分片數據包括:
10、當通用拆分模式為字符拆分時,則根據預置documentbycharactersplitter拆分組件,對所述文檔字符串進行拆分處理,得到文檔分片數據。
11、可選的,在本發(fā)明第一方面的第二種實現方式中,所述根據所述通用拆分模式,對所述文檔字符串進行拆分處理,得到文檔分片數據還包括:
12、當通用拆分模式為段落拆分時,則根據預置正則表達式,對所述文檔字符串進行拆分處理,得到文檔分片數據。
13、可選的,在本發(fā)明第一方面的第三種實現方式中,所述根據所述通用拆分模式,對所述文檔字符串進行拆分處理,得到文檔分片數據還包括:
14、當通用拆分模式為按行拆分時,則基于預設正則表達式,對所述文檔字符串進行拆分處理,得到文檔分片數據。
15、可選的,在本發(fā)明第一方面的第四種實現方式中,所述可視化展示所述文檔分片數據包括:
16、可視化展示所述文檔分片數據,得到所述文檔分片數據對應的可編輯分片界面。
17、可選的,在本發(fā)明第一方面的第五種實現方式中,在所述可視化展示所述文檔分片數據之后,在所述接收用戶的存儲指令,以及根據所述存儲指令,將所述文檔分片數據存儲至預置向量數據庫中之前,還包括:
18、接收用戶的調整指令;
19、基于所述調整指令,對所述可編輯分頁界面進行內容調整處理,生成調整分頁界面。
20、可選的,在本發(fā)明第一方面的第六種實現方式中,所述接收用戶的存儲指令,以及根據所述存儲指令,將所述文檔分片數據存儲至預置向量數據庫中包括:
21、接收用戶的存儲指令,其中,所述存儲指令包括:頁面id;
22、將所述頁面id對應調整分頁界面的顯示數據存儲至預置向量數據庫中。
23、可選的,在本發(fā)明第一方面的第七種實現方式中,所述根據所述存儲指令,將所述文檔分片數據存儲至預置向量數據庫中包括:
24、將所述文檔分片數據緩存至預置mongodb數據庫中;
25、根據所述存儲指令,將所述存儲指令對應的文檔分片數據從所述mongodb數據庫同步存儲至預置向量數據庫中。
26、本發(fā)明第二方面提供了一種文檔的分類拆分設備,包括:存儲器和至少一個處理器,所述存儲器中存儲有指令,所述存儲器和所述至少一個處理器通過線路互連;所述至少一個處理器調用所述存儲器中的所述指令,以使得所述文檔的分類拆分設備執(zhí)行上述的文檔的分類拆分方法。
27、本發(fā)明的第三方面提供了一種計算機可讀存儲介質,所述計算機可讀存儲介質中存儲有指令,當其在計算機上運行時,使得計算機執(zhí)行上述的文檔的分類拆分方法。
28、在本發(fā)明實施例中,通過基于文檔數據的種類進行分類解析,將文檔數據以excel類型、pdf類型、通用類型進行精確解析出字符串,并配合正則表達式拆分字符串,避免了文檔數據拆分錯誤導致切分后的文件內容不清晰,實現對文檔數據按照內容關聯性的片段切分,提高了文檔拆分的文檔準確度,實現語料輸入ai大模型后ai大模型答復更加精準的效果。
1.一種文檔的分類拆分方法,其特征在于,包括步驟:
2.根據權利要求1所述的文檔的分類拆分方法,其特征在于,所述根據所述通用拆分模式,對所述文檔字符串進行拆分處理,得到文檔分片數據包括:
3.根據權利要求1所述的文檔的分類拆分方法,其特征在于,所述根據所述通用拆分模式,對所述文檔字符串進行拆分處理,得到文檔分片數據還包括:
4.根據權利要求1所述的文檔的分類拆分方法,其特征在于,所述根據所述通用拆分模式,對所述文檔字符串進行拆分處理,得到文檔分片數據還包括:
5.根據權利要求1所述的文檔的分類拆分方法,其特征在于,所述可視化展示所述文檔分片數據包括:
6.根據權利要求5所述的文檔的分類拆分方法,其特征在于,在所述可視化展示所述文檔分片數據之后,在所述接收用戶的存儲指令,以及根據所述存儲指令,將所述文檔分片數據存儲至預置向量數據庫中之前,還包括:
7.根據權利要求6所述的文檔的分類拆分方法,其特征在于,所述接收用戶的存儲指令,以及根據所述存儲指令,將所述文檔分片數據存儲至預置向量數據庫中包括:
8.根據權利要求1所述的文檔的分類拆分方法,其特征在于,所述接收用戶的存儲指令,以及根據所述存儲指令,將所述文檔分片數據存儲至預置向量數據庫中還包括:
9.一種文檔的分類拆分設備,其特征在于,所述文檔的分類拆分設備包括:存儲器和至少一個處理器,所述存儲器中存儲有指令,所述存儲器和所述至少一個處理器通過線路互連;
10.一種計算機可讀存儲介質,所述計算機可讀存儲介質上存儲有計算機程序,其特征在于,所述計算機程序被處理器執(zhí)行時實現如權利要求1-8中任一項所述的文檔的分類拆分方法。