欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

文檔的分類拆分方法、設備及存儲介質與流程

文檔序號:40543352發(fā)布日期:2025-01-03 11:02閱讀:6來源:國知局
文檔的分類拆分方法、設備及存儲介質與流程

本發(fā)明涉及文檔處理領域,尤其涉及一種文檔的分類拆分方法、設備及存儲介質。


背景技術:

1、隨著人工智能和互聯網信息技術的發(fā)展,智能化聊天系統因其巨大的潛力和開發(fā)價值受到越來越多研究者和從業(yè)者的關注,聊天的主要種類包括通用類、工具類、faq、推理類等。目前ai已經廣泛應用在智能客服、智能醫(yī)療、智能金融、智能教育、智能能源、智能農業(yè)等眾多場景。

2、智能化聊天能否準確回答用戶提出的問題,需要關注ai智能模型內所存儲的知識是否完善以及是否準確。為了達到回答準確的效果,就要保證向量庫內的內容是準確的,目前現有技術無法滿足正確的切分文檔,且不能滿足按照段落或章節(jié)拆分,這會導致出現很多斷句,從而也就導致片段內容不正確或切分位置不對導致片段內容不完整,進而使得ai大模型回答不全面或回答有誤。因此,為了能解決當前文檔數據的切分不準確影響ai大模型的數據處理的技術問題,需要一種新的技術來解決當前問題。


技術實現思路

1、本發(fā)明的主要目的在于解決當前文檔數據的切分不準確影響ai大模型的數據處理的技術問題。

2、本發(fā)明第一方面提供了一種文檔的分類拆分方法,所述文檔的分類拆分方法包括:

3、接收文檔向量化指令,以及接收所述文檔向量化指令對應的文檔數據,其中,所述文檔向量化指令包括:通用拆分模式,所述文檔數據包括:文檔類型;

4、當文檔類型為excel類型,則利用預置apache?poi組件,對所述文檔數據進行解析處理,得到文檔字符串,以及根據預置正則表達式,對所述文檔字符串進行拆分處理,得到文檔分片數據;

5、當文檔類型為pdf類型,則利用預置pdfplumber組件,對所述文檔數據進行解析分片處理,得到文檔分片數據;

6、當文檔類型為通用文檔,則利用langchain4j組件解析所述文檔數據,得到文檔字符串,以及根據所述通用拆分模式,對所述文檔字符串進行拆分處理,得到文檔分片數據;

7、可視化展示所述文檔分片數據;

8、接收用戶的存儲指令,以及根據所述存儲指令,將所述文檔分片數據存儲至預置向量數據庫中。

9、可選的,在本發(fā)明第一方面的第一種實現方式中,所述根據所述通用拆分模式,對所述文檔字符串進行拆分處理,得到文檔分片數據包括:

10、當通用拆分模式為字符拆分時,則根據預置documentbycharactersplitter拆分組件,對所述文檔字符串進行拆分處理,得到文檔分片數據。

11、可選的,在本發(fā)明第一方面的第二種實現方式中,所述根據所述通用拆分模式,對所述文檔字符串進行拆分處理,得到文檔分片數據還包括:

12、當通用拆分模式為段落拆分時,則根據預置正則表達式,對所述文檔字符串進行拆分處理,得到文檔分片數據。

13、可選的,在本發(fā)明第一方面的第三種實現方式中,所述根據所述通用拆分模式,對所述文檔字符串進行拆分處理,得到文檔分片數據還包括:

14、當通用拆分模式為按行拆分時,則基于預設正則表達式,對所述文檔字符串進行拆分處理,得到文檔分片數據。

15、可選的,在本發(fā)明第一方面的第四種實現方式中,所述可視化展示所述文檔分片數據包括:

16、可視化展示所述文檔分片數據,得到所述文檔分片數據對應的可編輯分片界面。

17、可選的,在本發(fā)明第一方面的第五種實現方式中,在所述可視化展示所述文檔分片數據之后,在所述接收用戶的存儲指令,以及根據所述存儲指令,將所述文檔分片數據存儲至預置向量數據庫中之前,還包括:

18、接收用戶的調整指令;

19、基于所述調整指令,對所述可編輯分頁界面進行內容調整處理,生成調整分頁界面。

20、可選的,在本發(fā)明第一方面的第六種實現方式中,所述接收用戶的存儲指令,以及根據所述存儲指令,將所述文檔分片數據存儲至預置向量數據庫中包括:

21、接收用戶的存儲指令,其中,所述存儲指令包括:頁面id;

22、將所述頁面id對應調整分頁界面的顯示數據存儲至預置向量數據庫中。

23、可選的,在本發(fā)明第一方面的第七種實現方式中,所述根據所述存儲指令,將所述文檔分片數據存儲至預置向量數據庫中包括:

24、將所述文檔分片數據緩存至預置mongodb數據庫中;

25、根據所述存儲指令,將所述存儲指令對應的文檔分片數據從所述mongodb數據庫同步存儲至預置向量數據庫中。

26、本發(fā)明第二方面提供了一種文檔的分類拆分設備,包括:存儲器和至少一個處理器,所述存儲器中存儲有指令,所述存儲器和所述至少一個處理器通過線路互連;所述至少一個處理器調用所述存儲器中的所述指令,以使得所述文檔的分類拆分設備執(zhí)行上述的文檔的分類拆分方法。

27、本發(fā)明的第三方面提供了一種計算機可讀存儲介質,所述計算機可讀存儲介質中存儲有指令,當其在計算機上運行時,使得計算機執(zhí)行上述的文檔的分類拆分方法。

28、在本發(fā)明實施例中,通過基于文檔數據的種類進行分類解析,將文檔數據以excel類型、pdf類型、通用類型進行精確解析出字符串,并配合正則表達式拆分字符串,避免了文檔數據拆分錯誤導致切分后的文件內容不清晰,實現對文檔數據按照內容關聯性的片段切分,提高了文檔拆分的文檔準確度,實現語料輸入ai大模型后ai大模型答復更加精準的效果。



技術特征:

1.一種文檔的分類拆分方法,其特征在于,包括步驟:

2.根據權利要求1所述的文檔的分類拆分方法,其特征在于,所述根據所述通用拆分模式,對所述文檔字符串進行拆分處理,得到文檔分片數據包括:

3.根據權利要求1所述的文檔的分類拆分方法,其特征在于,所述根據所述通用拆分模式,對所述文檔字符串進行拆分處理,得到文檔分片數據還包括:

4.根據權利要求1所述的文檔的分類拆分方法,其特征在于,所述根據所述通用拆分模式,對所述文檔字符串進行拆分處理,得到文檔分片數據還包括:

5.根據權利要求1所述的文檔的分類拆分方法,其特征在于,所述可視化展示所述文檔分片數據包括:

6.根據權利要求5所述的文檔的分類拆分方法,其特征在于,在所述可視化展示所述文檔分片數據之后,在所述接收用戶的存儲指令,以及根據所述存儲指令,將所述文檔分片數據存儲至預置向量數據庫中之前,還包括:

7.根據權利要求6所述的文檔的分類拆分方法,其特征在于,所述接收用戶的存儲指令,以及根據所述存儲指令,將所述文檔分片數據存儲至預置向量數據庫中包括:

8.根據權利要求1所述的文檔的分類拆分方法,其特征在于,所述接收用戶的存儲指令,以及根據所述存儲指令,將所述文檔分片數據存儲至預置向量數據庫中還包括:

9.一種文檔的分類拆分設備,其特征在于,所述文檔的分類拆分設備包括:存儲器和至少一個處理器,所述存儲器中存儲有指令,所述存儲器和所述至少一個處理器通過線路互連;

10.一種計算機可讀存儲介質,所述計算機可讀存儲介質上存儲有計算機程序,其特征在于,所述計算機程序被處理器執(zhí)行時實現如權利要求1-8中任一項所述的文檔的分類拆分方法。


技術總結
本發(fā)明涉及文檔處理領域,公開了一種文檔的分類拆分方法、設備及存儲介質。該方法包括:接收文檔向量化指令,以及接收所述文檔向量化指令對應的文檔數據;當文檔類型為Excel類型,則利用預置Apache?POI組件,對所述文檔數據進行解析處理,得到文檔字符串;當文檔類型為PDF類型,則利用預置pdfplumber組件,對所述文檔數據進行解析處理,得到文檔字符串;當文檔類型為通用文檔,則利用LangChain4j組件解析所述文檔數據,得到文檔字符串;接收用戶的存儲指令,以及根據所述存儲指令,將所述文檔分片數據存儲至預置向量數據庫中。在本發(fā)明實施例中,通過基于文檔數據的種類進行分類拆分,提高了文檔拆分的文檔準確度,實現語料輸入AI大模型后AI大模型答復更加精準的效果。

技術研發(fā)人員:李璐彤
受保護的技術使用者:深圳市中政匯智管理咨詢有限公司
技術研發(fā)日:
技術公布日:2025/1/2
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
冷水江市| 白城市| 锡林郭勒盟| 平遥县| 略阳县| 登封市| 隆尧县| 广州市| 乾安县| 会理县| 靖江市| 苗栗县| 浦城县| 新平| 滕州市| 天祝| 太原市| 成都市| 肥东县| 深圳市| 义乌市| 朝阳市| 商水县| 岢岚县| 南部县| 达拉特旗| 梁平县| 安义县| 黔南| 长丰县| 广丰县| 康乐县| 南雄市| 汝南县| 平顶山市| 汾西县| 旬阳县| 尤溪县| 垫江县| 平远县| 古丈县|