一種水利自然語言模型訓練數(shù)據(jù)自動化生成系統(tǒng)及方法與流程

文檔序號：40566054發(fā)布日期：2025-01-03 11:26閱讀：14來源：國知局

本發(fā)明涉及一種水利自然語言模型訓練數(shù)據(jù)自動化生成系統(tǒng)及方法，屬于智慧水利和數(shù)據(jù)處理。

背景技術：

1、當前，自然語言處理（nlp）領域廣泛應用的模型深受統(tǒng)一且精細標注的關系抽取任務數(shù)據(jù)格式的制約。這一數(shù)據(jù)格式的構建過程異常繁瑣，傳統(tǒng)方法依賴于人工從浩瀚的文本海洋中逐一識別、精確提取關系，并手動將其整理成規(guī)范的數(shù)據(jù)格式，這一過程中往往伴隨著大量重復性工作。此流程不僅效率低下，耗時長久，而且極易因人為因素引入錯誤，進而對模型的訓練效果與準確性產(chǎn)生不利影響。因此，探索更高效、更精準的數(shù)據(jù)處理方法，已成為推動自然語言處理（nlp）領域進一步發(fā)展的關鍵所在。

技術實現(xiàn)思路

1、本發(fā)明目標在于克服上述不足，而提供一種水利自然語言模型訓練數(shù)據(jù)自動化生成系統(tǒng)及方法，提高訓練數(shù)據(jù)的生成效率。

2、本發(fā)明采取的技術方案為：

3、一種水利自然語言模型訓練數(shù)據(jù)自動化生成系統(tǒng)，包括前端應用層、后端應用層和大模型層，前端應用層包括系統(tǒng)上傳文本模塊、健康檢查模塊和存儲下載模塊，系統(tǒng)上傳文本模塊用于用戶上傳原始文本文檔，并將文本文檔傳輸至后端應用層，健康檢查模塊用于將經(jīng)過后端應用層標準化后的數(shù)據(jù)進行二次審核，確保數(shù)據(jù)準確無誤、滿足業(yè)務標準，存儲下載模塊用于在數(shù)據(jù)處理及校驗完成后，即時生成并提供文件下載服務；

4、后端應用層包括文本解析模塊、文本標準化模塊以及標準化自然語言處理（nlp）標注數(shù)據(jù)生成模塊，文本解析模塊負責解析并處理從前端應用層上傳的文檔數(shù)據(jù)，對文本進行分割和結構化處理，轉(zhuǎn)化為適用于后續(xù)處理的格式；文本標準化模塊用于在完成文本解析后，對分割后的每一段數(shù)據(jù)進行調(diào)優(yōu)語句拼接，并調(diào)用大模型層的文本智能提取功能，以生成標準化的文本數(shù)據(jù)；標準化自然語言處理（nlp）標注數(shù)據(jù)生成模塊用于對大模型層生成的文本數(shù)據(jù)，經(jīng)過前端應用層的健康檢測模塊進行校驗后，對文本數(shù)據(jù)進行加工處理，生成標準化自然語言處理（nlp）標注數(shù)據(jù)格式，用于自然語言處理（nlp）中的信息提取任務；

5、大模型層含有文本智能提取模塊，主要使用大模型將語句按照要求的格式拆分成為參數(shù)和關系兩個數(shù)組并返回給文本標準化模塊。

6、所述的健康檢查模塊包括參數(shù)處理器與triples（三元組）處理器，參數(shù)處理器主要用于對模型解析后數(shù)據(jù)的精細化結構處理，?triples（三元組）處理器則主要用于數(shù)據(jù)的精準校正與美化。

7、所述的文本解析模塊包含readword和readtext兩個模塊，分別用來讀取和處理word和text兩種文本格式，最終將兩種文檔內(nèi)容按照段落進行分割，readword模塊使用apache?poi庫解析文檔中的段落結構，通過遍歷文檔的所有段落，將每個段落的文本提取并追加到字符串構建器中，同時用換行符做隔離并過濾掉空段落；readtext模塊使用緩沖讀取器逐段讀取text文件中的文本，并將每一段文本追加到字符串構建器中，同時用換行符做隔離并過濾掉空段落。

8、所述的文本標準化模塊通過resttemplate（rest客戶端模板）異步調(diào)用大模型接口與大模型層進行通信，大模型層文本智能提取模塊提取的信息使用文本標準化模塊中的objectmapper（對象映射工具）將對象序列化為json字符串，提取其中的標準化后的文本。

9、所述的標準化自然語言處理標注數(shù)據(jù)生成模塊包括參數(shù)處理器、sents（字符序列集合）與vertexset（實體集合）處理器、labels（關系標簽）處理器，參數(shù)處理器用于將數(shù)據(jù)提取出實體并進行去重，同時對實體與原句的包含關系進行校驗；sents（字符序列集合）與vertexset（實體集合）處理器用于對數(shù)據(jù)進行句子分割、實體位置記錄、復合實體處理以及原句與實體標準化拼接；?labels（關系標簽）處理器用于記錄關系中的實體在vertexset（實體集合）中的位置，將標題、實體集合和關系標簽進行標準化拼接，生成符合標準的自然語言處理（nlp）標注數(shù)據(jù)格式。

10、一種水利自然語言模型訓練數(shù)據(jù)自動化生成方法，包括步驟如下：

11、首先用戶在前端應用層的系統(tǒng)上傳文本模塊進行初始文本的上傳，前端應用層與服務器建立連接后，文本輸送至后端應用層的文本解析模塊；文本解析模塊分別對所選文章進行文本解析，按照文章段落進行分割，使其成為多個獨立的文本段落，之后輸送至文本標準化模塊，文本標準化模塊將分割好的每一文本段落拼接為符合水利業(yè)務需求的調(diào)優(yōu)語句，并與大模型層的文本智能提取模塊進行請求交互生成標準化的文本；大模型層生成的標準化的文本傳輸?shù)角岸藨脤油ㄟ^健康檢查模塊進行檢查，不通過則刪掉本條關系數(shù)據(jù)，通過后將處理好的參數(shù)傳輸?shù)胶蠖藨脤拥臉藴驶匀徽Z言處理（nlp）標注數(shù)據(jù)生成模塊，將數(shù)據(jù)改造為標準格式的自然語言處理訓練數(shù)據(jù)，最后將標準格式的數(shù)據(jù)傳輸至前端應用層，通過存儲下載模塊進行存儲和下載。

12、所述的健康檢查模塊的數(shù)據(jù)處理過程為：參數(shù)處理器對模型解析后數(shù)據(jù)的精細化結構處理，它利用正則表達式精準移除數(shù)據(jù)中的轉(zhuǎn)義字符，隨后通過字符串分割技術將數(shù)據(jù)轉(zhuǎn)化為對象形式實現(xiàn)數(shù)據(jù)的有效組織，并將數(shù)據(jù)雙重備份，一份送入triples（三元組）處理器進行下一步處理；triples（三元組）處理器對數(shù)據(jù)的精準校正與美化，首先是確定大模型端層解析后triples（三元組）數(shù)組的校驗實體，遍歷關系數(shù)據(jù)，對涉及的實體執(zhí)行嚴格的數(shù)據(jù)類型校驗，剔除不符規(guī)范的數(shù)據(jù)、移除數(shù)據(jù)中殘留的轉(zhuǎn)義空白符、驗證關系數(shù)組中提及的實體是否確實存在于原始文本中，然后添加視覺友好的美化轉(zhuǎn)義符，最后將存儲的第二份數(shù)據(jù)內(nèi)容更新為這些精準校正與美化后的文本數(shù)據(jù)，確保輸出的參數(shù)數(shù)據(jù)既標準又可靠。

13、所述的標準化自然語言處理標注數(shù)據(jù)生成模塊數(shù)據(jù)處理過程為：?參數(shù)處理器將數(shù)據(jù)提取出實體并進行去重，同時對實體與原句的包含關系進行進一步校驗，并將參數(shù)數(shù)據(jù)輸入sents（字符序列集合）與vertexset（實體集合）處理器；sents（字符序列集合）與vertexset（實體集合）處理器對數(shù)據(jù)進行句子分割、句內(nèi)字符分割、實體位置記錄、復合實體處理以及標準化拼接原句與實體操作；然后數(shù)據(jù)進入labels（關系標簽）處理器，labels（關系標簽）處理器記錄關系中的實體在vertexset（實體集合）中的位置，將標題、實體集合和關系標簽進行標準化拼接，生成符合標準的自然語言處理（nlp）標注數(shù)據(jù)格式。

14、本發(fā)明將原始數(shù)據(jù)文本無縫上傳至后端應用層，后端應用層隨即智能讀取并處理這些文本文件，利用大模型層進行深度解析。解析完成后，通過穩(wěn)定的長連接機制，解析結果迅速反饋至前端應用層。前端應用層則采用精細的健康檢查機制，確保數(shù)據(jù)格式的精確無誤與內(nèi)容的正確性，隨后再次將數(shù)據(jù)流轉(zhuǎn)回后端應用層。最終，后端應用層將這一系列精心處理的數(shù)據(jù)，轉(zhuǎn)化為符合標準規(guī)范的自然語言處理（nlp）數(shù)據(jù)模型訓練格式，并安全地存儲于前端，實現(xiàn)了數(shù)據(jù)的全面優(yōu)化與高效利用。

15、本發(fā)明的有益效果是：

16、（1）通過文本標準化模塊利用文本標準化模塊調(diào)優(yōu)后的語句與大模型交互讓大模型生成訓練數(shù)據(jù)文本，能夠自動化地生成大量、多樣化的高質(zhì)量訓練數(shù)據(jù)，有效解決了傳統(tǒng)方法下數(shù)據(jù)生產(chǎn)周期長、效率低的問題；

17、（2）在數(shù)據(jù)生成的過程中，通過健康檢查模塊進行審核、標準化自然語言處理（nlp）標注數(shù)據(jù)生成模塊二次校驗，使用文本的校驗與糾錯機制，確保結果數(shù)據(jù)完全符合訓練數(shù)據(jù)的文本格式；

18、（3）生成方法只需較少的人工處理和干預環(huán)節(jié)，核心工作由計算機替代人工，規(guī)范化的處理流程，不僅降低了人工審核的負擔，還從根本上減少了數(shù)據(jù)錯誤對模型訓練造成的負面影響，從而提高效率并降低了出錯概率，能夠在傳統(tǒng)人工處理流程的基礎上提高50%以上的工作效率，對于需要大量訓練數(shù)據(jù)的nlp模型而言，能節(jié)約大量的人力成本，實現(xiàn)成本效益的最大化。

完整全部詳細技術資料下載

當前第1頁1 2

該技術已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術所有人。
技術研發(fā)人員：盧克,王聰,龐曉輝,李忠
技術所有人：山東鋒士信息技術有限公司
我是此專利的發(fā)明人

該領域下的技術專家
如您需求助技術專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構動力學與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡安全 2.計算機仿真技術
5、王老師：1.網(wǎng)絡安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關技術

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種水利自然語言模型訓練數(shù)據(jù)自動化生成系統(tǒng)及方法與流程