本發(fā)明涉及一種水利自然語言模型訓練數(shù)據(jù)自動化生成系統(tǒng)及方法,屬于智慧水利和數(shù)據(jù)處理。
背景技術:
1、當前,自然語言處理(nlp)領域廣泛應用的模型深受統(tǒng)一且精細標注的關系抽取任務數(shù)據(jù)格式的制約。這一數(shù)據(jù)格式的構建過程異常繁瑣,傳統(tǒng)方法依賴于人工從浩瀚的文本海洋中逐一識別、精確提取關系,并手動將其整理成規(guī)范的數(shù)據(jù)格式,這一過程中往往伴隨著大量重復性工作。此流程不僅效率低下,耗時長久,而且極易因人為因素引入錯誤,進而對模型的訓練效果與準確性產(chǎn)生不利影響。因此,探索更高效、更精準的數(shù)據(jù)處理方法,已成為推動自然語言處理(nlp)領域進一步發(fā)展的關鍵所在。
技術實現(xiàn)思路
1、本發(fā)明目標在于克服上述不足,而提供一種水利自然語言模型訓練數(shù)據(jù)自動化生成系統(tǒng)及方法,提高訓練數(shù)據(jù)的生成效率。
2、本發(fā)明采取的技術方案為:
3、一種水利自然語言模型訓練數(shù)據(jù)自動化生成系統(tǒng),包括前端應用層、后端應用層和大模型層,前端應用層包括系統(tǒng)上傳文本模塊、健康檢查模塊和存儲下載模塊,系統(tǒng)上傳文本模塊用于用戶上傳原始文本文檔,并將文本文檔傳輸至后端應用層,健康檢查模塊用于將經(jīng)過后端應用層標準化后的數(shù)據(jù)進行二次審核,確保數(shù)據(jù)準確無誤、滿足業(yè)務標準,存儲下載模塊用于在數(shù)據(jù)處理及校驗完成后,即時生成并提供文件下載服務;
4、后端應用層包括文本解析模塊、文本標準化模塊以及標準化自然語言處理(nlp)標注數(shù)據(jù)生成模塊,文本解析模塊負責解析并處理從前端應用層上傳的文檔數(shù)據(jù),對文本進行分割和結構化處理,轉(zhuǎn)化為適用于后續(xù)處理的格式;文本標準化模塊用于在完成文本解析后,對分割后的每一段數(shù)據(jù)進行調(diào)優(yōu)語句拼接,并調(diào)用大模型層的文本智能提取功能,以生成標準化的文本數(shù)據(jù);標準化自然語言處理(nlp)標注數(shù)據(jù)生成模塊用于對大模型層生成的文本數(shù)據(jù),經(jīng)過前端應用層的健康檢測模塊進行校驗后,對文本數(shù)據(jù)進行加工處理,生成標準化自然語言處理(nlp)標注數(shù)據(jù)格式,用于自然語言處理(nlp)中的信息提取任務;
5、大模型層含有文本智能提取模塊,主要使用大模型將語句按照要求的格式拆分成為參數(shù)和關系兩個數(shù)組并返回給文本標準化模塊。
6、所述的健康檢查模塊包括參數(shù)處理器與triples(三元組)處理器,參數(shù)處理器主要用于對模型解析后數(shù)據(jù)的精細化結構處理,?triples(三元組)處理器則主要用于數(shù)據(jù)的精準校正與美化。
7、所述的文本解析模塊包含readword和readtext兩個模塊,分別用來讀取和處理word和text兩種文本格式,最終將兩種文檔內(nèi)容按照段落進行分割,readword模塊使用apache?poi庫解析文檔中的段落結構,通過遍歷文檔的所有段落,將每個段落的文本提取并追加到字符串構建器中,同時用換行符做隔離并過濾掉空段落;readtext模塊使用緩沖讀取器逐段讀取text文件中的文本,并將每一段文本追加到字符串構建器中,同時用換行符做隔離并過濾掉空段落。
8、所述的文本標準化模塊通過resttemplate(rest客戶端模板)異步調(diào)用大模型接口與大模型層進行通信,大模型層文本智能提取模塊提取的信息使用文本標準化模塊中的objectmapper(對象映射工具)將對象序列化為json字符串,提取其中的標準化后的文本。
9、所述的標準化自然語言處理標注數(shù)據(jù)生成模塊包括參數(shù)處理器、sents(字符序列集合)與vertexset(實體集合)處理器、labels(關系標簽)處理器,參數(shù)處理器用于將數(shù)據(jù)提取出實體并進行去重,同時對實體與原句的包含關系進行校驗;sents(字符序列集合)與vertexset(實體集合)處理器用于對數(shù)據(jù)進行句子分割、實體位置記錄、復合實體處理以及原句與實體標準化拼接;?labels(關系標簽)處理器用于記錄關系中的實體在vertexset(實體集合)中的位置,將標題、實體集合和關系標簽進行標準化拼接,生成符合標準的自然語言處理(nlp)標注數(shù)據(jù)格式。
10、一種水利自然語言模型訓練數(shù)據(jù)自動化生成方法,包括步驟如下:
11、首先用戶在前端應用層的系統(tǒng)上傳文本模塊進行初始文本的上傳,前端應用層與服務器建立連接后,文本輸送至后端應用層的文本解析模塊;文本解析模塊分別對所選文章進行文本解析,按照文章段落進行分割,使其成為多個獨立的文本段落,之后輸送至文本標準化模塊,文本標準化模塊將分割好的每一文本段落拼接為符合水利業(yè)務需求的調(diào)優(yōu)語句,并與大模型層的文本智能提取模塊進行請求交互生成標準化的文本;大模型層生成的標準化的文本傳輸?shù)角岸藨脤油ㄟ^健康檢查模塊進行檢查,不通過則刪掉本條關系數(shù)據(jù),通過后將處理好的參數(shù)傳輸?shù)胶蠖藨脤拥臉藴驶匀徽Z言處理(nlp)標注數(shù)據(jù)生成模塊,將數(shù)據(jù)改造為標準格式的自然語言處理訓練數(shù)據(jù),最后將標準格式的數(shù)據(jù)傳輸至前端應用層,通過存儲下載模塊進行存儲和下載。
12、所述的健康檢查模塊的數(shù)據(jù)處理過程為:參數(shù)處理器對模型解析后數(shù)據(jù)的精細化結構處理,它利用正則表達式精準移除數(shù)據(jù)中的轉(zhuǎn)義字符,隨后通過字符串分割技術將數(shù)據(jù)轉(zhuǎn)化為對象形式實現(xiàn)數(shù)據(jù)的有效組織,并將數(shù)據(jù)雙重備份,一份送入triples(三元組)處理器進行下一步處理;triples(三元組)處理器對數(shù)據(jù)的精準校正與美化,首先是確定大模型端層解析后triples(三元組)數(shù)組的校驗實體,遍歷關系數(shù)據(jù),對涉及的實體執(zhí)行嚴格的數(shù)據(jù)類型校驗,剔除不符規(guī)范的數(shù)據(jù)、移除數(shù)據(jù)中殘留的轉(zhuǎn)義空白符、驗證關系數(shù)組中提及的實體是否確實存在于原始文本中,然后添加視覺友好的美化轉(zhuǎn)義符,最后將存儲的第二份數(shù)據(jù)內(nèi)容更新為這些精準校正與美化后的文本數(shù)據(jù),確保輸出的參數(shù)數(shù)據(jù)既標準又可靠。
13、所述的標準化自然語言處理標注數(shù)據(jù)生成模塊數(shù)據(jù)處理過程為:?參數(shù)處理器將數(shù)據(jù)提取出實體并進行去重,同時對實體與原句的包含關系進行進一步校驗,并將參數(shù)數(shù)據(jù)輸入sents(字符序列集合)與vertexset(實體集合)處理器;sents(字符序列集合)與vertexset(實體集合)處理器對數(shù)據(jù)進行句子分割、句內(nèi)字符分割、實體位置記錄、復合實體處理以及標準化拼接原句與實體操作;然后數(shù)據(jù)進入labels(關系標簽)處理器,labels(關系標簽)處理器記錄關系中的實體在vertexset(實體集合)中的位置,將標題、實體集合和關系標簽進行標準化拼接,生成符合標準的自然語言處理(nlp)標注數(shù)據(jù)格式。
14、本發(fā)明將原始數(shù)據(jù)文本無縫上傳至后端應用層,后端應用層隨即智能讀取并處理這些文本文件,利用大模型層進行深度解析。解析完成后,通過穩(wěn)定的長連接機制,解析結果迅速反饋至前端應用層。前端應用層則采用精細的健康檢查機制,確保數(shù)據(jù)格式的精確無誤與內(nèi)容的正確性,隨后再次將數(shù)據(jù)流轉(zhuǎn)回后端應用層。最終,后端應用層將這一系列精心處理的數(shù)據(jù),轉(zhuǎn)化為符合標準規(guī)范的自然語言處理(nlp)數(shù)據(jù)模型訓練格式,并安全地存儲于前端,實現(xiàn)了數(shù)據(jù)的全面優(yōu)化與高效利用。
15、本發(fā)明的有益效果是:
16、(1)通過文本標準化模塊利用文本標準化模塊調(diào)優(yōu)后的語句與大模型交互讓大模型生成訓練數(shù)據(jù)文本,能夠自動化地生成大量、多樣化的高質(zhì)量訓練數(shù)據(jù),有效解決了傳統(tǒng)方法下數(shù)據(jù)生產(chǎn)周期長、效率低的問題;
17、(2)在數(shù)據(jù)生成的過程中,通過健康檢查模塊進行審核、標準化自然語言處理(nlp)標注數(shù)據(jù)生成模塊二次校驗,使用文本的校驗與糾錯機制,確保結果數(shù)據(jù)完全符合訓練數(shù)據(jù)的文本格式;
18、(3)生成方法只需較少的人工處理和干預環(huán)節(jié),核心工作由計算機替代人工,規(guī)范化的處理流程,不僅降低了人工審核的負擔,還從根本上減少了數(shù)據(jù)錯誤對模型訓練造成的負面影響,從而提高效率并降低了出錯概率,能夠在傳統(tǒng)人工處理流程的基礎上提高50%以上的工作效率,對于需要大量訓練數(shù)據(jù)的nlp模型而言,能節(jié)約大量的人力成本,實現(xiàn)成本效益的最大化。