1.一種水利自然語言模型訓(xùn)練數(shù)據(jù)自動化生成系統(tǒng),包括前端應(yīng)用層、后端應(yīng)用層和大模型層,其特征是,前端應(yīng)用層包括系統(tǒng)上傳文本模塊、健康檢查模塊和存儲下載模塊,系統(tǒng)上傳文本模塊用于用戶上傳原始文本文檔,并將文本文檔傳輸至后端應(yīng)用層,健康檢查模塊用于將經(jīng)過后端應(yīng)用層標(biāo)準(zhǔn)化后的數(shù)據(jù)進(jìn)行二次審核,確保數(shù)據(jù)準(zhǔn)確無誤、滿足業(yè)務(wù)標(biāo)準(zhǔn),存儲下載模塊用于在數(shù)據(jù)處理及校驗(yàn)完成后,即時(shí)生成并提供文件下載服務(wù);
2.根據(jù)權(quán)利要求1所述的一種水利自然語言模型訓(xùn)練數(shù)據(jù)自動化生成系統(tǒng),其特征是,所述的健康檢查模塊包括參數(shù)處理器與三元組處理器,參數(shù)處理器主要用于對模型解析后數(shù)據(jù)的精細(xì)化結(jié)構(gòu)處理,三元組處理器則主要用于數(shù)據(jù)的精準(zhǔn)校正與美化。
3.根據(jù)權(quán)利要求1所述的一種水利自然語言模型訓(xùn)練數(shù)據(jù)自動化生成系統(tǒng),其特征是,所述的文本解析模塊包含readword和readtext兩個(gè)模塊,分別用來讀取和處理word和text兩種文本格式,最終將兩種文檔內(nèi)容按照段落進(jìn)行分割,readword模塊使用apache?poi庫解析文檔中的段落結(jié)構(gòu),通過遍歷文檔的所有段落,將每個(gè)段落的文本提取并追加到字符串構(gòu)建器中,同時(shí)用換行符做隔離并過濾掉空段落;readtext模塊使用緩沖讀取器逐段讀取text文件中的文本,并將每一段文本追加到字符串構(gòu)建器中,同時(shí)用換行符做隔離并過濾掉空段落。
4.根據(jù)權(quán)利要求1所述的一種水利自然語言模型訓(xùn)練數(shù)據(jù)自動化生成系統(tǒng),其特征是,所述的文本標(biāo)準(zhǔn)化模塊通過rest客戶端模板異步調(diào)用大模型接口與大模型層進(jìn)行通信,大模型層文本智能提取模塊提取的信息使用文本標(biāo)準(zhǔn)化模塊中的對象映射工具將對象序列化為json字符串,提取其中的標(biāo)準(zhǔn)化后的文本。
5.根據(jù)權(quán)利要求1所述的一種水利自然語言模型訓(xùn)練數(shù)據(jù)自動化生成系統(tǒng),其特征是,所述的標(biāo)準(zhǔn)化自然語言處理標(biāo)注數(shù)據(jù)生成模塊包括參數(shù)處理器、字符序列集合與實(shí)體集合處理器、關(guān)系標(biāo)簽處理器,參數(shù)處理器用于將數(shù)據(jù)提取出實(shí)體并進(jìn)行去重,同時(shí)對實(shí)體與原句的包含關(guān)系進(jìn)行校驗(yàn);字符序列集合與實(shí)體集合處理器用于對數(shù)據(jù)進(jìn)行句子分割、實(shí)體位置記錄、復(fù)合實(shí)體處理以及原句與實(shí)體標(biāo)準(zhǔn)化拼接;關(guān)系標(biāo)簽處理器用于記錄關(guān)系中的實(shí)體在實(shí)體集合中的位置,將標(biāo)題、實(shí)體集合和關(guān)系標(biāo)簽進(jìn)行標(biāo)準(zhǔn)化拼接,生成符合標(biāo)準(zhǔn)的自然語言處理標(biāo)注數(shù)據(jù)格式。
6.一種水利自然語言模型訓(xùn)練數(shù)據(jù)自動化生成方法,使用如權(quán)利要求1-5任一項(xiàng)所述的系統(tǒng),其特征是,包括步驟如下:
7.根據(jù)權(quán)利要求6所述的水利自然語言模型訓(xùn)練數(shù)據(jù)自動化生成方法,其特征是,所述的健康檢查模塊的數(shù)據(jù)處理過程為:參數(shù)處理器對模型解析后數(shù)據(jù)的精細(xì)化結(jié)構(gòu)處理,它利用正則表達(dá)式精準(zhǔn)移除數(shù)據(jù)中的轉(zhuǎn)義字符,隨后通過字符串分割技術(shù)將數(shù)據(jù)轉(zhuǎn)化為對象形式實(shí)現(xiàn)數(shù)據(jù)的有效組織,并將數(shù)據(jù)雙重備份,一份送入三元組處理器進(jìn)行下一步處理;三元組處理器對數(shù)據(jù)的精準(zhǔn)校正與美化,首先是確定大模型端層解析后三元組數(shù)組的校驗(yàn)實(shí)體,遍歷關(guān)系數(shù)據(jù),對涉及的實(shí)體執(zhí)行嚴(yán)格的數(shù)據(jù)類型校驗(yàn),剔除不符規(guī)范的數(shù)據(jù)、移除數(shù)據(jù)中殘留的轉(zhuǎn)義空白符、驗(yàn)證關(guān)系數(shù)組中提及的實(shí)體是否確實(shí)存在于原始文本中,然后添加視覺友好的美化轉(zhuǎn)義符,最后將存儲的第二份數(shù)據(jù)內(nèi)容更新為這些精準(zhǔn)校正與美化后的文本數(shù)據(jù),確保輸出的參數(shù)數(shù)據(jù)既標(biāo)準(zhǔn)又可靠。
8.?根據(jù)權(quán)利要求6所述的水利自然語言模型訓(xùn)練數(shù)據(jù)自動化生成方法,其特征是,?所述的標(biāo)準(zhǔn)化自然語言處理標(biāo)注數(shù)據(jù)生成模塊數(shù)據(jù)處理過程為:?參數(shù)處理器將數(shù)據(jù)提取出實(shí)體并進(jìn)行去重,同時(shí)對實(shí)體與原句的包含關(guān)系進(jìn)行進(jìn)一步校驗(yàn),并將參數(shù)數(shù)據(jù)輸入字符序列集合與實(shí)體集合處理器;字符序列集合與實(shí)體集合處理器對數(shù)據(jù)進(jìn)行句子分割、句內(nèi)字符分割、實(shí)體位置記錄、復(fù)合實(shí)體處理以及標(biāo)準(zhǔn)化拼接原句與實(shí)體操作;然后數(shù)據(jù)進(jìn)入關(guān)系標(biāo)簽處理器,關(guān)系標(biāo)簽處理器記錄關(guān)系中的實(shí)體在實(shí)體集合中的位置,將標(biāo)題、實(shí)體集合和關(guān)系標(biāo)簽進(jìn)行標(biāo)準(zhǔn)化拼接,生成符合標(biāo)準(zhǔn)的自然語言處理標(biāo)注數(shù)據(jù)格式。