一種水利自然語言模型訓(xùn)練數(shù)據(jù)自動化生成系統(tǒng)及方法與流程

文檔序號：40566054發(fā)布日期：2025-01-03 11:26閱讀：來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)>一種水利自然語言模型訓(xùn)練數(shù)據(jù)自動化生成系統(tǒng)及方法與流程

技術(shù)特征：

1.一種水利自然語言模型訓(xùn)練數(shù)據(jù)自動化生成系統(tǒng)，包括前端應(yīng)用層、后端應(yīng)用層和大模型層，其特征是，前端應(yīng)用層包括系統(tǒng)上傳文本模塊、健康檢查模塊和存儲下載模塊，系統(tǒng)上傳文本模塊用于用戶上傳原始文本文檔，并將文本文檔傳輸至后端應(yīng)用層，健康檢查模塊用于將經(jīng)過后端應(yīng)用層標(biāo)準(zhǔn)化后的數(shù)據(jù)進(jìn)行二次審核，確保數(shù)據(jù)準(zhǔn)確無誤、滿足業(yè)務(wù)標(biāo)準(zhǔn)，存儲下載模塊用于在數(shù)據(jù)處理及校驗(yàn)完成后，即時(shí)生成并提供文件下載服務(wù)；

2.根據(jù)權(quán)利要求1所述的一種水利自然語言模型訓(xùn)練數(shù)據(jù)自動化生成系統(tǒng)，其特征是，所述的健康檢查模塊包括參數(shù)處理器與三元組處理器，參數(shù)處理器主要用于對模型解析后數(shù)據(jù)的精細(xì)化結(jié)構(gòu)處理，三元組處理器則主要用于數(shù)據(jù)的精準(zhǔn)校正與美化。

3.根據(jù)權(quán)利要求1所述的一種水利自然語言模型訓(xùn)練數(shù)據(jù)自動化生成系統(tǒng)，其特征是，所述的文本解析模塊包含readword和readtext兩個(gè)模塊，分別用來讀取和處理word和text兩種文本格式，最終將兩種文檔內(nèi)容按照段落進(jìn)行分割，readword模塊使用apache?poi庫解析文檔中的段落結(jié)構(gòu)，通過遍歷文檔的所有段落，將每個(gè)段落的文本提取并追加到字符串構(gòu)建器中，同時(shí)用換行符做隔離并過濾掉空段落；readtext模塊使用緩沖讀取器逐段讀取text文件中的文本，并將每一段文本追加到字符串構(gòu)建器中，同時(shí)用換行符做隔離并過濾掉空段落。

4.根據(jù)權(quán)利要求1所述的一種水利自然語言模型訓(xùn)練數(shù)據(jù)自動化生成系統(tǒng)，其特征是，所述的文本標(biāo)準(zhǔn)化模塊通過rest客戶端模板異步調(diào)用大模型接口與大模型層進(jìn)行通信，大模型層文本智能提取模塊提取的信息使用文本標(biāo)準(zhǔn)化模塊中的對象映射工具將對象序列化為json字符串，提取其中的標(biāo)準(zhǔn)化后的文本。

5.根據(jù)權(quán)利要求1所述的一種水利自然語言模型訓(xùn)練數(shù)據(jù)自動化生成系統(tǒng)，其特征是，所述的標(biāo)準(zhǔn)化自然語言處理標(biāo)注數(shù)據(jù)生成模塊包括參數(shù)處理器、字符序列集合與實(shí)體集合處理器、關(guān)系標(biāo)簽處理器，參數(shù)處理器用于將數(shù)據(jù)提取出實(shí)體并進(jìn)行去重，同時(shí)對實(shí)體與原句的包含關(guān)系進(jìn)行校驗(yàn)；字符序列集合與實(shí)體集合處理器用于對數(shù)據(jù)進(jìn)行句子分割、實(shí)體位置記錄、復(fù)合實(shí)體處理以及原句與實(shí)體標(biāo)準(zhǔn)化拼接；關(guān)系標(biāo)簽處理器用于記錄關(guān)系中的實(shí)體在實(shí)體集合中的位置，將標(biāo)題、實(shí)體集合和關(guān)系標(biāo)簽進(jìn)行標(biāo)準(zhǔn)化拼接，生成符合標(biāo)準(zhǔn)的自然語言處理標(biāo)注數(shù)據(jù)格式。

6.一種水利自然語言模型訓(xùn)練數(shù)據(jù)自動化生成方法，使用如權(quán)利要求1-5任一項(xiàng)所述的系統(tǒng)，其特征是，包括步驟如下：

7.根據(jù)權(quán)利要求6所述的水利自然語言模型訓(xùn)練數(shù)據(jù)自動化生成方法，其特征是，所述的健康檢查模塊的數(shù)據(jù)處理過程為：參數(shù)處理器對模型解析后數(shù)據(jù)的精細(xì)化結(jié)構(gòu)處理，它利用正則表達(dá)式精準(zhǔn)移除數(shù)據(jù)中的轉(zhuǎn)義字符，隨后通過字符串分割技術(shù)將數(shù)據(jù)轉(zhuǎn)化為對象形式實(shí)現(xiàn)數(shù)據(jù)的有效組織，并將數(shù)據(jù)雙重備份，一份送入三元組處理器進(jìn)行下一步處理；三元組處理器對數(shù)據(jù)的精準(zhǔn)校正與美化，首先是確定大模型端層解析后三元組數(shù)組的校驗(yàn)實(shí)體，遍歷關(guān)系數(shù)據(jù)，對涉及的實(shí)體執(zhí)行嚴(yán)格的數(shù)據(jù)類型校驗(yàn)，剔除不符規(guī)范的數(shù)據(jù)、移除數(shù)據(jù)中殘留的轉(zhuǎn)義空白符、驗(yàn)證關(guān)系數(shù)組中提及的實(shí)體是否確實(shí)存在于原始文本中，然后添加視覺友好的美化轉(zhuǎn)義符，最后將存儲的第二份數(shù)據(jù)內(nèi)容更新為這些精準(zhǔn)校正與美化后的文本數(shù)據(jù)，確保輸出的參數(shù)數(shù)據(jù)既標(biāo)準(zhǔn)又可靠。

8.?根據(jù)權(quán)利要求6所述的水利自然語言模型訓(xùn)練數(shù)據(jù)自動化生成方法，其特征是，?所述的標(biāo)準(zhǔn)化自然語言處理標(biāo)注數(shù)據(jù)生成模塊數(shù)據(jù)處理過程為：?參數(shù)處理器將數(shù)據(jù)提取出實(shí)體并進(jìn)行去重，同時(shí)對實(shí)體與原句的包含關(guān)系進(jìn)行進(jìn)一步校驗(yàn)，并將參數(shù)數(shù)據(jù)輸入字符序列集合與實(shí)體集合處理器；字符序列集合與實(shí)體集合處理器對數(shù)據(jù)進(jìn)行句子分割、句內(nèi)字符分割、實(shí)體位置記錄、復(fù)合實(shí)體處理以及標(biāo)準(zhǔn)化拼接原句與實(shí)體操作；然后數(shù)據(jù)進(jìn)入關(guān)系標(biāo)簽處理器，關(guān)系標(biāo)簽處理器記錄關(guān)系中的實(shí)體在實(shí)體集合中的位置，將標(biāo)題、實(shí)體集合和關(guān)系標(biāo)簽進(jìn)行標(biāo)準(zhǔn)化拼接，生成符合標(biāo)準(zhǔn)的自然語言處理標(biāo)注數(shù)據(jù)格式。

技術(shù)總結(jié)
本發(fā)明涉及一種水利自然語言模型訓(xùn)練數(shù)據(jù)自動化生成系統(tǒng)及方法，屬于數(shù)據(jù)處理技術(shù)領(lǐng)域。系統(tǒng)的前端應(yīng)用層包括系統(tǒng)上傳文本模塊、健康檢查模塊和存儲下載模塊，后端應(yīng)用層包括文本解析模塊、文本標(biāo)準(zhǔn)化模塊以及標(biāo)準(zhǔn)化自然語言處理標(biāo)注數(shù)據(jù)生成模塊，大模型層包括文本智能提取模塊；用戶先進(jìn)行初始文本的上傳，文本送至文本解析模塊進(jìn)行解析，之后送至文本標(biāo)準(zhǔn)化模塊拼接為調(diào)優(yōu)語句，并與文本智能提取模塊進(jìn)行請求交互生成標(biāo)準(zhǔn)化的文本；文本傳輸?shù)浇】禉z查模塊進(jìn)行檢查，通過后再將數(shù)據(jù)改造為標(biāo)準(zhǔn)格式的自然語言處理訓(xùn)練數(shù)據(jù)，最后傳輸至存儲下載模塊。本發(fā)明不僅降低了人工審核的負(fù)擔(dān)，還從根本上減少了數(shù)據(jù)錯(cuò)誤對模型訓(xùn)練造成的負(fù)面影響。

技術(shù)研發(fā)人員：盧克,王聰,龐曉輝,李忠
受保護(hù)的技術(shù)使用者：山東鋒士信息技術(shù)有限公司
技術(shù)研發(fā)日：
技術(shù)公布日：2025/1/2

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第2頁1 2

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種水利自然語言模型訓(xùn)練數(shù)據(jù)自動化生成系統(tǒng)及方法與流程