欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種水利自然語言模型訓(xùn)練數(shù)據(jù)自動化生成系統(tǒng)及方法與流程

文檔序號:40566054發(fā)布日期:2025-01-03 11:26閱讀:來源:國知局

技術(shù)特征:

1.一種水利自然語言模型訓(xùn)練數(shù)據(jù)自動化生成系統(tǒng),包括前端應(yīng)用層、后端應(yīng)用層和大模型層,其特征是,前端應(yīng)用層包括系統(tǒng)上傳文本模塊、健康檢查模塊和存儲下載模塊,系統(tǒng)上傳文本模塊用于用戶上傳原始文本文檔,并將文本文檔傳輸至后端應(yīng)用層,健康檢查模塊用于將經(jīng)過后端應(yīng)用層標(biāo)準(zhǔn)化后的數(shù)據(jù)進(jìn)行二次審核,確保數(shù)據(jù)準(zhǔn)確無誤、滿足業(yè)務(wù)標(biāo)準(zhǔn),存儲下載模塊用于在數(shù)據(jù)處理及校驗(yàn)完成后,即時(shí)生成并提供文件下載服務(wù);

2.根據(jù)權(quán)利要求1所述的一種水利自然語言模型訓(xùn)練數(shù)據(jù)自動化生成系統(tǒng),其特征是,所述的健康檢查模塊包括參數(shù)處理器與三元組處理器,參數(shù)處理器主要用于對模型解析后數(shù)據(jù)的精細(xì)化結(jié)構(gòu)處理,三元組處理器則主要用于數(shù)據(jù)的精準(zhǔn)校正與美化。

3.根據(jù)權(quán)利要求1所述的一種水利自然語言模型訓(xùn)練數(shù)據(jù)自動化生成系統(tǒng),其特征是,所述的文本解析模塊包含readword和readtext兩個(gè)模塊,分別用來讀取和處理word和text兩種文本格式,最終將兩種文檔內(nèi)容按照段落進(jìn)行分割,readword模塊使用apache?poi庫解析文檔中的段落結(jié)構(gòu),通過遍歷文檔的所有段落,將每個(gè)段落的文本提取并追加到字符串構(gòu)建器中,同時(shí)用換行符做隔離并過濾掉空段落;readtext模塊使用緩沖讀取器逐段讀取text文件中的文本,并將每一段文本追加到字符串構(gòu)建器中,同時(shí)用換行符做隔離并過濾掉空段落。

4.根據(jù)權(quán)利要求1所述的一種水利自然語言模型訓(xùn)練數(shù)據(jù)自動化生成系統(tǒng),其特征是,所述的文本標(biāo)準(zhǔn)化模塊通過rest客戶端模板異步調(diào)用大模型接口與大模型層進(jìn)行通信,大模型層文本智能提取模塊提取的信息使用文本標(biāo)準(zhǔn)化模塊中的對象映射工具將對象序列化為json字符串,提取其中的標(biāo)準(zhǔn)化后的文本。

5.根據(jù)權(quán)利要求1所述的一種水利自然語言模型訓(xùn)練數(shù)據(jù)自動化生成系統(tǒng),其特征是,所述的標(biāo)準(zhǔn)化自然語言處理標(biāo)注數(shù)據(jù)生成模塊包括參數(shù)處理器、字符序列集合與實(shí)體集合處理器、關(guān)系標(biāo)簽處理器,參數(shù)處理器用于將數(shù)據(jù)提取出實(shí)體并進(jìn)行去重,同時(shí)對實(shí)體與原句的包含關(guān)系進(jìn)行校驗(yàn);字符序列集合與實(shí)體集合處理器用于對數(shù)據(jù)進(jìn)行句子分割、實(shí)體位置記錄、復(fù)合實(shí)體處理以及原句與實(shí)體標(biāo)準(zhǔn)化拼接;關(guān)系標(biāo)簽處理器用于記錄關(guān)系中的實(shí)體在實(shí)體集合中的位置,將標(biāo)題、實(shí)體集合和關(guān)系標(biāo)簽進(jìn)行標(biāo)準(zhǔn)化拼接,生成符合標(biāo)準(zhǔn)的自然語言處理標(biāo)注數(shù)據(jù)格式。

6.一種水利自然語言模型訓(xùn)練數(shù)據(jù)自動化生成方法,使用如權(quán)利要求1-5任一項(xiàng)所述的系統(tǒng),其特征是,包括步驟如下:

7.根據(jù)權(quán)利要求6所述的水利自然語言模型訓(xùn)練數(shù)據(jù)自動化生成方法,其特征是,所述的健康檢查模塊的數(shù)據(jù)處理過程為:參數(shù)處理器對模型解析后數(shù)據(jù)的精細(xì)化結(jié)構(gòu)處理,它利用正則表達(dá)式精準(zhǔn)移除數(shù)據(jù)中的轉(zhuǎn)義字符,隨后通過字符串分割技術(shù)將數(shù)據(jù)轉(zhuǎn)化為對象形式實(shí)現(xiàn)數(shù)據(jù)的有效組織,并將數(shù)據(jù)雙重備份,一份送入三元組處理器進(jìn)行下一步處理;三元組處理器對數(shù)據(jù)的精準(zhǔn)校正與美化,首先是確定大模型端層解析后三元組數(shù)組的校驗(yàn)實(shí)體,遍歷關(guān)系數(shù)據(jù),對涉及的實(shí)體執(zhí)行嚴(yán)格的數(shù)據(jù)類型校驗(yàn),剔除不符規(guī)范的數(shù)據(jù)、移除數(shù)據(jù)中殘留的轉(zhuǎn)義空白符、驗(yàn)證關(guān)系數(shù)組中提及的實(shí)體是否確實(shí)存在于原始文本中,然后添加視覺友好的美化轉(zhuǎn)義符,最后將存儲的第二份數(shù)據(jù)內(nèi)容更新為這些精準(zhǔn)校正與美化后的文本數(shù)據(jù),確保輸出的參數(shù)數(shù)據(jù)既標(biāo)準(zhǔn)又可靠。

8.?根據(jù)權(quán)利要求6所述的水利自然語言模型訓(xùn)練數(shù)據(jù)自動化生成方法,其特征是,?所述的標(biāo)準(zhǔn)化自然語言處理標(biāo)注數(shù)據(jù)生成模塊數(shù)據(jù)處理過程為:?參數(shù)處理器將數(shù)據(jù)提取出實(shí)體并進(jìn)行去重,同時(shí)對實(shí)體與原句的包含關(guān)系進(jìn)行進(jìn)一步校驗(yàn),并將參數(shù)數(shù)據(jù)輸入字符序列集合與實(shí)體集合處理器;字符序列集合與實(shí)體集合處理器對數(shù)據(jù)進(jìn)行句子分割、句內(nèi)字符分割、實(shí)體位置記錄、復(fù)合實(shí)體處理以及標(biāo)準(zhǔn)化拼接原句與實(shí)體操作;然后數(shù)據(jù)進(jìn)入關(guān)系標(biāo)簽處理器,關(guān)系標(biāo)簽處理器記錄關(guān)系中的實(shí)體在實(shí)體集合中的位置,將標(biāo)題、實(shí)體集合和關(guān)系標(biāo)簽進(jìn)行標(biāo)準(zhǔn)化拼接,生成符合標(biāo)準(zhǔn)的自然語言處理標(biāo)注數(shù)據(jù)格式。


技術(shù)總結(jié)
本發(fā)明涉及一種水利自然語言模型訓(xùn)練數(shù)據(jù)自動化生成系統(tǒng)及方法,屬于數(shù)據(jù)處理技術(shù)領(lǐng)域。系統(tǒng)的前端應(yīng)用層包括系統(tǒng)上傳文本模塊、健康檢查模塊和存儲下載模塊,后端應(yīng)用層包括文本解析模塊、文本標(biāo)準(zhǔn)化模塊以及標(biāo)準(zhǔn)化自然語言處理標(biāo)注數(shù)據(jù)生成模塊,大模型層包括文本智能提取模塊;用戶先進(jìn)行初始文本的上傳,文本送至文本解析模塊進(jìn)行解析,之后送至文本標(biāo)準(zhǔn)化模塊拼接為調(diào)優(yōu)語句,并與文本智能提取模塊進(jìn)行請求交互生成標(biāo)準(zhǔn)化的文本;文本傳輸?shù)浇】禉z查模塊進(jìn)行檢查,通過后再將數(shù)據(jù)改造為標(biāo)準(zhǔn)格式的自然語言處理訓(xùn)練數(shù)據(jù),最后傳輸至存儲下載模塊。本發(fā)明不僅降低了人工審核的負(fù)擔(dān),還從根本上減少了數(shù)據(jù)錯(cuò)誤對模型訓(xùn)練造成的負(fù)面影響。

技術(shù)研發(fā)人員:盧克,王聰,龐曉輝,李忠
受保護(hù)的技術(shù)使用者:山東鋒士信息技術(shù)有限公司
技術(shù)研發(fā)日:
技術(shù)公布日:2025/1/2
當(dāng)前第2頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1
清镇市| 敖汉旗| 福贡县| 景洪市| 炎陵县| 封开县| 镇原县| 眉山市| 繁昌县| 莱阳市| 冷水江市| 炉霍县| 沾益县| 凤冈县| 东辽县| 邯郸市| 绵阳市| 博白县| 镇原县| 威宁| 牙克石市| 岑巩县| 玛沁县| 肃南| 江华| 浮山县| 福海县| 巴塘县| 岳西县| 灌南县| 乌恰县| 贵德县| 上高县| 巨鹿县| 安宁市| 青冈县| 襄垣县| 长阳| 丘北县| 广丰县| 台北县|