本發(fā)明涉及數(shù)據(jù)處理領(lǐng)域。更具體地,本發(fā)明涉及一種數(shù)字文化科普宣傳平臺(tái)優(yōu)化方法。
背景技術(shù):
1、數(shù)字文化科普宣傳平臺(tái)是一個(gè)利用數(shù)字技術(shù)來傳播文化知識(shí)、科學(xué)信息和教育內(nèi)容的在線系統(tǒng)。能夠有效地將豐富的知識(shí)和信息以更加互動(dòng)和易于理解的方式呈現(xiàn)給公眾。現(xiàn)有的數(shù)字文化科普宣傳平臺(tái)是重要的宣發(fā)途徑,能夠幫助人們快速了解待宣發(fā)內(nèi)容,具有廣泛的應(yīng)用。與此同時(shí),數(shù)字文化科普宣傳平臺(tái)也面臨信息過載的挑戰(zhàn),但是如果數(shù)字文化科普宣傳平臺(tái)的宣發(fā)內(nèi)容被篡改,則會(huì)對(duì)數(shù)字文化科普宣傳平臺(tái)造成不可逆的經(jīng)濟(jì)損失、名譽(yù)損失。
2、現(xiàn)有公開號(hào)為cn116342964a的中國專利申請(qǐng)文件公開了一種針對(duì)于電子商務(wù)平臺(tái)的圖片宣傳的風(fēng)控系統(tǒng)及其方法,其通過采用基于深度學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)模型挖掘出宣傳圖片中的高維隱含特征以此來進(jìn)行分類,這樣,能夠準(zhǔn)確地檢測出圖片中是否含有二維碼和廣告等問題,進(jìn)而準(zhǔn)確地進(jìn)行宣傳圖片的風(fēng)險(xiǎn)檢測評(píng)估,保證平臺(tái)宣傳圖片的質(zhì)量和合法性,優(yōu)化電子商務(wù)平臺(tái)的圖片宣傳。
3、該申請(qǐng)文件中,僅提出了宣傳平臺(tái)防篡改的技術(shù)方案,但是在數(shù)字文化科普宣傳平臺(tái)進(jìn)行內(nèi)容宣發(fā)時(shí),往往不僅具有圖像數(shù)據(jù)還有文字?jǐn)?shù)據(jù)視頻等其他類型的數(shù)據(jù),不同類型的數(shù)據(jù)可能需要不同的預(yù)處理和特征提取方法,導(dǎo)致數(shù)據(jù)之間難以有效結(jié)合,同時(shí)無法判別哪些數(shù)據(jù)被篡改,需要人工進(jìn)行審核,因此導(dǎo)致實(shí)用性差,降低了宣發(fā)數(shù)據(jù)的效率。
技術(shù)實(shí)現(xiàn)思路
1、為解決無法判別哪些數(shù)據(jù)被篡改,需要人工進(jìn)行審核,因此導(dǎo)致實(shí)用性差,降低了宣發(fā)數(shù)據(jù)的效率的問題,本發(fā)明在如下方面中提供方案。
2、一種數(shù)字文化科普宣傳平臺(tái)優(yōu)化方法,包括:根據(jù)數(shù)字文化科普宣傳平臺(tái),獲取不同宣發(fā)板塊的數(shù)據(jù),并進(jìn)行標(biāo)記,得到宣發(fā)數(shù)據(jù),其中,所述宣發(fā)數(shù)據(jù)包括:文本數(shù)據(jù)、圖像數(shù)據(jù)和視頻數(shù)據(jù);使用自編碼網(wǎng)絡(luò)提取宣發(fā)數(shù)據(jù)的高維特征,再進(jìn)行解碼,得到解碼數(shù)據(jù)并與宣發(fā)數(shù)據(jù)進(jìn)行對(duì)比,得到宣發(fā)數(shù)據(jù)的異常數(shù)據(jù)位置和非異常數(shù)據(jù)位置,對(duì)所述異常數(shù)據(jù)位置進(jìn)行掩膜生成,將帶有掩膜的異常數(shù)據(jù)位置使用mask網(wǎng)絡(luò)對(duì)被篡改數(shù)據(jù)進(jìn)行還原,獲取異常數(shù)據(jù)位置的復(fù)原難度評(píng)估值,并計(jì)算非異常數(shù)據(jù)位置的最窄寬度值;根據(jù)所述復(fù)原難度評(píng)估值和所述最窄寬度值,以用于計(jì)算數(shù)字文化科普宣傳平臺(tái)的異常數(shù)據(jù)位置還原的綜合難度系數(shù),基于所述綜合難度系數(shù)判斷宣發(fā)數(shù)據(jù)是否進(jìn)行宣發(fā),以用于確保數(shù)字文化科普宣傳平臺(tái)的宣發(fā)質(zhì)量和合法性;所述綜合難度系數(shù)滿足下述關(guān)系式:,式中,表示第個(gè)聚類簇對(duì)應(yīng)局部區(qū)域的綜合難度系數(shù),、、分別表示第個(gè)、第個(gè)和第個(gè)聚類簇對(duì)應(yīng)局部區(qū)域的復(fù)原難度評(píng)估值,表示最大值函數(shù),表示非異常數(shù)據(jù)位置的最窄寬度值,表示以為底的指數(shù)函數(shù)。
3、通過綜合利用自編碼網(wǎng)絡(luò)、掩膜技術(shù)和mask網(wǎng)絡(luò),實(shí)現(xiàn)了對(duì)宣發(fā)數(shù)據(jù)中異常區(qū)域的精準(zhǔn)識(shí)別與還原,顯著提升了數(shù)據(jù)的安全性和宣發(fā)內(nèi)容的質(zhì)量。同時(shí),通過計(jì)算綜合難度系數(shù),能夠智能判斷宣發(fā)數(shù)據(jù)的合法性,自動(dòng)化地決定是否繼續(xù)宣發(fā)流程,從而提高了宣發(fā)效率和響應(yīng)速度,確保了平臺(tái)內(nèi)容的準(zhǔn)確性和合規(guī)性,增強(qiáng)了用戶對(duì)平臺(tái)的信任度。
4、優(yōu)選的,使用自編碼網(wǎng)絡(luò)提取宣發(fā)數(shù)據(jù)的高維特征,包括:
5、對(duì)文本數(shù)據(jù)進(jìn)行預(yù)處理,將預(yù)處理后的文本數(shù)據(jù)使用word2vec網(wǎng)絡(luò)轉(zhuǎn)化為向量序列,將所述向量序列作為文本數(shù)據(jù)的高維特征;其中,預(yù)處理為:將文本數(shù)據(jù)進(jìn)行分詞,將句子分解成單詞或短語,清除停用詞,標(biāo)準(zhǔn)化文本數(shù)據(jù);
6、對(duì)視頻數(shù)據(jù)中的圖像數(shù)據(jù)進(jìn)行預(yù)處理,使用自編碼網(wǎng)絡(luò)對(duì)預(yù)處理后的圖像數(shù)據(jù)進(jìn)行特征提取,將圖像壓縮成低維信息作為圖像數(shù)據(jù)的高維特征。
7、通過采用自編碼網(wǎng)絡(luò)提取宣發(fā)數(shù)據(jù)的高維特征,結(jié)合word2vec處理文本數(shù)據(jù)和直接處理視頻圖像數(shù)據(jù),顯著提升了數(shù)據(jù)處理的自動(dòng)化水平和效率。不僅豐富了數(shù)據(jù)的特征表示,增強(qiáng)了異常檢測的準(zhǔn)確性,還通過數(shù)據(jù)壓縮減少了存儲(chǔ)和計(jì)算需求。從而有效地驗(yàn)證數(shù)據(jù)一致性并精確修復(fù)被篡改的數(shù)據(jù),確保了宣發(fā)信息的質(zhì)量和合法性,為用戶提供了更加可靠和豐富的數(shù)字文化科普內(nèi)容。
8、優(yōu)選的,所述自編碼網(wǎng)絡(luò)的結(jié)構(gòu)包括:編碼器和解碼器,根據(jù)宣發(fā)數(shù)據(jù)的類型構(gòu)建不同的自編碼網(wǎng)絡(luò)模型,使用均方差損失函數(shù)進(jìn)行訓(xùn)練,將同類型的歷史宣發(fā)數(shù)據(jù)的80%作為訓(xùn)練集,20%作為驗(yàn)證集。
9、優(yōu)選的,所述宣發(fā)數(shù)據(jù)的異常數(shù)據(jù)位置,包括:
10、響應(yīng)于解碼數(shù)據(jù)與宣發(fā)數(shù)據(jù)一致,則宣發(fā)數(shù)據(jù)沒有被篡改,反之,則被篡改;
11、計(jì)算宣發(fā)數(shù)據(jù)與解碼數(shù)據(jù)之間的歐式距離,使用異常檢測算法識(shí)別異常數(shù)據(jù)位置,其中,所述圖像數(shù)據(jù)和所述視頻數(shù)據(jù)的計(jì)算方式為:計(jì)算同一位置的歐氏距離,所述文本數(shù)據(jù)的計(jì)算方式為:計(jì)算word2vec網(wǎng)絡(luò)轉(zhuǎn)化為向量序列與解碼數(shù)據(jù)的向量序列的余弦相似度,得到異常數(shù)據(jù)位置。
12、優(yōu)選的,所述掩膜是一個(gè)與異常數(shù)據(jù)位置相同大小的矩陣,其中,異常數(shù)據(jù)位置對(duì)應(yīng)的位置被標(biāo)記為1,非異常數(shù)據(jù)位置對(duì)應(yīng)的位置被標(biāo)記為0;
13、將掩膜應(yīng)用于原始宣發(fā)數(shù)據(jù),保留掩膜中值為1的區(qū)域,其他區(qū)域被屏蔽。
14、優(yōu)選的,所述復(fù)原難度評(píng)估值,包括:
15、對(duì)宣發(fā)數(shù)據(jù)進(jìn)行歸一化,將歸一化后宣發(fā)數(shù)據(jù)對(duì)應(yīng)的異常數(shù)據(jù)位置利用密度聚類算法進(jìn)行分類,得到若干個(gè)聚類簇,每個(gè)聚類簇構(gòu)成一個(gè)局部區(qū)域;
16、獲取聚類簇的類邊界坐標(biāo)和類中心坐標(biāo),計(jì)算類中心坐標(biāo)與所有邊界坐標(biāo)之間的歐氏距離,將所有歐氏距離中最小的作為聚類簇對(duì)應(yīng)局部區(qū)域的復(fù)原難度評(píng)估值。
17、通過密度聚類算法有效地將宣發(fā)數(shù)據(jù)中的異常位置劃分為多個(gè)局部區(qū)域,并對(duì)每個(gè)區(qū)域的復(fù)原難度進(jìn)行量化評(píng)估,提高了異常數(shù)據(jù)修復(fù)的針對(duì)性和效率,從而優(yōu)化了宣發(fā)流程,確保了內(nèi)容的質(zhì)量和合法性。獲取每個(gè)局部區(qū)域的復(fù)原難度評(píng)估值,從而平臺(tái)能夠優(yōu)先分配資源修復(fù)難度較高的區(qū)域,從而提升數(shù)據(jù)處理的整體效率和安全性,增強(qiáng)用戶體驗(yàn),并保障信息傳播的準(zhǔn)確性和可靠性。
18、優(yōu)選的,所述復(fù)原難度評(píng)估值,還包括:
19、對(duì)宣發(fā)數(shù)據(jù)進(jìn)行歸一化,將歸一化后宣發(fā)數(shù)據(jù)對(duì)應(yīng)的異常數(shù)據(jù)位置利用密度聚類算法進(jìn)行分類,得到若干個(gè)聚類簇,每個(gè)聚類簇構(gòu)成一個(gè)局部區(qū)域;
20、以任一聚類簇為目標(biāo)聚類簇,分別計(jì)算目標(biāo)聚類簇對(duì)應(yīng)局部區(qū)域的周長和面積,獲取目標(biāo)聚類簇對(duì)應(yīng)局部區(qū)域中異常點(diǎn)的數(shù)量,分別計(jì)算周長與面積的比值以及異常點(diǎn)的數(shù)量與面積的比值之間的總和,并設(shè)置超參數(shù)進(jìn)行調(diào)整,得到復(fù)原難度評(píng)估值。
21、優(yōu)選的,所述最窄寬度值,包括:
22、對(duì)非異常數(shù)據(jù)位置利用中心線提取算法進(jìn)行中心提取,獲取中心上任一數(shù)據(jù)點(diǎn)為標(biāo)記點(diǎn),將所有標(biāo)記點(diǎn)的坐標(biāo)與異常數(shù)據(jù)位置的邊界上每個(gè)數(shù)據(jù)點(diǎn)坐標(biāo)之間的歐氏距離的最小值作為非異常數(shù)據(jù)位置的最窄寬度值。
23、優(yōu)選的,所述最窄寬度值,還包括:
24、對(duì)異常數(shù)據(jù)位置進(jìn)行距離變換,計(jì)算圖像中每個(gè)點(diǎn)到最近異常區(qū)域的距離,生成一個(gè)距離圖像,其中,每個(gè)像素值表示該點(diǎn)到最近異常區(qū)域的距離,獲取距離圖像中的等值線,選擇最窄的等值線寬度作為最窄寬度值。
25、優(yōu)選的,基于所述綜合難度系數(shù)判斷宣發(fā)數(shù)據(jù)是否進(jìn)行宣發(fā),包括:
26、響應(yīng)于綜合難度系數(shù)小于預(yù)設(shè)難度閾值,則采用mask網(wǎng)絡(luò)進(jìn)行還原修復(fù)后,繼續(xù)進(jìn)行宣發(fā),反之,綜合難度系數(shù)大于等于預(yù)設(shè)難度閾值,則由已知宣發(fā)數(shù)據(jù)的工作人員對(duì)宣發(fā)數(shù)據(jù)進(jìn)行判斷,響應(yīng)于宣發(fā)數(shù)據(jù)判斷正常后,則繼續(xù)進(jìn)行宣發(fā),若不存在已知宣發(fā)數(shù)據(jù)的工作人員或者已知宣發(fā)數(shù)據(jù)無法修復(fù)時(shí),則停止宣發(fā)。
27、本發(fā)明具有以下效果:
28、1、本發(fā)明通過使用自編碼網(wǎng)絡(luò)和mask網(wǎng)絡(luò),結(jié)合復(fù)原難度評(píng)估值和最窄寬度值來計(jì)算綜合難度系數(shù),能夠自動(dòng)識(shí)別和定位被篡改的數(shù)據(jù)區(qū)域,減少了人工審核的需求,提高了審核流程的自動(dòng)化程度,從而提升了數(shù)據(jù)處理的效率和準(zhǔn)確性。
29、2、本發(fā)明通過結(jié)合復(fù)原難度評(píng)估值和非異常數(shù)據(jù)位置的最窄寬度值,能夠反映每個(gè)局部區(qū)域的修復(fù)難度和緊迫性,自動(dòng)識(shí)別出那些修復(fù)難度高或與異常區(qū)域接近的非異常數(shù)據(jù)區(qū)域,從而優(yōu)先分配資源進(jìn)行處理,提高響應(yīng)速度和處理效率。