本發(fā)明涉及數(shù)據(jù)治理,更具體地說(shuō),涉及一種基于大數(shù)據(jù)及ai技術(shù)的非結(jié)構(gòu)化數(shù)據(jù)治理方法。
背景技術(shù):
1、非結(jié)構(gòu)化數(shù)據(jù)(unstructured?data)是指那些沒(méi)有固定或預(yù)定義數(shù)據(jù)模型的數(shù)據(jù),它不像結(jié)構(gòu)化數(shù)據(jù)那樣以二維表結(jié)構(gòu)邏輯表達(dá),而是不規(guī)則或不完整,不方便用數(shù)據(jù)庫(kù)二維邏輯表來(lái)表現(xiàn)的數(shù)據(jù)。非結(jié)構(gòu)化數(shù)據(jù)通常包括文本文件、圖片、音頻、視頻、社交媒體帖子、電子郵件、日志文件、xml、json等,非結(jié)構(gòu)化數(shù)據(jù)數(shù)據(jù)治理的主流適用環(huán)境涵蓋了廣告營(yíng)銷、零售業(yè)、教育、金融以及制造業(yè)等多個(gè)領(lǐng)域,在這些領(lǐng)域中,數(shù)據(jù)治理可以幫助組織實(shí)現(xiàn)數(shù)據(jù)的規(guī)范化管理,提高數(shù)據(jù)質(zhì)量,保護(hù)數(shù)據(jù)安全,優(yōu)化決策過(guò)程,促進(jìn)業(yè)務(wù)創(chuàng)新。
2、對(duì)于入駐電商平臺(tái)以及投入費(fèi)用進(jìn)行了網(wǎng)絡(luò)市場(chǎng)營(yíng)銷的企業(yè)來(lái)說(shuō),在社交媒體、在線論壇、電商平臺(tái)等渠道中,消費(fèi)者會(huì)產(chǎn)生大量的非結(jié)構(gòu)化文本數(shù)據(jù),如評(píng)論、帖子、反饋等,這些文本數(shù)據(jù)中包含了用戶對(duì)某個(gè)產(chǎn)品、服務(wù)或事件的情感態(tài)度,這些情感態(tài)度極有可能對(duì)刷到上述評(píng)論、帖子的潛在用戶提供購(gòu)物導(dǎo)向,可以挖掘這些非結(jié)構(gòu)化數(shù)據(jù)中的情感傾向,可以為企業(yè)提供有價(jià)值的商業(yè)洞察管理。
3、因此,針對(duì)上述技術(shù)問(wèn)題,有必要提供一種基于大數(shù)據(jù)及ai技術(shù)的非結(jié)構(gòu)化數(shù)據(jù)治理方法。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明的目的在于提供一種基于大數(shù)據(jù)及ai技術(shù)的非結(jié)構(gòu)化數(shù)據(jù)治理方法,以解決上述的問(wèn)題。
2、為了實(shí)現(xiàn)上述目的,本發(fā)明一實(shí)施例提供的技術(shù)方案如下:
3、一種基于大數(shù)據(jù)及ai技術(shù)的非結(jié)構(gòu)化數(shù)據(jù)治理方法,包括以下步驟:
4、s1、訓(xùn)練和部署ai情感模型:通過(guò)大規(guī)模數(shù)據(jù)集投喂以涵蓋各種情感組合和細(xì)微差別的足夠樣本進(jìn)行模型訓(xùn)練,對(duì)樣本中的情感特征結(jié)果進(jìn)行提取,使其在部署后的實(shí)際應(yīng)用中進(jìn)行情感分類預(yù)測(cè);
5、s2、獲取目標(biāo)數(shù)據(jù):利用文本挖掘和自然語(yǔ)言處理技術(shù),掃描預(yù)設(shè)的各種數(shù)據(jù)源,識(shí)別非結(jié)構(gòu)化數(shù)據(jù);
6、s3、數(shù)據(jù)清洗與標(biāo)準(zhǔn)化:利用文本處理和數(shù)據(jù)清洗技術(shù),清洗非結(jié)構(gòu)化數(shù)據(jù),去除噪音數(shù)據(jù),將非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換為結(jié)構(gòu)化或半結(jié)構(gòu)化數(shù)據(jù),獲得目標(biāo)數(shù)據(jù);
7、s4、數(shù)據(jù)分類與分析:對(duì)目標(biāo)數(shù)據(jù)進(jìn)行文本分詞、詞性標(biāo)注、去除停用詞等文本預(yù)處理步驟,再通過(guò)ai訓(xùn)練模型提供的情感分析算法來(lái)識(shí)別文本中的情感傾向;
8、s5、數(shù)據(jù)可視化呈現(xiàn):將數(shù)據(jù)分析結(jié)果以可視化方式展示,所述情感分析結(jié)果轉(zhuǎn)化為包含有柱狀圖、熱力圖和聚類圖等可視化圖表。
9、作為本發(fā)明的進(jìn)一步改進(jìn),所述步驟s1中ai訓(xùn)練情感模型通過(guò)迭代地更新模型參數(shù)同時(shí)使用交叉驗(yàn)證來(lái)優(yōu)化模型的參數(shù),如學(xué)習(xí)率、批次大小、迭代次數(shù)等使模型能夠不斷學(xué)習(xí)從文本數(shù)據(jù)中提取更為準(zhǔn)確的情感特征。
10、作為本發(fā)明的進(jìn)一步改進(jìn),所述步驟s2中數(shù)據(jù)源包括電商平臺(tái)(如拼多多、淘寶、京東、亞馬遜等平臺(tái))上的用戶評(píng)價(jià)和產(chǎn)品反饋、社交媒體平臺(tái)(如微博、twitter)上用戶評(píng)論和產(chǎn)品相關(guān)帖子以及在線論壇(如知乎、豆瓣)上產(chǎn)品的討論和問(wèn)答。
11、作為本發(fā)明的進(jìn)一步改進(jìn),所述步驟s2中非結(jié)構(gòu)數(shù)據(jù)為在電商平臺(tái)、社交媒體平臺(tái)以及在線論壇上用戶評(píng)價(jià)中所提取到的文檔、圖片、視頻鏈接和視頻文件等數(shù)據(jù)。
12、作為本發(fā)明的進(jìn)一步改進(jìn),所述步驟s3中的噪音數(shù)據(jù)包括廣告、重復(fù)信息或其它與產(chǎn)品及對(duì)產(chǎn)品評(píng)價(jià)無(wú)關(guān)的垃圾數(shù)據(jù)。
13、作為本發(fā)明的進(jìn)一步改進(jìn),所述步驟s3中的目標(biāo)數(shù)據(jù)還包括元數(shù)據(jù)提取,具體為收集各發(fā)布渠道的用戶對(duì)于產(chǎn)品及產(chǎn)品售后服務(wù)的評(píng)價(jià)以及用戶發(fā)布時(shí)間等信息,并添加時(shí)間趨勢(shì)的走向。
14、作為本發(fā)明的進(jìn)一步改進(jìn),所述步驟s4中情感傾向包括積極、消極、中性這三種,在對(duì)目標(biāo)數(shù)據(jù)進(jìn)行情感分析時(shí)還可結(jié)合情感詞典的方法,通過(guò)匹配文本中的情感詞匯來(lái)判斷情感傾向。
15、作為本發(fā)明的進(jìn)一步改進(jìn),所述步驟s4還包括s41、優(yōu)劣勢(shì)分析與反饋循環(huán)以及s42、構(gòu)建目標(biāo)用戶畫像。
16、作為本發(fā)明的進(jìn)一步改進(jìn),所述步驟s41、優(yōu)劣勢(shì)分析與反饋循環(huán)具體為在情感分析的基礎(chǔ)上,進(jìn)一步使用主題建模技術(shù)(如lda、nmf等)來(lái)識(shí)別評(píng)價(jià)中提到的不同主題或方面,分析積極評(píng)價(jià)中反映了產(chǎn)品的優(yōu)勢(shì)或用戶滿意的主題內(nèi)容、分析消極評(píng)價(jià)中反映了產(chǎn)品的不足或用戶不滿意的主題內(nèi)容,并通過(guò)詞頻統(tǒng)計(jì)和關(guān)聯(lián)規(guī)則挖掘來(lái)提取和量化這些優(yōu)劣勢(shì)、最后將中性評(píng)價(jià)與積極評(píng)價(jià)和消極評(píng)價(jià)進(jìn)行比對(duì),觀察它們之間的相似之處和差異,識(shí)別出中性評(píng)價(jià)中可能隱含的積極或消極因素,對(duì)于優(yōu)勢(shì)方面,確保在產(chǎn)品更新和迭代中保持這些優(yōu)勢(shì),并考慮如何進(jìn)一步提升用戶體驗(yàn),對(duì)于劣勢(shì)方面,制定具體的改進(jìn)計(jì)劃,并優(yōu)先解決被用戶高頻詞提及的問(wèn)題,在此過(guò)程中不斷收集新的用戶評(píng)價(jià)數(shù)據(jù),并重復(fù)上述分析過(guò)程,以監(jiān)控產(chǎn)品優(yōu)勢(shì)是否得到保持,以及劣勢(shì)是否得到改善,不斷根據(jù)新的分析結(jié)果調(diào)整保持和改進(jìn)策略。
17、作為本發(fā)明的進(jìn)一步改進(jìn),所述步驟s42、構(gòu)建目標(biāo)用戶畫像具體為對(duì)于情感傾向?yàn)榉e極的用戶結(jié)合所處地域、年齡、性別、職業(yè)、收入、教育程度等綜合性分析,獲得用戶特征、行為、偏好等信息的綜合模型,構(gòu)建目標(biāo)用戶的人物畫像,對(duì)這一目標(biāo)用戶群體制定更加精準(zhǔn)的市場(chǎng)策略、產(chǎn)品策略及營(yíng)銷渠道。
18、相比于現(xiàn)有技術(shù),本發(fā)明的優(yōu)點(diǎn)在于:
19、本方案首先通過(guò)訓(xùn)練和部署ai情感模型,然后掃描數(shù)據(jù)源并在識(shí)別非結(jié)構(gòu)化數(shù)據(jù)后進(jìn)行數(shù)據(jù)清洗與標(biāo)準(zhǔn)化以獲取目標(biāo)數(shù)據(jù),接著對(duì)目標(biāo)數(shù)據(jù)進(jìn)行情感傾向的數(shù)據(jù)分析,通過(guò)情感傾向的分析結(jié)果結(jié)合產(chǎn)品的優(yōu)劣勢(shì)分析結(jié)果對(duì)企業(yè)發(fā)展策略進(jìn)行指導(dǎo),保持產(chǎn)品的優(yōu)勢(shì)并對(duì)劣勢(shì)進(jìn)行改善,并不斷收集新的用戶評(píng)價(jià)數(shù)據(jù),重復(fù)上述分析過(guò)程,根據(jù)新的分析結(jié)果不斷調(diào)整保持和改進(jìn)策略,通過(guò)構(gòu)建目標(biāo)用戶畫像,為目標(biāo)用戶群體制定更加精準(zhǔn)的市場(chǎng)策略、產(chǎn)品策略及營(yíng)銷渠道,最后通過(guò)對(duì)社交媒體和在線論壇等渠道的情感分析,幫助企業(yè)及時(shí)發(fā)現(xiàn)潛在的公關(guān)危機(jī)或品牌風(fēng)險(xiǎn),及時(shí)采取相應(yīng)的應(yīng)對(duì)措施,可有效提升產(chǎn)品吸引力以吸引潛在用戶并同時(shí)增強(qiáng)目標(biāo)用戶黏性。
1.一種基于大數(shù)據(jù)及ai技術(shù)的非結(jié)構(gòu)化數(shù)據(jù)治理方法,其特征在于:包括以下步驟:
2.根據(jù)權(quán)利要求1所述的一種基于大數(shù)據(jù)及ai技術(shù)的非結(jié)構(gòu)化數(shù)據(jù)治理方法,其特征在于:所述步驟s1中ai訓(xùn)練情感模型通過(guò)迭代地更新模型參數(shù)同時(shí)使用交叉驗(yàn)證來(lái)優(yōu)化模型的參數(shù),如學(xué)習(xí)率、批次大小、迭代次數(shù)等使模型能夠不斷學(xué)習(xí)從文本數(shù)據(jù)中提取更為準(zhǔn)確的情感特征。
3.根據(jù)權(quán)利要求1所述的一種基于大數(shù)據(jù)及ai技術(shù)的非結(jié)構(gòu)化數(shù)據(jù)治理方法,其特征在于:所述步驟s2中數(shù)據(jù)源包括電商平臺(tái)(如拼多多、淘寶、京東、亞馬遜等平臺(tái))上的用戶評(píng)價(jià)和產(chǎn)品反饋、社交媒體平臺(tái)(如微博、twitter)上用戶評(píng)論和產(chǎn)品相關(guān)帖子以及在線論壇(如知乎、豆瓣)上產(chǎn)品的討論和問(wèn)答。
4.根據(jù)權(quán)利要求3所述的一種基于大數(shù)據(jù)及ai技術(shù)的非結(jié)構(gòu)化數(shù)據(jù)治理方法,其特征在于:所述步驟s2中非結(jié)構(gòu)數(shù)據(jù)為在電商平臺(tái)、社交媒體平臺(tái)以及在線論壇上用戶評(píng)價(jià)中所提取到的文檔、圖片、視頻鏈接和視頻文件等數(shù)據(jù)。
5.根據(jù)權(quán)利要求1所述的一種基于大數(shù)據(jù)及ai技術(shù)的非結(jié)構(gòu)化數(shù)據(jù)治理方法,其特征在于:所述步驟s3中的噪音數(shù)據(jù)包括廣告、重復(fù)信息或其它與產(chǎn)品及對(duì)產(chǎn)品評(píng)價(jià)無(wú)關(guān)的垃圾數(shù)據(jù)。
6.根據(jù)權(quán)利要求3所述的一種基于大數(shù)據(jù)及ai技術(shù)的非結(jié)構(gòu)化數(shù)據(jù)治理方法,其特征在于:所述步驟s3中的目標(biāo)數(shù)據(jù)還包括元數(shù)據(jù)提取,具體為收集各發(fā)布渠道的用戶對(duì)于產(chǎn)品及產(chǎn)品售后服務(wù)的評(píng)價(jià)以及用戶發(fā)布時(shí)間等信息,并添加時(shí)間趨勢(shì)的走向。
7.根據(jù)權(quán)利要求1所述的一種基于大數(shù)據(jù)及ai技術(shù)的非結(jié)構(gòu)化數(shù)據(jù)治理方法,其特征在于:所述步驟s4中情感傾向包括積極、消極、中性這三種,在對(duì)目標(biāo)數(shù)據(jù)進(jìn)行情感分析時(shí)還可結(jié)合情感詞典的方法,通過(guò)匹配文本中的情感詞匯來(lái)判斷情感傾向。
8.根據(jù)權(quán)利要求1所述的一種基于大數(shù)據(jù)及ai技術(shù)的非結(jié)構(gòu)化數(shù)據(jù)治理方法,其特征在于:所述步驟s4還包括s41、優(yōu)劣勢(shì)分析與反饋循環(huán)以及s42、構(gòu)建目標(biāo)用戶畫像。
9.根據(jù)權(quán)利要求8所述的一種基于大數(shù)據(jù)及ai技術(shù)的非結(jié)構(gòu)化數(shù)據(jù)治理方法,其特征在于:所述步驟s41、優(yōu)劣勢(shì)分析與反饋循環(huán)具體為在情感分析的基礎(chǔ)上,進(jìn)一步使用主題建模技術(shù)(如lda、nmf等)來(lái)識(shí)別評(píng)價(jià)中提到的不同主題或方面,分析積極評(píng)價(jià)中反映了產(chǎn)品的優(yōu)勢(shì)或用戶滿意的主題內(nèi)容、分析消極評(píng)價(jià)中反映了產(chǎn)品的不足或用戶不滿意的主題內(nèi)容,并通過(guò)詞頻統(tǒng)計(jì)和關(guān)聯(lián)規(guī)則挖掘來(lái)提取和量化這些優(yōu)劣勢(shì)、最后將中性評(píng)價(jià)與積極評(píng)價(jià)和消極評(píng)價(jià)進(jìn)行比對(duì),觀察它們之間的相似之處和差異,識(shí)別出中性評(píng)價(jià)中可能隱含的積極或消極因素,對(duì)于優(yōu)勢(shì)方面,確保在產(chǎn)品更新和迭代中保持這些優(yōu)勢(shì),并考慮如何進(jìn)一步提升用戶體驗(yàn),對(duì)于劣勢(shì)方面,制定具體的改進(jìn)計(jì)劃,并優(yōu)先解決被用戶高頻詞提及的問(wèn)題,在此過(guò)程中不斷收集新的用戶評(píng)價(jià)數(shù)據(jù),并重復(fù)上述分析過(guò)程,以監(jiān)控產(chǎn)品優(yōu)勢(shì)是否得到保持,以及劣勢(shì)是否得到改善,不斷根據(jù)新的分析結(jié)果調(diào)整保持和改進(jìn)策略。
10.根據(jù)權(quán)利要求8所述的一種基于大數(shù)據(jù)及ai技術(shù)的非結(jié)構(gòu)化數(shù)據(jù)治理方法,其特征在于:所述步驟s42、構(gòu)建目標(biāo)用戶畫像具體為對(duì)于情感傾向?yàn)榉e極的用戶結(jié)合所處地域、年齡、性別、職業(yè)、收入、教育程度等綜合性分析,獲得用戶特征、行為、偏好等信息的綜合模型,構(gòu)建目標(biāo)用戶的人物畫像,對(duì)這一目標(biāo)用戶群體制定更加精準(zhǔn)的市場(chǎng)策略、產(chǎn)品策略及營(yíng)銷渠道。