1.一種基于用戶詞典的網(wǎng)絡(luò)社交文本大數(shù)據(jù)處理方法,其特征是,包括:
步驟(1):網(wǎng)絡(luò)社交文本大數(shù)據(jù)的獲取:在新浪微博開放平臺(tái)上獲取新浪微博用戶的微博文本,由于微博文本數(shù)據(jù)存儲(chǔ)空間大以及為了保證大數(shù)據(jù)的獲取速度,從網(wǎng)上下載了文本壓縮文件;然后對(duì)文本壓縮文件解壓縮處理得到包含微博數(shù)據(jù)的txt文件,對(duì)包含微博數(shù)據(jù)的txt文件進(jìn)行數(shù)據(jù)信息初步的提?。?/p>
步驟(2):用戶詞典的構(gòu)建:從微博數(shù)據(jù)中篩選符合待研究心里品質(zhì)的詞匯,對(duì)該詞匯進(jìn)行預(yù)處理,根據(jù)預(yù)處理后的詞匯編制調(diào)查問卷,根據(jù)調(diào)查問卷的問卷題目篩選結(jié)果,構(gòu)建用戶詞典;
步驟(3):微博文本消息中的關(guān)鍵詞模糊匹配,關(guān)鍵詞詞頻統(tǒng)計(jì):
步驟(31):根據(jù)微博發(fā)布的時(shí)間點(diǎn)來劃分微博片段,將用戶詞典中待匹配的關(guān)鍵詞分解為單個(gè)字,
步驟(32):判斷關(guān)鍵詞當(dāng)中的每一個(gè)字是否均在微博片段的文本消息中出現(xiàn)一次,若是,則關(guān)鍵詞詞頻加一;若不是則關(guān)鍵詞詞頻不變;對(duì)所有微博片段進(jìn)行分析,找出用戶詞典中的各個(gè)關(guān)鍵詞在每個(gè)月份的詞頻。
2.如權(quán)利要求1所述的一種基于用戶詞典的網(wǎng)絡(luò)社交文本大數(shù)據(jù)處理方法,其特征是,統(tǒng)計(jì)每個(gè)月份含有各個(gè)關(guān)鍵詞的頻數(shù),以csv文件格式進(jìn)行保存;詞頻統(tǒng)計(jì)csv文件的第一列是關(guān)鍵詞,第一行是含有該關(guān)鍵詞的月份。
3.如權(quán)利要求1所述的一種基于用戶詞典的網(wǎng)絡(luò)社交文本大數(shù)據(jù)處理方法,其特征是,根據(jù)各個(gè)關(guān)鍵詞在每個(gè)月份的詞頻,判斷被研究人員的待研究心理品質(zhì)。
4.如權(quán)利要求1所述的一種基于用戶詞典的網(wǎng)絡(luò)社交文本大數(shù)據(jù)處理方法,其特征是,若某個(gè)微博片段中含有多個(gè)關(guān)鍵詞,則該微博片段的內(nèi)容會(huì)同時(shí)與不同關(guān)鍵詞進(jìn)行模糊匹配。
5.如權(quán)利要求1所述的一種基于用戶詞典的網(wǎng)絡(luò)社交文本大數(shù)據(jù)處理方法,其特征是,由于微博文本中的程度級(jí)別詞語和否定詞會(huì)影響到關(guān)鍵詞的模糊匹配,將程度級(jí)別詞語設(shè)置不同的權(quán)重;沒有出現(xiàn)程度級(jí)別詞語的權(quán)值記為1;否定詞權(quán)重奇數(shù)次出現(xiàn)記為-1,偶數(shù)次出現(xiàn)記為1;每個(gè)關(guān)鍵詞的詞頻=程度級(jí)別詞語權(quán)值*否定詞權(quán)重+名詞詞頻。
6.如權(quán)利要求1所述的一種基于用戶詞典的網(wǎng)絡(luò)社交文本大數(shù)據(jù)處理方法,其特征是,所述步驟(1)中進(jìn)行數(shù)據(jù)信息初步的提取是指采用文本遍歷和文本過濾的方法過濾掉無用的信息,保留有用的信息,將有用的信息另存為txt文件。
7.如權(quán)利要求6所述的一種基于用戶詞典的網(wǎng)絡(luò)社交文本大數(shù)據(jù)處理方法,其特征是,所述無用的信息包括:網(wǎng)絡(luò)連接或表情符號(hào);所述有用的信息包括:用戶創(chuàng)建微博的時(shí)間、省份、微博內(nèi)容以及用戶性別。
8.如權(quán)利要求5所述的一種基于用戶詞典的網(wǎng)絡(luò)社交文本大數(shù)據(jù)處理方法,其特征是,將程度詞分為四個(gè)等級(jí)并賦予相應(yīng)權(quán)重(2,1.75,1.5,0.5)。
9.如權(quán)利要求1所述的一種基于用戶詞典的網(wǎng)絡(luò)社交文本大數(shù)據(jù)處理方法,其特征是,所述步驟(2)的步驟為:
步驟(21):確定待研究心理品質(zhì)的維度;待研究心里品質(zhì)指的是使用者的所研究的心理主題,待研究心理品質(zhì)包括:生涯適應(yīng)力或大五人格;
步驟(22):從微博排名前設(shè)定個(gè)數(shù)的用戶的原創(chuàng)微博的微博文本內(nèi)容中抽取符合待研究心理品質(zhì)的詞匯;抽取的詞匯必須包括名詞和趨勢(shì)詞;所述趨勢(shì)詞是指能表述事物發(fā)展動(dòng)向的詞,對(duì)抽取的詞匯進(jìn)行匯總整理,刪除重復(fù)詞匯,對(duì)含同義詞或近義詞進(jìn)行合并處理;
步驟(23):問卷編制:問卷包括若干個(gè)題目,每個(gè)題目包括五個(gè)選項(xiàng);每個(gè)題目對(duì)應(yīng)一個(gè)待研究的心理品質(zhì)維度;將合并處理的詞作為題目,一個(gè)詞匯對(duì)應(yīng)一個(gè)題目,隨機(jī)抽取人群作為被試人員,問卷采用Likert 5點(diǎn)計(jì)分,從非常同意"、"同意"、"不一定"、"不同意"到"非常不同意"五種選項(xiàng),分別記為5、4、3、2、1分;被試人員對(duì)某個(gè)題目的選項(xiàng)越集中,說明該題目對(duì)應(yīng)的詞匯越具有代表性;按照集中程度來進(jìn)行問卷題目的刪除:計(jì)算問卷中每個(gè)題目中各個(gè)選項(xiàng)的百分比,參考一致性系數(shù)的數(shù)值標(biāo)準(zhǔn),保留單個(gè)選項(xiàng)百分比大于等于60%和兩個(gè)選項(xiàng)百分比之和大于等于60%或且相鄰三個(gè)選項(xiàng)中兩兩相鄰選項(xiàng)百分比不能同時(shí)大于等于60%的詞匯;
步驟(24):形成用戶詞典;按照步驟(23)的按照集中程度來進(jìn)行問卷題目的刪除方法,刪除被試人員難以達(dá)成一致的詞匯,保留被試人員能達(dá)成一致的詞匯,構(gòu)成了最終的待研究心理品質(zhì)的用戶詞典,保留被試人員能達(dá)成一致的詞匯就是用戶詞典的關(guān)鍵詞;所述用戶詞典的關(guān)鍵詞個(gè)數(shù)人為設(shè)定。
10.一種基于用戶詞典的網(wǎng)絡(luò)社交文本大數(shù)據(jù)處理系統(tǒng),其特征是,包括:
網(wǎng)絡(luò)社交文本大數(shù)據(jù)的獲取單元:在新浪微博開放平臺(tái)上獲取新浪微博用戶的微博文本,由于微博文本數(shù)據(jù)存儲(chǔ)空間大以及為了保證大數(shù)據(jù)的獲取速度,從網(wǎng)上下載了文本壓縮文件;然后對(duì)文本壓縮文件解壓縮處理得到包含微博數(shù)據(jù)的txt文件,對(duì)包含微博數(shù)據(jù)的txt文件進(jìn)行數(shù)據(jù)信息初步的提?。?/p>
用戶詞典的構(gòu)建單元,用于從微博數(shù)據(jù)中篩選符合待研究心里品質(zhì)的詞匯,對(duì)該詞匯進(jìn)行預(yù)處理,根據(jù)預(yù)處理后的詞匯編制調(diào)查問卷,根據(jù)調(diào)查問卷的問卷題目篩選結(jié)果,構(gòu)建用戶詞典;
微博文本消息中的關(guān)鍵詞模糊匹配,關(guān)鍵詞詞頻統(tǒng)計(jì)單元:
根據(jù)微博發(fā)布的時(shí)間點(diǎn)來劃分微博片段,將用戶詞典中待匹配的關(guān)鍵詞分解為單個(gè)字,
判斷關(guān)鍵詞當(dāng)中的每一個(gè)字是否均在微博片段的文本消息中出現(xiàn)一次,若是,則關(guān)鍵詞詞頻加一;若不是則關(guān)鍵詞詞頻不變;
對(duì)所有微博片段進(jìn)行分析,找出用戶詞典中的各個(gè)關(guān)鍵詞在每個(gè)月份的詞頻。