專利名稱:一種微博開心指數(shù)分析方法及系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明屬于互聯(lián)網(wǎng)數(shù)據(jù)分析領(lǐng)域,尤其涉及一種微博開心指數(shù)分析方法和系統(tǒng)。
背景技術(shù):
社會(huì)化媒體應(yīng)用平臺(tái)已經(jīng)成為了人們發(fā)表、評(píng)論、轉(zhuǎn)播信息的主要平臺(tái)。因此,積累了大量用戶的行為數(shù)據(jù)和情感數(shù)據(jù)。其中包括了用戶的時(shí)間、空間等個(gè)人屬性,也包括了用戶發(fā)表的文本內(nèi)容屬性。社會(huì)化媒體數(shù)據(jù)的分析和研究越來越受到人們的關(guān)注。對(duì)信息傳播、社區(qū)發(fā)現(xiàn)、輿情的監(jiān)控、商業(yè)分析、市場(chǎng)的營銷與反饋等具有重要的理論研究意義和應(yīng)用價(jià)值。社會(huì)化媒體應(yīng)用的特點(diǎn)是開放和合作,如微博、社交性網(wǎng)站等,紛紛給出了自己的開放平臺(tái),讓第三方應(yīng)用進(jìn)入到自己的開放平臺(tái)中。因此,誕生了一種新的數(shù)據(jù)獲取方式,即基于開放平臺(tái)API接口的數(shù)據(jù)獲取?,F(xiàn)有的微博獲取方式步驟主要包括(1)獲取權(quán)限的驗(yàn)證;(2)基于API函數(shù)確定參數(shù);(3)數(shù)據(jù)的獲取及存儲(chǔ)。然而,在微博數(shù)據(jù)獲取及分析方面,發(fā)明人發(fā)現(xiàn)目前的技術(shù)仍然存在著一些缺陷和不足之處,主要包括(I)由于微博數(shù)據(jù)的短文本特點(diǎn),缺少準(zhǔn)確的情感傾向計(jì)算方法;
(2)目前,對(duì)開心指數(shù)還沒有一個(gè)統(tǒng)一的定義,缺少一個(gè)比較系統(tǒng)科學(xué)的計(jì)算方法;(3)缺少從單個(gè)用戶的行為,反應(yīng)群體用戶的行為再到整個(gè)地區(qū)用戶的行為的分析過程;(4)目前,沒有人對(duì)各個(gè)地區(qū)的開心指數(shù)進(jìn)行實(shí)時(shí)分析,更沒有對(duì)結(jié)果進(jìn)行實(shí)時(shí)的可視化呈現(xiàn)。
發(fā)明內(nèi)容
有鑒于此,本發(fā)明實(shí)施例提供一種微博開心指數(shù)分析方法和系統(tǒng),旨在解決當(dāng)前無法分析微博開心指數(shù),也無法直觀、簡便地表現(xiàn)出微博開心指數(shù)的問題。為此,本發(fā)明實(shí)施例提供了如下技術(shù)方案—種微博開心指數(shù)分析方法,包括以下步驟調(diào)用第三方應(yīng)用接口,獲取微博數(shù)據(jù)并提取時(shí)間要素,根據(jù)所述時(shí)間要素實(shí)時(shí)進(jìn)行時(shí)間線跟蹤;對(duì)微博數(shù)據(jù)進(jìn)行文本語義分析,所述文本語義分析至少包括話題關(guān)聯(lián)分析,表情關(guān)聯(lián)分析和特殊字符關(guān)聯(lián)分析;通過構(gòu)建短文本映射庫對(duì)微博數(shù)據(jù)中的短文本進(jìn)行還原;引入關(guān)聯(lián)元素參數(shù)并根據(jù)所述關(guān)聯(lián)元素參數(shù)進(jìn)行微博情感傾向判斷,所述關(guān)聯(lián)元素參數(shù)至少包括話題關(guān)聯(lián)參數(shù),表情關(guān)聯(lián)參數(shù)和特殊字符關(guān)聯(lián)參數(shù);根據(jù)預(yù)設(shè)微博開心指數(shù)公式對(duì)所述微博情感傾向判斷結(jié)果進(jìn)行統(tǒng)計(jì)計(jì)算,以及對(duì)計(jì)算結(jié)果進(jìn)行可視化呈現(xiàn)。一種微博開心指數(shù)分析系統(tǒng),包括微博數(shù)據(jù)獲取單元、文本語義分析單元、短文本還原單元、情感傾向判斷單元以及開心指數(shù)計(jì)算單元,其中微博數(shù)據(jù)獲取單元用于調(diào)用第三方應(yīng)用接口,獲取微博數(shù)據(jù)并提取時(shí)間要素,根據(jù)所述時(shí)間要素實(shí)時(shí)進(jìn)行時(shí)間線跟蹤;文本語義分析單元用于對(duì)微博數(shù)據(jù)進(jìn)行文本語義分析,所述文本語義分析至少包括話題關(guān)聯(lián)分析,表情關(guān)聯(lián)分析和特殊字符關(guān)聯(lián)分析;短文本還原單元用于通過構(gòu)建短文本映射庫對(duì)微博數(shù)據(jù)中的短文本進(jìn)行還原;情感傾向判斷單元用于引入關(guān)聯(lián)元素參數(shù)并根據(jù)所述關(guān)聯(lián)元素參數(shù)進(jìn)行微博情感傾向判斷,所述關(guān)聯(lián)元素參數(shù)至少包括話題關(guān)聯(lián)參數(shù),表情關(guān)聯(lián)參數(shù)和特殊字符關(guān)聯(lián)參數(shù);開心指數(shù)計(jì)算單元用于根據(jù)預(yù)設(shè)微博開心指數(shù)公式對(duì)所述微博情感傾向判斷結(jié)果進(jìn)行統(tǒng)計(jì)計(jì)算,以及結(jié)果呈現(xiàn)單元,用于對(duì)計(jì)算結(jié)果進(jìn)行可視化呈現(xiàn)。相對(duì)于現(xiàn)有技術(shù),本發(fā)明實(shí)施例提供的微博開心指數(shù)分析方法及系統(tǒng)基于時(shí)間線追蹤的方式獲取微博數(shù)據(jù),并對(duì)文本進(jìn)行語義分析及情感傾向判定,通過計(jì)算獲得開心指數(shù),并進(jìn)行可視化呈現(xiàn),可對(duì)信息傳播、社區(qū)發(fā)現(xiàn)、輿情的監(jiān)控、商業(yè)分析、市場(chǎng)的營銷與反饋提供有效的協(xié)助。
圖1是本發(fā)明第一實(shí)施例提供的一種微博開心指數(shù)分析方法的方法流程圖;圖2是本發(fā)明第二實(shí)施例提供的一種微博開心指數(shù)分析方法的方法流程圖;圖3是圖2中步驟201的流程示意圖;圖4是圖2中步驟202-207的流程示意圖;圖5是圖2中步驟208的結(jié)果呈現(xiàn)圖;圖6是圖2中步驟208另一實(shí)施方式中的結(jié)果呈現(xiàn)圖;圖7是本發(fā)明第三實(shí)施例提供的一種微博開心指數(shù)分析系統(tǒng)的結(jié)構(gòu)示意圖;圖8是本發(fā)明第四實(shí)施例提供的一種微博開心指數(shù)分析系統(tǒng)的結(jié)構(gòu)示意圖。
具體實(shí)施例方式為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點(diǎn)更加清楚明白,以下結(jié)合附圖及實(shí)施例,對(duì)本發(fā)明進(jìn)行進(jìn)一步詳細(xì)說明。應(yīng)當(dāng)理解,此處所描述的僅是本發(fā)明的一部分實(shí)施例,而不是全部的實(shí)施例。基于本發(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動(dòng)的前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。實(shí)施例一圖1是本發(fā)明第一實(shí)施例提供的一種微博開心指數(shù)分析方法的方法流程圖,其包括步驟101至步驟106。步驟101 :調(diào)用第三方應(yīng)用接口,獲取微博數(shù)據(jù)并提取時(shí)間要素,根據(jù)所述時(shí)間要素實(shí)時(shí)進(jìn)行時(shí)間線跟蹤。步驟102 :對(duì)微博數(shù)據(jù)進(jìn)行文本語義分析,所述文本語義分析至少包括話題關(guān)聯(lián)分析,表情關(guān)聯(lián)分析和特殊字符關(guān)聯(lián)分析。步驟103 :通過構(gòu)建短文本映射庫對(duì)微博數(shù)據(jù)中的短文本進(jìn)行還原。步驟104 :引入關(guān)聯(lián)元素參數(shù)并根據(jù)所述關(guān)聯(lián)元素參數(shù)進(jìn)行微博情感傾向判斷,所述關(guān)聯(lián)元素參數(shù)至少包括話題關(guān)聯(lián)參數(shù),表情關(guān)聯(lián)參數(shù)和特殊字符關(guān)聯(lián)參數(shù)。步驟105 :根據(jù)預(yù)設(shè)微博開心指數(shù)公式對(duì)所述微博情感傾向判斷結(jié)果進(jìn)行統(tǒng)計(jì)計(jì)
笪步驟106 :對(duì)計(jì)算結(jié)果進(jìn)行可視化呈現(xiàn)。本發(fā)明實(shí)施例提供的微博開心指數(shù)分析方法基于時(shí)間線追蹤的方式獲取微博數(shù)據(jù),并對(duì)文本進(jìn)行語義分析及情感傾向判定,通過計(jì)算獲得開心指數(shù),并進(jìn)行可視化呈現(xiàn),可對(duì)信息傳播、社區(qū)發(fā)現(xiàn)、輿情的監(jiān)控、商業(yè)分析、市場(chǎng)的營銷與反饋提供有效的協(xié)助。
實(shí)施例二請(qǐng)一起參閱圖2圖6,本發(fā)明第二實(shí)施例提供的一種微博開心指數(shù)分析方法,其包括步驟201至步驟208,如圖2所示。步驟201 :調(diào)用第三方應(yīng)用接口,獲取微博數(shù)據(jù)并提取時(shí)間要素,根據(jù)所述時(shí)間要素實(shí)時(shí)進(jìn)行時(shí)間線跟蹤。如圖3所示,步驟201主要包括四個(gè)子步驟,即(I)、參數(shù)設(shè)定,包括參數(shù)設(shè)定一和參數(shù)設(shè)定二。參數(shù)設(shè)定一主要是初始狀態(tài)下的參數(shù)設(shè)定,包括要獲取的數(shù)據(jù)對(duì)象名稱以及獲取數(shù)據(jù)的格式等參數(shù)的設(shè)定。參數(shù)設(shè)定二包括循環(huán)獲取過程中的參數(shù)設(shè)定,主要是抓取時(shí)間戳的確定。(2)、根據(jù)第三方應(yīng)用提供的權(quán)限設(shè)定權(quán)限參數(shù),進(jìn)行權(quán)限驗(yàn)證。在本實(shí)施例中,主要是依據(jù)第三方(或開放平臺(tái))提供的權(quán)限和權(quán)限驗(yàn)證方法進(jìn)行設(shè)定,設(shè)定成功時(shí)獲取數(shù)據(jù),否則需要更換權(quán)限密鑰。同時(shí),本實(shí)施例采用循環(huán)權(quán)限方式進(jìn)行抓取,避免出現(xiàn)單個(gè)權(quán)限使用過度的情況。(3)、獲取并存儲(chǔ)微博數(shù)據(jù)。在本實(shí)施例中,主要通過模擬應(yīng)用,在設(shè)定好參數(shù)信息和權(quán)限參數(shù)信息的基礎(chǔ)上,通過驗(yàn)證,獲取到微博數(shù)據(jù)。并存儲(chǔ)到數(shù)據(jù)庫中,同時(shí)提取微博數(shù)據(jù)中的時(shí)間戳進(jìn)行時(shí)間跟蹤計(jì)算。(3)、對(duì)當(dāng)前獲取的時(shí)間戳進(jìn)行判定,并將最新的抓取時(shí)間戳更新到參數(shù)設(shè)定上。在本實(shí)施例中,主要依據(jù)設(shè)定的參考時(shí)間線來對(duì)當(dāng)前獲取的時(shí)間戳進(jìn)行時(shí)間判定,在此步驟中,需要進(jìn)行對(duì)比時(shí)間計(jì)算,如果在參考時(shí)間線上的時(shí)間戳大于微博數(shù)據(jù)獲取的時(shí)間戳,則設(shè)定抓取時(shí)間戳為最新。反之,則設(shè)定抓取時(shí)間戳為當(dāng)前獲取的時(shí)間戳,并進(jìn)行翻頁抓取。最后將最新的抓取時(shí)間戳更新到參數(shù)設(shè)定二和參考時(shí)間線上。請(qǐng)繼續(xù)參閱4,在步驟202 :根據(jù)微博數(shù)據(jù)特點(diǎn)進(jìn)行文本語義分析,所述文本語義分析至少包括話題關(guān)聯(lián)分析,表情關(guān)聯(lián)分析和特殊字符關(guān)聯(lián)分析。目前,微博數(shù)據(jù)的特點(diǎn)是經(jīng)常包含明確的話題(文本中#和#之間的內(nèi)容。例如#奧運(yùn)#);引用豐富的表情符號(hào)和具有一定意義的特殊字符等。本實(shí)施例中,進(jìn)行文本語義分析主要是針對(duì)微博數(shù)據(jù)的特點(diǎn),進(jìn)行不同內(nèi)容的關(guān)聯(lián)分析,具體包括上下文關(guān)聯(lián)分析,即針對(duì)微博中的Source節(jié)點(diǎn)內(nèi)容判斷是否具有上下文關(guān)聯(lián);話題關(guān)聯(lián)分析,即針對(duì)文本中是否含有#之間的內(nèi)容進(jìn)行話題關(guān)聯(lián),例如,當(dāng)微博中出現(xiàn)#奧運(yùn)#,即表明該條微博與奧運(yùn)話題相關(guān)聯(lián);表情關(guān)聯(lián),即針對(duì)文本中是否含有表情字符,從而確定表情關(guān)聯(lián)關(guān)系;特殊字符關(guān)聯(lián),即針對(duì)微博文本中的特殊字符進(jìn)行提取和分析。另外,在進(jìn)行文本語義分析前,還可以先進(jìn)行數(shù)據(jù)結(jié)構(gòu)化處理,主要包括微博數(shù)據(jù)進(jìn)行處理分析前的數(shù)據(jù)輸入結(jié)構(gòu)化,進(jìn)而對(duì)微博文本的相關(guān)屬性進(jìn)行提取。步驟203 :進(jìn)行數(shù)據(jù)預(yù)處理。請(qǐng)繼續(xù)參閱圖4,在本實(shí)施例中,該步驟主要完成本文信息的預(yù)處理工作,篩選出文本信息里的噪音數(shù)據(jù)和無意義的特殊字符并過濾掉等。步驟204 :通過構(gòu)建短文本映射庫對(duì)微博數(shù)據(jù)中的短文本進(jìn)行還原。如圖4所示,微博數(shù)據(jù)具有短文本特點(diǎn),很多縮寫、簡稱以及簡單表達(dá)方式成為了微博文本的特點(diǎn)。在本實(shí)施例中,針對(duì)短文本特點(diǎn),本發(fā)明構(gòu)建短文本映射庫(人工構(gòu)建映射庫)進(jìn)行短文本還原映射技術(shù),將具有短文本特點(diǎn)的語句進(jìn)行還原??梢酝ㄟ^收集常用短文本并將其與表示該短文本意思的文本建立映射關(guān)系,進(jìn)而將其存入映射庫中,例如將短文本“BF”與“男朋友”建立映射后存入映射庫。這樣,當(dāng)微博數(shù)據(jù)中出現(xiàn)短文本語句為“BF”,其可還原為“男朋友”等。步驟205:對(duì)所述微博數(shù)據(jù)進(jìn)行分詞處理。分詞技術(shù)是將連續(xù)的字序列按照一定的規(guī)范重新組合成詞序列的過程,例如,將“知識(shí)就是力量”切分成:知識(shí)/就是/力量。常用的分詞算法可分為三大類:基于字符串匹配的分詞方法、基于理解的分詞方法和基于統(tǒng)計(jì)的分詞方法。目前對(duì)中文技術(shù)很多,本發(fā)明采用斯坦福的中文分析包進(jìn)行中文分詞(Chinese Word Segmentation)。步驟206:引入關(guān)聯(lián)元素參數(shù)并進(jìn)行微博情感傾向判斷,所述關(guān)聯(lián)元素參數(shù)至少包括話題關(guān)聯(lián)參數(shù),表情關(guān)聯(lián)參數(shù)和特殊字符關(guān)聯(lián)參數(shù)。在本實(shí)施例中,主要完成微博的情感計(jì)算,首先是基于詞庫的情感詞判斷。例如,將“悲傷”這個(gè)詞判斷為負(fù)向,將“開心”判斷為正向,將“吃飯”判斷為中性。接著,相對(duì)應(yīng)的,對(duì)步驟201中的文本語義分析結(jié)果也進(jìn)行相應(yīng)的情感判斷,具體包括基于情感詞的情感傾向判斷、基于表情參數(shù)、話題參數(shù)的情感傾向判斷等,例如,將表示悲傷的表情判斷為負(fù)向,將話題#圣誕快樂#判斷為正向。判斷微博的情感傾向。本實(shí)施例中,將情感傾向分為正向(pos)、負(fù)向(neg)和中性(neu)三類。步驟207:根據(jù)預(yù)設(shè)微博開心指數(shù)公式對(duì)所述微博情感傾向判斷結(jié)果進(jìn)行統(tǒng)計(jì)計(jì)在本實(shí)施例中,開心指數(shù)是某一地區(qū)網(wǎng)民情感傾向的宏觀描述和反應(yīng)。本實(shí)施例基于地區(qū)微博數(shù)據(jù)的情感判斷,計(jì)算該地區(qū)網(wǎng)絡(luò)的開心指數(shù),主要包括對(duì)該地區(qū)微博正向情感的統(tǒng)計(jì)、負(fù)向情感的統(tǒng)計(jì)、中性情感的統(tǒng)計(jì)和微博數(shù)量指數(shù)等指數(shù)的計(jì)算指標(biāo),然后應(yīng)用開心指數(shù)計(jì)算公式進(jìn)行該地區(qū)開心指數(shù)計(jì)算。步驟208:對(duì)計(jì)算結(jié)果進(jìn)行可視化呈現(xiàn)。如圖5所示,該圖用不同的色彩示出經(jīng)由上述方式計(jì)算得到的全國各地區(qū)的開心指數(shù)。進(jìn)一步地,如圖6所示,在步驟208的另一實(shí)施方式中示出劉翔退賽前后,全國網(wǎng)民的開心指數(shù)變化情況,由開心轉(zhuǎn)向不開心的趨勢(shì)。由此,網(wǎng)民對(duì)某一話題的反應(yīng)能夠通過開心指數(shù)得到直觀的體現(xiàn)。綜上所述,本發(fā)明第二實(shí)施例提供的微博開心指數(shù)分析方法基于時(shí)間線追蹤的方式獲取微博數(shù)據(jù),并對(duì)文本進(jìn)行語義分析及情感傾向判定,通過計(jì)算獲得開心指數(shù),并進(jìn)行可視化呈現(xiàn),可對(duì)信息傳播、社區(qū)發(fā)現(xiàn)、輿情的監(jiān)控、商業(yè)分析、市場(chǎng)的營銷與反饋提供有效的協(xié)助。第三實(shí)施例圖7是本發(fā)明第三實(shí)施例提供的一種微博開心指數(shù)分析系統(tǒng)100的結(jié)構(gòu)示意圖,包括:微博數(shù)據(jù)獲取單元11:用于調(diào)用第三方應(yīng)用接口,獲取微博數(shù)據(jù)并提取時(shí)間要素,根據(jù)所述時(shí)間要素實(shí)時(shí)進(jìn)行時(shí)間線跟蹤;文本語義分析單元13:用于對(duì)微博數(shù)據(jù)進(jìn)行文本語義分析,所述文本語義分析至少包括話題關(guān)聯(lián)分析,表情關(guān)聯(lián)分析和特殊字符關(guān)聯(lián)分析;
短文本還原單元15 :用于通過構(gòu)建短文本映射庫對(duì)微博數(shù)據(jù)中的短文本進(jìn)行還原;情感傾向判斷單元16 :引入關(guān)聯(lián)元素參數(shù)并根據(jù)所述關(guān)聯(lián)元素參數(shù)進(jìn)行微博情感傾向判斷,所述關(guān)聯(lián)元素參數(shù)至少包括話題關(guān)聯(lián)參數(shù),表情關(guān)聯(lián)參數(shù)和特殊字符關(guān)聯(lián)參數(shù);以及開心指數(shù)計(jì)算單元17 :根據(jù)預(yù)設(shè)微博開心指數(shù)公式對(duì)所述微博情感傾向判斷結(jié)果進(jìn)行統(tǒng)計(jì)計(jì)算;結(jié)果呈現(xiàn)單元19 :用于對(duì)計(jì)算結(jié)果進(jìn)行可視化呈現(xiàn)。本發(fā)明實(shí)施例提供的微博開心指數(shù)分析系統(tǒng)100基于時(shí)間線追蹤的方式獲取微博數(shù)據(jù),并對(duì)文本進(jìn)行語義分析及情感傾向判定,通過計(jì)算獲得開心指數(shù),并進(jìn)行可視化呈現(xiàn),可對(duì)信息傳播、社區(qū)發(fā)現(xiàn)、輿情的監(jiān)控、商業(yè)分析、市場(chǎng)的營銷與反饋提供有效的協(xié)助。實(shí)施例4本發(fā)明第四實(shí)施例提出了一種微博開心指數(shù)分析系統(tǒng)200,是在第三實(shí)施例基礎(chǔ)上改進(jìn)而來,其結(jié)構(gòu)如圖8所示,包括微博數(shù)據(jù)獲取單元21、文本語義分析單元23、短文本還原單元25、情感傾向判斷單元26、開心指數(shù)計(jì)算單元27、結(jié)果呈現(xiàn)單元19。本實(shí)施例中,所述微博數(shù)據(jù)獲取單元21具體包括參數(shù)設(shè)定模塊211,用于設(shè)定表示待獲取數(shù)據(jù)對(duì)象名稱、待獲取數(shù)據(jù)格式、以及抓取時(shí)間戳的數(shù)據(jù)參數(shù);權(quán)限驗(yàn)證模塊213,用于根據(jù)第三方應(yīng)用提供的權(quán)限設(shè)定權(quán)限參數(shù),進(jìn)行權(quán)限驗(yàn)證;數(shù)據(jù)獲取模塊215,用于獲取并存儲(chǔ)微博數(shù)據(jù);以及時(shí)間更新單元217,用于對(duì)當(dāng)前獲取的時(shí)間戳進(jìn)行判定,并將最新的抓取時(shí)間戳更新到參數(shù)設(shè)定上。另外,所述文本語義分析23進(jìn)一步用于對(duì)上下文關(guān)聯(lián)進(jìn)行分析。所述微博開心指數(shù)分析系統(tǒng)200,進(jìn)一步包括數(shù)據(jù)預(yù)處理單元22,用于在通過構(gòu)建短文本映射庫對(duì)微博數(shù)據(jù)中的短文本進(jìn)行還原前篩選并過濾掉微博文本信息中的噪音數(shù)據(jù)。分詞處理單元24,用于在引入關(guān)聯(lián)元素參數(shù)并進(jìn)行微博情感傾向判斷前,對(duì)所述微博數(shù)據(jù)進(jìn)行分詞處理。所述情感傾向判斷單元26具體用于構(gòu)建情感詞庫,根據(jù)文本語義分析結(jié)果及分詞結(jié)果進(jìn)行情感詞匹配,所述情感詞庫包括正向、負(fù)向及中性三類。本發(fā)明實(shí)施例提供的微博開心指數(shù)分析系統(tǒng)200基于時(shí)間線追蹤的方式獲取微博數(shù)據(jù),并對(duì)文本進(jìn)行語義分析及情感傾向判定,通過計(jì)算獲得開心指數(shù),并進(jìn)行可視化呈現(xiàn),可對(duì)信息傳播、社區(qū)發(fā)現(xiàn)、輿情的監(jiān)控、商業(yè)分析、市場(chǎng)的營銷與反饋提供有效的協(xié)助。本發(fā)明實(shí)施例第三和第四實(shí)施例的系統(tǒng),與前述的第一和第二實(shí)施例的方法構(gòu)思和原理相同,因此在第三和第四實(shí)施例中對(duì)與第一和第二實(shí)施例中相同的部分不再贅述。本領(lǐng)域技術(shù)人員可以理解實(shí)施例中的系統(tǒng)中的模塊可以按照實(shí)施例描述進(jìn)行分布于實(shí)施例的系統(tǒng)中,也可以進(jìn)行相應(yīng)變化位于不同于本實(shí)施例的一個(gè)或多個(gè)系統(tǒng)中。上述實(shí)施例的模塊可以合并為一個(gè)模塊,也可以進(jìn)一步拆分成多個(gè)子模塊。通過以上的實(shí)施方式的描述,本領(lǐng)域的技術(shù)人員可以清楚地了解到本發(fā)明可借助軟件加必需的通用硬件平臺(tái)的方式來實(shí)現(xiàn),當(dāng)然也可以通過硬件,但很多情況下前者是更佳的實(shí)施方式。基于這樣的理解,本發(fā)明的技術(shù)方案本質(zhì)上或者說對(duì)現(xiàn)有技術(shù)做出貢獻(xiàn)的部分可以以軟件產(chǎn)品的形式體現(xiàn)出來,該計(jì)算機(jī)軟件產(chǎn)品存儲(chǔ)在一個(gè)存儲(chǔ)介質(zhì)中,包括若干指令用以使得一臺(tái)終端設(shè)備(可以是手機(jī),個(gè)人計(jì)算機(jī),服務(wù)器,或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行本發(fā)明各個(gè)實(shí)施例所述的方法。以上所述僅是本發(fā)明的優(yōu)選實(shí)施方式,應(yīng)當(dāng)指出,對(duì)于本技術(shù)領(lǐng)域的普通技術(shù)人員來說,在不脫離本發(fā)明原理的前提下,還可以做出若干改進(jìn)和潤飾,這些改進(jìn)和潤飾也應(yīng)視本發(fā)明的保護(hù)范圍。
權(quán)利要求
1.一種微博開心指數(shù)分析方法,包括: 調(diào)用第三方應(yīng)用接口,獲取微博數(shù)據(jù)并提取時(shí)間要素,根據(jù)所述時(shí)間要素實(shí)時(shí)進(jìn)行時(shí)間線跟蹤; 對(duì)微博數(shù)據(jù)進(jìn)行文本語義分析,所述文本語義分析至少包括話題關(guān)聯(lián)分析,表情關(guān)聯(lián)分析和特殊字符關(guān)聯(lián)分析; 通過構(gòu)建短文本映射庫對(duì)微博數(shù)據(jù)中的短文本進(jìn)行還原; 引入關(guān)聯(lián)元素參數(shù)并根據(jù)所述關(guān)聯(lián)元素參數(shù)進(jìn)行微博情感傾向判斷,所述關(guān)聯(lián)元素參數(shù)至少包括與話題關(guān)聯(lián)參數(shù),表情關(guān)聯(lián)參數(shù)和特殊字符關(guān)聯(lián)參數(shù); 根據(jù)預(yù)設(shè)微博開心指數(shù)公式對(duì)所述微博情感傾向判斷結(jié)果進(jìn)行統(tǒng)計(jì)計(jì)算,以及 對(duì)計(jì)算結(jié)果進(jìn)行實(shí)時(shí)可視化呈現(xiàn)。
2.如權(quán)利要求1所述的微博開心指數(shù)分析方法,其特征在于,所述步驟“調(diào)用第三方應(yīng)用接口,獲取微博數(shù)據(jù)并提取時(shí)間要素,根據(jù)所述時(shí)間要素實(shí)時(shí)進(jìn)行時(shí)間線跟蹤”包括: 設(shè)定表示待獲取數(shù)據(jù)對(duì)象名稱、待獲取數(shù)據(jù)格式、以及抓取時(shí)間戳的數(shù)據(jù)參數(shù); 根據(jù)第三方應(yīng)用提供的權(quán)限設(shè)定權(quán)限參數(shù),進(jìn)行權(quán)限驗(yàn)證; 獲取并存儲(chǔ)微博數(shù)據(jù); 對(duì)當(dāng)前獲取的時(shí)間戳進(jìn)行判定,并將最新的抓取時(shí)間戳更新到參數(shù)設(shè)定上。
3.如權(quán)利要求1所述的微博開心指數(shù)分析方法,其特征在于,所述文本語義分析進(jìn)一步包括上下文關(guān)聯(lián)分析。
4.如權(quán)利要求1所述的微博開心指數(shù)分析方法,其特征在于,所述步驟“通過構(gòu)建短文本映射庫對(duì)微博數(shù)據(jù)中的短文本進(jìn)行還原”前,進(jìn)一步包括: 篩選并過濾掉微博文本信息中的噪音數(shù)據(jù)。
5.如權(quán)利要求1所述的微博開心指數(shù)分析方法,其特征在于,所述步驟“引入關(guān)聯(lián)元素參數(shù)并進(jìn)行微博情感傾向判斷”前,進(jìn)一步包括:對(duì)所述微博數(shù)據(jù)進(jìn)行分詞處理。
6.如權(quán)利要求5所述的微博開心指數(shù)分析方法,其特征在于,所述引入關(guān)聯(lián)元素參數(shù)并進(jìn)行微博情感傾向判斷包括: 構(gòu)建情感詞庫,根據(jù)文本語義分析結(jié)果及分詞結(jié)果進(jìn)行情感詞匹配,所述情感詞庫包括正向、負(fù)向及中性三類。
7.一種微博開心指數(shù)分析系統(tǒng),包括: 微博數(shù)據(jù)獲取單元,用于調(diào)用第三方應(yīng)用接口,獲取微博數(shù)據(jù)并提取時(shí)間要素,根據(jù)所述時(shí)間要素實(shí)時(shí)進(jìn)行時(shí)間線跟蹤; 文本語義分析單元,用于對(duì)微博數(shù)據(jù)進(jìn)行文本語義分析,所述文本語義分析至少包括話題關(guān)聯(lián)分析,表情關(guān)聯(lián)分析和特殊字符關(guān)聯(lián)分析; 短文本還原單元,用于通過構(gòu)建短文本映射庫對(duì)微博數(shù)據(jù)中的短文本進(jìn)行還原; 情感傾向判斷單元,用于引入關(guān)聯(lián)元素參數(shù)并根據(jù)所述關(guān)聯(lián)元素參數(shù)進(jìn)行微博情感傾向判斷,所述關(guān)聯(lián)元素參數(shù)至少包括話題關(guān)聯(lián)參數(shù),表情關(guān)聯(lián)參數(shù)和特殊字符關(guān)聯(lián)參數(shù);開心指數(shù)計(jì)算單元,用于根據(jù)預(yù)設(shè)微博開心指數(shù)公式對(duì)所述微博情感傾向判斷結(jié)果進(jìn)行統(tǒng)計(jì)計(jì)算,以及 結(jié)果呈現(xiàn)單元,用于對(duì)計(jì)算結(jié)果進(jìn)行實(shí)時(shí)可視化呈現(xiàn)。
8.如權(quán)利要求7所述的微博開心指數(shù)分析系統(tǒng),其特征在于,所述微博數(shù)據(jù)獲取單元包括: 參數(shù)設(shè)定模塊,用于設(shè)定表示待獲取數(shù)據(jù)對(duì)象名稱、待獲取數(shù)據(jù)格式、以及抓取時(shí)間戳的數(shù)據(jù)參數(shù); 權(quán)限驗(yàn)證模塊,用于根據(jù)第三方應(yīng)用提供的權(quán)限設(shè)定權(quán)限參數(shù),進(jìn)行權(quán)限驗(yàn)證; 數(shù)據(jù)獲取模塊,用于獲取并存儲(chǔ)微博數(shù)據(jù);以及 時(shí)間更新單元,用于對(duì)當(dāng)前獲取的時(shí)間戳進(jìn)行判定,并將最新的抓取時(shí)間戳更新到參數(shù)設(shè)定上。
9.如權(quán)利要求7所述的微博開心指數(shù)分析系統(tǒng),其特征在于,所述文本語義分析單元進(jìn)一步用于對(duì)上下文關(guān)聯(lián)進(jìn)行分析。
10.、如權(quán)利要求7所述的微博開心指數(shù)分析系統(tǒng),其特征在于,進(jìn)一步包括數(shù)據(jù)預(yù)處理單元,用于篩選并過濾掉微博文本信息中的噪音數(shù)據(jù)。
11.如權(quán)利要求7所述的微博開心指數(shù)分析系統(tǒng),其特征在于,進(jìn)一步包括分詞處理單元,用于對(duì)所述微博數(shù)據(jù)進(jìn)行分詞處理。
12.如權(quán)利要求11所述的微博開心指數(shù)分析系統(tǒng),其特征在于,所述情感傾向判斷單元用于構(gòu)建情感詞庫,根據(jù)文本語義分析結(jié)果及分詞結(jié)果進(jìn)行情感詞匹配,所述情感詞庫包括正向、負(fù)向及中 性三類。
全文摘要
本發(fā)明涉及互聯(lián)網(wǎng)數(shù)據(jù)分析領(lǐng)域,公開一種微博開心指數(shù)實(shí)時(shí)分析方法,包括調(diào)用第三方應(yīng)用接口,獲取微博數(shù)據(jù)并提取時(shí)間要素,根據(jù)所述時(shí)間要素實(shí)時(shí)進(jìn)行時(shí)間線跟蹤;對(duì)微博數(shù)據(jù)進(jìn)行文本語義分析;通過構(gòu)建短文本映射庫對(duì)微博數(shù)據(jù)中的短文本進(jìn)行還原;引入關(guān)聯(lián)元素參數(shù)并根據(jù)所述關(guān)聯(lián)元素參數(shù)進(jìn)行微博情感傾向判斷;根據(jù)預(yù)設(shè)微博開心指數(shù)公式對(duì)所述微博情感傾向判斷結(jié)果進(jìn)行統(tǒng)計(jì)計(jì)算;以及對(duì)計(jì)算結(jié)果進(jìn)行可視化呈現(xiàn)。本發(fā)明還公開了一種微博開心指數(shù)分析系統(tǒng)。所述方法和系統(tǒng)通過計(jì)算獲得開心指數(shù),并進(jìn)行實(shí)時(shí)可視化呈現(xiàn),可對(duì)信息傳播、社區(qū)發(fā)現(xiàn)、輿情的監(jiān)控、商業(yè)分析、市場(chǎng)的營銷與反饋提供有效的協(xié)助。
文檔編號(hào)G06F17/30GK103077207SQ20121058420
公開日2013年5月1日 申請(qǐng)日期2012年12月28日 優(yōu)先權(quán)日2012年12月28日
發(fā)明者李超, 羅軍, 趙中英 申請(qǐng)人:深圳先進(jìn)技術(shù)研究院