本發(fā)明屬于數(shù)據(jù)挖掘領(lǐng)域,特別涉及一種海量文本中企業(yè)行為或事件的抽取方法。
背景技術(shù):
:隨著信息技術(shù)和計(jì)算機(jī)科學(xué)的飛速發(fā)展,社交媒體(又稱社會化媒體)展示出巨大的潛力,以微博為例,普通用戶可以在平臺上進(jìn)行關(guān)注、點(diǎn)贊、分享、轉(zhuǎn)發(fā)等行為,而許多企業(yè)更是充分利用官方微博進(jìn)行信息發(fā)布、營銷推廣、粉絲互動(dòng)等,從海量數(shù)據(jù)中挖掘商業(yè)信息,從而制定出更好的商業(yè)策略,同時(shí)企業(yè)的官方微博也包含了企業(yè)的相關(guān)行為信息,這些行為信息同樣具有潛在的商業(yè)價(jià)值和應(yīng)用研究價(jià)值,因此從海量數(shù)據(jù)中提取企業(yè)行為信息并將這些應(yīng)用到商業(yè)領(lǐng)域是一件非常有意義的研究主題。最近幾年,越來越多的企業(yè)利用社交媒體平臺發(fā)布、獲取信息,以及溝通、合作、建立關(guān)系,同時(shí)也有很多學(xué)者研究企業(yè)微博,然而,大多數(shù)學(xué)者關(guān)注于企業(yè)微博的商業(yè)價(jià)值、企業(yè)微博的營銷推廣對用戶的影響、以及影響企業(yè)營銷的因素;僅僅少數(shù)的學(xué)者通過數(shù)據(jù)挖掘提取企業(yè)行為,但是選擇分類方法效果并不理想。由于微博提供了豐富的、及時(shí)的企業(yè)微博信息,這也可用于研究企業(yè)微博信息與企業(yè)當(dāng)前情況的影響關(guān)系,同時(shí),這些組織的企業(yè)行為信息可以用于商業(yè)戰(zhàn)略制定、粉絲關(guān)系維系以及預(yù)測企業(yè)未來方向等,比如,趨勢預(yù)測、內(nèi)容推薦等。然而,在虛擬的社交媒體中確定企業(yè)事件,提取企業(yè)行為,仍然存在一些挑戰(zhàn),主要包括以下兩個(gè)問題,第一,數(shù)據(jù)存在噪音、且形式種類多樣;第二,許多信息摻雜多個(gè)主題,分類器難以確定標(biāo)簽。技術(shù)實(shí)現(xiàn)要素:【要解決的技術(shù)問題】本發(fā)明的目的是提供一種海量文本中企業(yè)行為或事件的抽取方法,以有效的從海量數(shù)據(jù)中提取企業(yè)的行為標(biāo)簽?!炯夹g(shù)方案】本發(fā)明是通過以下技術(shù)方案實(shí)現(xiàn)的。本發(fā)明涉及一種海量文本中企業(yè)行為或事件的抽取方法,其包括以下步驟:A、數(shù)據(jù)預(yù)處理從網(wǎng)絡(luò)中獲取目標(biāo)數(shù)據(jù),并將這些數(shù)據(jù)內(nèi)容進(jìn)行預(yù)處理形成數(shù)據(jù)集;B、詞表征將預(yù)處理形成的數(shù)據(jù)集中的單詞映射到k維的空間向量中,k為預(yù)設(shè)的維度范圍;C、事件向量計(jì)算從預(yù)處理后的數(shù)據(jù)集中抽取動(dòng)詞序列,計(jì)算所有動(dòng)詞序列的平均詞向量,人工標(biāo)注若干條種子標(biāo)簽,計(jì)算同一標(biāo)簽相同事件的平均種子向量;D、事件提取分類通過計(jì)算剩余數(shù)據(jù)集和事件向量的相似度來確定每一條微博數(shù)據(jù)記錄的分類。作為一種優(yōu)選的實(shí)施方式,所述步驟B將預(yù)處理后形成的數(shù)據(jù)集放入word2vec模型中訓(xùn)練得到k維空間向量。作為另一種優(yōu)選的實(shí)施方式,所述步驟C中采用cosine相似度計(jì)算法計(jì)算剩余數(shù)據(jù)集和事件向量的相似度。作為另一種優(yōu)選的實(shí)施方式,所述步驟A中的預(yù)處理至少包括分詞處理和數(shù)據(jù)清理。作為另一種優(yōu)選的實(shí)施方式,所述分詞處理包括通過文本中的句號、問號和感嘆號進(jìn)行文本切分。作為另一種優(yōu)選的實(shí)施方式,所述數(shù)據(jù)清理包括刪除一字詞、停用詞、以及刪除重復(fù)的記錄。作為另一種優(yōu)選的實(shí)施方式,所述步驟A中的目標(biāo)數(shù)據(jù)采用爬蟲技術(shù)爬取得到。下面將對本發(fā)明進(jìn)行詳細(xì)說明。企業(yè)的官方微博通過社交媒體平臺發(fā)布相關(guān)信息,這些企業(yè)的微博記錄大部分都包含了企業(yè)的事件。由于微博的140字的長度限制(現(xiàn)已取消),本發(fā)明假設(shè)每一條微博記錄最多包含一類事件,即假設(shè)企業(yè)行為事件有n類,表示為E={e1,e2,…,en}式(1)在上述這些事件中,第i類事件都能被一組向量表示,即表示為ei=(vi1,vi2,…,vim).式(2)在本發(fā)明中,目標(biāo)是提供一個(gè)能夠自動(dòng)提取企業(yè)事件的模型框架,這些企業(yè)事件信息被隱含在企業(yè)的官方微博中,即表示為Weibo={weibo1,weibo2,…,weibol},因此,本發(fā)明需要解決的問題是,如何確定一篇新的微博文章weiboi屬于E中的哪一類行為事件。為了解決上述問題,本發(fā)明提供的方法主要包括如下四個(gè)部分:數(shù)據(jù)預(yù)處理、詞表征訓(xùn)練、事件聚類、事件識別。數(shù)據(jù)預(yù)處理是將微博爬取的數(shù)據(jù)集進(jìn)行分詞、刪除一字詞停用詞以及數(shù)據(jù)清理。詞表征訓(xùn)練,將詞當(dāng)做特征,用Word2vec把特征訓(xùn)練位高維空間向量。計(jì)算事件向量,利用種子數(shù)據(jù)集和動(dòng)詞詞向量進(jìn)行每一事件類型的向量計(jì)算。最后,利用分類器將剩余數(shù)據(jù)集進(jìn)行分類。下面分別對上述四個(gè)部分進(jìn)行介紹。(一)數(shù)據(jù)預(yù)處理由于微博數(shù)據(jù)具有強(qiáng)噪音和模糊性,且數(shù)據(jù)類型多樣等特點(diǎn),因此,數(shù)據(jù)預(yù)處理是實(shí)驗(yàn)過程中非常重要的一個(gè)步驟,這里包括了3個(gè)預(yù)處理步驟:爬取微博數(shù)據(jù)、分詞處理、數(shù)據(jù)清理。爬取微博數(shù)據(jù)。對于這個(gè)環(huán)節(jié),爬取的對象可以是國產(chǎn)手機(jī)市場占有率前十的企業(yè)的官方微博(華為、小米、魅族、中興、聯(lián)想、酷派、OPPO、VIVO、HTC、TCL),除此之外,很多工具都可以用于在開發(fā)信息網(wǎng)絡(luò)下的數(shù)據(jù)爬取。分詞處理。由于中文不像英文,每個(gè)詞都是自動(dòng)分開,所以需要對文檔進(jìn)行分詞處理,這樣可以確定詞的詞性,也便于后續(xù)實(shí)驗(yàn)的進(jìn)行,在分詞之后,微博記錄集被表示為Weiboi={wi1,wi2,…,wik}式(3)數(shù)據(jù)清理。由于中文文本中經(jīng)常包含大量無意義的詞,所以非常有必要進(jìn)行數(shù)據(jù)清理。數(shù)據(jù)清理是發(fā)生在分詞之后,這個(gè)過程主要包括刪除一字詞、停用詞、以及刪除重復(fù)的記錄,以便于獲得更好是抽取結(jié)果。最后wij表示文檔weiboi中在數(shù)據(jù)預(yù)處理后第j個(gè)位置上的詞,而爬取的所有文檔形成的數(shù)據(jù)集則用weibos表示。(二)詞表征對于詞表征WE,即即表示,將wi單詞映射到k維空間向量(維度范圍:50—500),近年來很多研究提供了大量的詞表征實(shí)現(xiàn)方法,尤其是Mikolov發(fā)表的CBOW模型(ContinuousBag-of-WordModel)和Skip-gram模型(ContinuousSkip-gramModel)。具體地,可以使用Skip-gram模型,假定訓(xùn)練的詞ws=(ws1,ws2,…,wsT),訓(xùn)練目標(biāo)為最大化概率其中wsi表示ws中第i個(gè)詞,p(wsj|wsi)表示出現(xiàn)詞wsi條件下出現(xiàn)wsj的概率。將所有數(shù)據(jù)預(yù)處理后的原始數(shù)據(jù)集放入word2vec模型中訓(xùn)練,因?yàn)檫@種方法不僅僅能夠捕獲詞之間的位置關(guān)系,還包括詞的語義關(guān)系。(三)事件向量計(jì)算由于行為事件用動(dòng)詞表示,所以在計(jì)算事件向量之前,本發(fā)明從預(yù)處理后的數(shù)據(jù)集抽取了動(dòng)詞序列,則Weiboi可簡化表示為Weiboi={vi1,vi2,…,vik′}式(6)其中vij(j=1,2,...,k′)是weiboi中第j個(gè)動(dòng)詞。而被訓(xùn)練的詞向量有一個(gè)有趣的線性性質(zhì),例如,用有效的向量空間向量表示詞,計(jì)算向量等等,因此本發(fā)明通過計(jì)算單詞的平均詞向量來表示一條微博,由于本發(fā)明需要計(jì)算事件向量,所以本發(fā)明選擇了所有動(dòng)詞的平均詞向量來表示一個(gè)微博,計(jì)算方法如下:其中Qi表示weiboi中動(dòng)詞的總量。為了表示事件,需要人工標(biāo)注若干條種子標(biāo)簽,每條數(shù)據(jù)記錄最多包含一種事件類型,在人工標(biāo)注完成后,獲得了兩組種子事件數(shù)據(jù)集,然后計(jì)算同一標(biāo)簽相同事件的平均種子向量,表示為其中i表示標(biāo)簽類型,Ri表示i類標(biāo)簽的種子總數(shù),seedij表示i類標(biāo)簽第j條種子微博記錄。(四)事件提取分類在計(jì)算出每一類事件的向量ei后,將完成分類任務(wù),通過計(jì)算剩余數(shù)據(jù)集和事件向量的相似度來確定每一條微博數(shù)據(jù)記錄的分類,而本發(fā)明選擇的相似度計(jì)算方法可以是cosine相似度計(jì)算法,表示為基于cosine相似度計(jì)算,用i*事件提取后應(yīng)該給微博記錄打上的標(biāo)簽,給sim(weibok,ei)設(shè)定一閾值用u表示,如果sim(weibok,ei)的最大值小于閾值u,這將此條微博記錄標(biāo)為其他類(NULL),表示此微博記錄沒有包含事件。如果sim(weibok,ei)高于閾值u,將此微博標(biāo)簽為相似度最高的事件的標(biāo)簽?!居幸嫘Ч勘景l(fā)明提出的技術(shù)方案具有以下有益效果:本發(fā)明使用向量表示事件和微博,所以基于事件的相似度,本發(fā)明能夠有效地計(jì)算相似度和分類一條新的微博數(shù)據(jù)。同時(shí),本發(fā)明檢測微博事件的精確度、召回率、和F值要遠(yuǎn)優(yōu)于現(xiàn)有技術(shù)中的方法。附圖說明圖1為本發(fā)明的實(shí)施例一提供的海量文本中企業(yè)行為或事件的抽取方法的流程圖。具體實(shí)施方式為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將對本發(fā)明的具體實(shí)施方式進(jìn)行清楚、完整的描述。實(shí)施例一圖1為本發(fā)明實(shí)施例一提供的海量文本中企業(yè)行為或事件的抽取方法的流程圖。如圖1所示,該方法包括數(shù)據(jù)預(yù)處理、詞表征、事件向量計(jì)算和事件提取分類,下面對各個(gè)步驟進(jìn)行詳細(xì)說明。(1)數(shù)據(jù)預(yù)處理從網(wǎng)絡(luò)中獲取目標(biāo)數(shù)據(jù),并將這些數(shù)據(jù)內(nèi)容進(jìn)行預(yù)處理形成數(shù)據(jù)集,具體地,本實(shí)施例爬取的對象是國產(chǎn)手機(jī)市場占有率前十的企業(yè)的官方微博(華為、小米、魅族、中興、聯(lián)想、酷派、OPPO、VIVO、HTC、TCL),一共爬取了88874條微博。其中,通過采用爬蟲技術(shù)從網(wǎng)絡(luò)中爬取目標(biāo)數(shù)據(jù),預(yù)處理包括分詞處理和數(shù)據(jù)清理,分詞處理包括通過文本中的句號、問號和感嘆號進(jìn)行文本切分,數(shù)據(jù)清理包括刪除一字詞、停用詞、以及刪除重復(fù)的記錄。(2)詞表征將預(yù)處理形成的數(shù)據(jù)集中的單詞映射到k維的空間向量中,k為預(yù)設(shè)的維度范圍,其取值為50~500。具體地,該步驟將預(yù)處理后形成的數(shù)據(jù)集放入word2vec模型中訓(xùn)練得到k維空間向量。(3)事件向量計(jì)算在計(jì)算事件向量之前,首先從預(yù)處理后的數(shù)據(jù)集抽取了動(dòng)詞序列,則Weiboi可簡化表示為Weiboi={vi1,vi2,…,vik′}其中vij(j=1,2,...,k′)是weiboi中第j個(gè)動(dòng)詞。然后計(jì)算單詞的平均詞向量來表示一條微博,由于本發(fā)明實(shí)施例需要計(jì)算事件向量,所以本發(fā)明實(shí)施例選擇了所有動(dòng)詞的平均詞向量來表示一個(gè)微博,計(jì)算方法如下:其中Qi表示weiboi中動(dòng)詞的總量。為了表示事件,需要人工標(biāo)注若干條種子標(biāo)簽,本實(shí)施例通過邀請一名志愿者根據(jù)自身的理解人工標(biāo)注了1000條種子標(biāo)簽,每條數(shù)據(jù)記錄最多包含一種事件類型,在人工標(biāo)注完成后,獲得了兩組種子事件數(shù)據(jù)集,然后計(jì)算同一標(biāo)簽相同事件的平均種子向量,表示為其中i表示標(biāo)簽類型,Ri表示i類標(biāo)簽的種子總數(shù),seedij表示i類標(biāo)簽第j條種子微博記錄。(4)事件提取分類通過采用cosine相似度計(jì)算法計(jì)算剩余數(shù)據(jù)集和事件向量的相似度來確定每一條微博數(shù)據(jù)記錄的分類。具體地,在計(jì)算出每一類事件的向量ei后,將完成分類任務(wù),通過計(jì)算剩余數(shù)據(jù)集和事件向量的相似度來確定每一條微博數(shù)據(jù)記錄的分類,而本發(fā)明實(shí)施例選擇的相似度計(jì)算方法可以是cosine相似度計(jì)算法,表示為基于cosine相似度計(jì)算,用i*事件提取后應(yīng)該給微博記錄打上的標(biāo)簽,給sim(weibok,ei)設(shè)定一閾值用u表示,如果sim(weibok,ei)的最大值小于閾值u,這將此條微博記錄標(biāo)為其他類(NULL),表示此微博記錄沒有包含事件。如果sim(weibok,ei)高于閾值u,將此微博標(biāo)簽為相似度最高的事件的標(biāo)簽。驗(yàn)證實(shí)驗(yàn)本次實(shí)驗(yàn)的數(shù)據(jù)集來自于微博網(wǎng)站http://weibo.com,數(shù)據(jù)對象是國內(nèi)知名手機(jī)企業(yè)官方微博(企業(yè)包括華為、小米、魅族、中興、聯(lián)想、酷派、OPPO、Vivo、HTC和TCL),爬取數(shù)據(jù)記錄總共有88874條,數(shù)據(jù)具體信息如表1所示。表1.微博爬取數(shù)據(jù)集統(tǒng)計(jì)表2.語料庫中詞相關(guān)數(shù)據(jù)統(tǒng)計(jì)邀請一名志愿者隨機(jī)讀取微博數(shù)據(jù)記錄,并根據(jù)他對微博內(nèi)容的理解給其打標(biāo)簽,選擇兩組已經(jīng)打好標(biāo)簽的數(shù)據(jù)集,第一組包含了五類,分別是推廣、發(fā)售、研發(fā)、合作、招募,另一組數(shù)據(jù)包括四類,分別是推廣、銷售、研發(fā)和合作,每一組種子數(shù)據(jù)集包括1000條微博記錄,每一類型總數(shù)一樣。采用實(shí)施例二中的方法進(jìn)行抽簽,其中采用word2vec訓(xùn)練詞表征,在訓(xùn)練過程中,word2vec不需要預(yù)置標(biāo)簽,它能將詞表征映射到k維的空間向量中。在Python3.5環(huán)境中運(yùn)行word2vec,參數(shù)選擇如下所示:向量維度Vectordimension=1000;內(nèi)容的窗口大小size=5;選擇模型:Skip-gram。將實(shí)施例二中的方法與詞袋(BOW),TFIDF(termfrequency–inversedocumentfrequency)+BOW、TFIDF加權(quán)以及LDA(LatentDirichletAllocation)進(jìn)行對比實(shí)驗(yàn)。BOW:選擇了高頻詞形成詞袋向量,在實(shí)驗(yàn)中,選擇了前100個(gè)高頻詞。TFIDF+BOW:計(jì)算數(shù)據(jù)集中每個(gè)詞的TFIDF值,選擇其中100個(gè)最高的TFIDF值的詞去形成詞袋向量。.TFIDF_weighted:選擇的詞方式與TFIDF+BOW一致,但是向量每一維的值等于對應(yīng)詞語在該句中的TFIDF值。LDA:將所有的種子數(shù)據(jù)集放入到LDA模型中運(yùn)行,每組實(shí)驗(yàn)數(shù)據(jù)都得到10個(gè)主題,然后以最高的比例作為其類相關(guān)的主題,比例計(jì)算如下所示當(dāng)一篇新的文檔被投入到LDA模型中,根據(jù)種子訓(xùn)練的模型計(jì)算該文檔的話題分布,然后將該微博分類到概率最大的話題下。由于本發(fā)明實(shí)施例分別計(jì)算了兩組事件向量,使用微博中所有動(dòng)詞平均向量去表示一條微博記錄,然后計(jì)算每個(gè)事件向量與剩余每一條數(shù)據(jù)集的cosine相似度,取其中的最大值,以最大值的事件標(biāo)注這一條數(shù)據(jù)集的事件,如果cosine最大值也低于0.2,即此條數(shù)據(jù)集不包含事件行為,被標(biāo)為其他類。邀請先前的志愿者隨機(jī)標(biāo)注了2組微博數(shù)據(jù),每組數(shù)據(jù)均為300條,作為每一組的基準(zhǔn)數(shù)據(jù)集,并將精確度(precision)、召回率(recall)、F值(F_value)作為分類器的評價(jià)指標(biāo),計(jì)算方法如下表。四種可能的分類計(jì)算結(jié)果如下(表3),具體地,按照以下方式計(jì)算精確度(9)、召回率(10)和F值(11):表3.第i種方法對應(yīng)第j種事件的預(yù)測結(jié)果在實(shí)驗(yàn)中,如果其中的微博數(shù)據(jù)的相似度沒有超過閾值,將給這條微博標(biāo)為空類,其他類意味著,這條微博數(shù)據(jù)不包含事件,在本發(fā)明中,閾值被設(shè)為0.2,分類結(jié)果如下表所示。表4.第一組六類標(biāo)簽的精確度類別Word2VecBag_of_WordsTFIDFTFIDF_WeightedLDA(10)發(fā)售0.7441860.250.2083330.1384620.089552合作0.6595740.3103450.3333330.2857140推廣0.4235290.20.2105260.2413790研發(fā)0.5362320.2894740.2352940.280招募0.7037040.0588240.1923080.250空類00.1666670.1491230.1588790.058824表5.第一組六類標(biāo)簽的召回率表4和表5展示第一組數(shù)據(jù)結(jié)構(gòu),從兩張表中可以看出,對于精確度和召回率,本發(fā)明方法在前五類標(biāo)簽都明顯優(yōu)于其他四種方法,尤其是發(fā)售和招募的精度都超過70%,即使是推廣類精度僅有42.35%也遠(yuǎn)超于其他四種方法,而對于召回率,前五類召回率都超過50%,招募類甚至達(dá)到了70.37%。在第一組實(shí)驗(yàn)中,對于前五類標(biāo)簽的精確度和召回率本發(fā)明方法明顯優(yōu)于其他四種方法。表6和表7是第二組實(shí)驗(yàn)結(jié)果,盡管第二組實(shí)驗(yàn)結(jié)果的總體效果不如第一組結(jié)果,但是本發(fā)明提供的方法在前四類標(biāo)簽仍然明顯優(yōu)于其他四種方法,除了推廣類標(biāo)簽,其他三類標(biāo)簽的精確度都超過50%,而對于召回率,除了合作類,其他三類標(biāo)簽頁都超過50%,最高的甚至達(dá)到了66.67%表6.第二組五類標(biāo)簽的精確度類別Word2VecBag_of_WordsTFIDFTFIDF_WeightedLDA(10)合作0.5862070.2121210.30.250.240741推廣0.4631580.3285710.4242420.3709680.25銷售0.6034480.1750.2352940.3333330研發(fā)0.5454550.3225810.224490.2352940.363636空類00.1052630.0961540.1274510.064039表7.第二組五類標(biāo)簽的召回率類別Word2VecBag_of_WordsTFIDFTFIDF_WeightedLDA(10)合作0.4788730.0985920.1267610.0985920.183099推廣0.6666670.3484850.4242420.3484850.015152銷售0.5072460.1014490.1739130.2753620研發(fā)0.6486490.270270.1486490.1621620.054054空類00.50.50.650.65綜合來看,本發(fā)明方法的平均結(jié)果在五類分類方法中效果最優(yōu),指標(biāo)為精確度(precision)、召回率(recall)、和F值(F_value)。根據(jù)來自于微博數(shù)據(jù)的實(shí)驗(yàn)結(jié)果,本發(fā)明方法遠(yuǎn)優(yōu)于其他四類方法。綜上,由于本發(fā)明使用向量表示事件和微博,所以基于事件的相似度,本發(fā)明能夠有效地計(jì)算相似度和分類一條新的微博數(shù)據(jù)。同時(shí),本發(fā)明檢測微博事件的精確度、召回率、和F值要遠(yuǎn)優(yōu)于其他方法。當(dāng)前第1頁1 2 3