本發(fā)明涉及互聯(lián)網(wǎng)
技術(shù)領(lǐng)域:
,特別是涉及一種輿情事件實(shí)體的分析方法及裝置。
背景技術(shù):
:輿情是輿論情況的簡(jiǎn)稱,是指在一定的社會(huì)空間內(nèi),圍繞中介性社會(huì)事件的發(fā)生、發(fā)展和變化,作為主體的民眾對(duì)作為客體的社會(huì)管理者、企業(yè)、個(gè)人及其他各類組織及其政治、社會(huì)、道德等方面的取向產(chǎn)生和持有的社會(huì)態(tài)度。它是較多群眾關(guān)于社會(huì)中各種現(xiàn)象、問題所表達(dá)的信念、態(tài)度、意見和情緒等等表現(xiàn)的總和。在實(shí)際應(yīng)用中,常通過輿情監(jiān)控系統(tǒng)對(duì)輿情進(jìn)行監(jiān)控。輿情監(jiān)控系統(tǒng)對(duì)輿情進(jìn)行監(jiān)控的具體過程如下:獲取互聯(lián)網(wǎng)海量信息,對(duì)該海量信息進(jìn)行分類聚類、按詞通計(jì)、專題聚焦等操作,形成簡(jiǎn)報(bào)、報(bào)告、圖表等分析結(jié)果;實(shí)現(xiàn)用戶的互聯(lián)網(wǎng)輿情監(jiān)測(cè)和新聞專題追蹤等信息需求,為用戶全面掌握網(wǎng)民的思想動(dòng)態(tài),做出正確輿論引導(dǎo),提供分析依據(jù)。目前,輿情監(jiān)控系統(tǒng)在對(duì)輿情進(jìn)行分析時(shí),能夠分析出該輿情屬于什么事件、該輿情事件的發(fā)展趨勢(shì)、該輿情事件涉及的地域等信息,少數(shù)輿情監(jiān)控系統(tǒng)還能分析出網(wǎng)民對(duì)該輿情事件所持有的態(tài)度;而人物和機(jī)構(gòu)絕大多數(shù)情況下是輿情事件產(chǎn)生的主體,但是,輿情監(jiān)控系統(tǒng)不能準(zhǔn)確分析出該輿情事件所涉及的人物和機(jī)構(gòu),導(dǎo)致用戶不能通過輿情監(jiān)控系統(tǒng)準(zhǔn)確定位輿情事件產(chǎn)生的源頭,從而導(dǎo)致不能及時(shí)確定解決該輿情事件的最佳引導(dǎo)方式。技術(shù)實(shí)現(xiàn)要素:有鑒于此,本發(fā)明提供的一種輿情事件實(shí)體的分析方法及裝置,主要目的在于解決輿情監(jiān)控系統(tǒng)不能準(zhǔn)確分析出該輿情事件所涉及的人物和機(jī)構(gòu),導(dǎo)致用戶不能通過輿情監(jiān)控系統(tǒng)準(zhǔn)確定位輿情事件產(chǎn)生的源頭,從而導(dǎo)致不能及時(shí)確定解決該輿情事件的最佳引導(dǎo)方式的問題。為了解決上述問題,本發(fā)明主要提供如下技術(shù)方案:一方面,本發(fā)明提供了一種輿情事件實(shí)體的分析方法,該方法包括:獲取信息集合,并對(duì)所述信息集合進(jìn)行分詞;所述信息集合由n個(gè)句子組成,其中,n為大于0的整數(shù);提取分詞后的所述信息集合中的人物實(shí)體及機(jī)構(gòu)實(shí)體;分別統(tǒng)計(jì)共同提及次數(shù)、人物實(shí)體提及次數(shù)以及機(jī)構(gòu)實(shí)體提及次數(shù),其中,所述共同提及次數(shù)為在同一個(gè)句子中共同提及人物實(shí)體與機(jī)構(gòu)實(shí)體的次數(shù);根據(jù)所述共同提及次數(shù)確定所述人物實(shí)體與機(jī)構(gòu)實(shí)體之間的關(guān)聯(lián)關(guān)系;根據(jù)所述人物實(shí)體提及次數(shù)和/或所述機(jī)構(gòu)實(shí)體提及次數(shù)、所述人物實(shí)體與機(jī)構(gòu)實(shí)體之間的關(guān)聯(lián)關(guān)系確定輿情事件實(shí)體及實(shí)體關(guān)系。另一方面,本發(fā)明還提供一種輿情事件實(shí)體的分析裝置,該裝置包括:第一獲取單元,用于獲取信息集合;所述信息集合由n個(gè)句子組成,其中,n為大于0的整數(shù);分詞單元,用于對(duì)所述第一獲取單元獲取的所述信息集合進(jìn)行分詞;提取單元,用于提取所述分詞單元分詞后的所述信息集合中的人物實(shí)體及機(jī)構(gòu)實(shí)體;統(tǒng)計(jì)單元,用于分別統(tǒng)計(jì)所述提取單元提取的共同提及次數(shù)、人物實(shí)體提及次數(shù)以及機(jī)構(gòu)實(shí)體提及次數(shù),其中,所述共同提及次數(shù)為在同一個(gè)句子中共同提及所述人物實(shí)體與機(jī)構(gòu)實(shí)體的次數(shù);第一確定單元,用于根據(jù)所述統(tǒng)計(jì)單元統(tǒng)計(jì)的所述共同提及次數(shù)確定所述人物實(shí)體與機(jī)構(gòu)實(shí)體之間的關(guān)聯(lián)關(guān)系;第二確定單元,用于根據(jù)所述統(tǒng)計(jì)單元統(tǒng)計(jì)的所述人物實(shí)體提及次數(shù)和/或所述機(jī)構(gòu)實(shí)體提及次數(shù)、所述第一確定單元確定的所述人物實(shí)體與機(jī)構(gòu)實(shí)體之間的關(guān)聯(lián)關(guān)系確定輿情事件實(shí)體及實(shí)體關(guān)系。借由上述技術(shù)方案,本發(fā)明提供的技術(shù)方案至少具有下列優(yōu)點(diǎn):本發(fā)明提供的輿情事件實(shí)體的分析方法及裝置,獲取信息集合,并對(duì)該信息集合進(jìn)行分詞,該信息集合由n個(gè)句子組成,其中,n為大于0的整數(shù);提取分詞后的信息集合中的人物實(shí)體及機(jī)構(gòu)實(shí)體,分別統(tǒng)計(jì)共同提及次數(shù)、人物實(shí)體提及次數(shù)及機(jī)構(gòu)實(shí)體提及次數(shù),該共同提及次數(shù)為在同一句子中共同提及人物實(shí)體及機(jī)構(gòu)實(shí)體的次數(shù);根據(jù)該共同提及次數(shù)確定人物實(shí)體與機(jī)構(gòu)實(shí)體之間的關(guān)聯(lián)關(guān)系,根據(jù)該人物實(shí)體提及次數(shù)和/或機(jī)構(gòu)實(shí)體提及次數(shù)、人物實(shí)體與機(jī)構(gòu)實(shí)體之間的關(guān)聯(lián)關(guān)系確定輿情事件實(shí)體及實(shí)體關(guān)系;本發(fā)明能夠通過對(duì)信息集合的分析,準(zhǔn)確定位輿情事件相關(guān)的實(shí)體及實(shí)體關(guān)系,不僅能夠追溯輿情事件產(chǎn)生的原因,而且還能夠準(zhǔn)確的確定輿情事件的實(shí)體關(guān)系,能夠及時(shí)確定解決該輿情事件的最佳引導(dǎo)方式。上述說明僅是本發(fā)明技術(shù)方案的概述,為了能夠更清楚了解本發(fā)明的技術(shù)手段,而可依照說明書的內(nèi)容予以實(shí)施,并且為了讓本發(fā)明的上述和其它目的、特征和優(yōu)點(diǎn)能夠更明顯易懂,以下特舉本發(fā)明的具體實(shí)施方式。附圖說明通過閱讀下文優(yōu)選實(shí)施方式的詳細(xì)描述,各種其他的優(yōu)點(diǎn)和益處對(duì)于本領(lǐng)域普通技術(shù)人員將變得清楚明了。附圖僅用于示出優(yōu)選實(shí)施方式的目的,而并不認(rèn)為是對(duì)本發(fā)明的限制。而且在整個(gè)附圖中,用相同的參考符號(hào)表示相同的部件。在附圖中:圖1示出了本發(fā)明實(shí)施例提供的一種輿情事件實(shí)體的分析方法的流程圖;圖2示出了本發(fā)明實(shí)施例提供的一種輿情事件實(shí)體的分析裝置的組成框圖;圖3示出了本發(fā)明實(shí)施例提供的另一種輿情事件實(shí)體的分析裝置的組成框圖。具體實(shí)施方式下面將參照附圖更詳細(xì)地描述本公開的示例性實(shí)施例。雖然附圖中顯示了本公開的示例性實(shí)施例,然而應(yīng)當(dāng)理解,可以以各種形式實(shí)現(xiàn)本公開而不應(yīng)被這里闡述的實(shí)施例所限制。相反,提供這些實(shí)施例是為了能夠更透徹地理解本公開,并且能夠?qū)⒈竟_的范圍完整的傳達(dá)給本領(lǐng)域的技術(shù)人員。本發(fā)明實(shí)施例提供一種輿情事件實(shí)體的分析方法,如圖1所示,該方法包括:101、獲取信息集合,并對(duì)所述信息集合進(jìn)行分詞。在對(duì)輿情事件實(shí)體進(jìn)行分析之前,首先,需要從互聯(lián)網(wǎng)上獲取信息集合,該些信息集合由n個(gè)句子組成,其中,n為大于0的整數(shù);所述信息集合可能來源與同一網(wǎng)站的信息;也可能是來自不同網(wǎng)站的信息。需要說明的是,在獲取信息集合時(shí),需要根據(jù)對(duì)輿情事件的實(shí)際需求去獲取信息集合,例如,若用戶是某旅游公司,其在獲取信息集合時(shí),需要獲取與旅游相關(guān)的信息集合;若用戶是某政府,其在獲取信息集合時(shí),需要獲取與時(shí)事政治有關(guān)的信息集合,而不會(huì)獲取娛樂、財(cái)經(jīng)等方面的信息集合。本發(fā)明實(shí)施例對(duì)信息集合的具體內(nèi)容不進(jìn)行限定。在獲取信息集合之后,對(duì)獲取的信息集合進(jìn)行分詞,其目的在于,將組成句子的各種詞語進(jìn)行分割,分詞確定的各種詞語被步驟103所使用。本發(fā)明實(shí)施例中,對(duì)信息集合中的每個(gè)句子進(jìn)行拆分解析,確定句子的句子結(jié)構(gòu)。在對(duì)獲取的信息集合進(jìn)行分詞時(shí),首先,獲取預(yù)設(shè)實(shí)時(shí)詞表,該預(yù)設(shè)實(shí)時(shí)詞表是基于機(jī)器學(xué)習(xí)所確定的實(shí)時(shí)詞表,且該預(yù)設(shè)實(shí)時(shí)詞表是實(shí)時(shí)更新,例如,一些新興網(wǎng)絡(luò)用語的實(shí)時(shí)更新等等;基于該預(yù)設(shè)實(shí)時(shí)詞表對(duì)獲取的信息集合進(jìn)行分詞,能夠確保對(duì)信息集合分詞的準(zhǔn)確性。102、提取分詞后的所述信息集合中的人物實(shí)體及機(jī)構(gòu)實(shí)體。信息集合中的同一個(gè)句子中可能只包含人物實(shí)體、也可能只包含機(jī)構(gòu)實(shí)體;還可能同時(shí)包含人物實(shí)體與機(jī)構(gòu)實(shí)體;將信息集合中包含的所有人物實(shí)體及機(jī)構(gòu)實(shí)體進(jìn)行提取。示例性的,同一個(gè)句子中只包含人物實(shí)體,如,“某某明星的成長(zhǎng)之路”;同一個(gè)句子中同時(shí)包含人物實(shí)體及機(jī)構(gòu)實(shí)體,如,“老年人跟團(tuán)玩,看看該選哪家旅行社”等等,本發(fā)明實(shí)施例對(duì)信息集合中包含的具體內(nèi)容不進(jìn)行限定。在實(shí)際操作時(shí),相對(duì)于漢語的語法特點(diǎn),人物實(shí)體和機(jī)構(gòu)實(shí)體一般會(huì)作為整個(gè)句子的主語或者賓語,少數(shù)情況下,會(huì)作為句子的定語,因此,在提取人物實(shí)體及機(jī)構(gòu)實(shí)體時(shí),將句子的主語組成詞語、賓語組成詞語以及定語組成詞語進(jìn)行提??;此外,人物實(shí)體和機(jī)構(gòu)實(shí)體的名稱與信息集合中的其他詞語相比,有其一定的特點(diǎn),例如:人物實(shí)體的名稱一般由兩個(gè)字到三個(gè)字或者四個(gè)字組成,其中,包括姓和名,且中國(guó)的姓氏是能夠一一列舉;機(jī)構(gòu)的名稱一般具有地域的特點(diǎn),例如:xx市人民政府、xx市旅游局等等;本發(fā)明實(shí)施例對(duì)人物實(shí)體名稱及機(jī)構(gòu)實(shí)體名稱不進(jìn)行具體限定。103、分別統(tǒng)計(jì)共同提及次數(shù)、人物實(shí)體提及次數(shù)以及機(jī)構(gòu)實(shí)體提及次數(shù)。由于信息集合中包含的句子數(shù)量較多,因此,步驟102中提取的人物實(shí)體及機(jī)構(gòu)實(shí)體的種類、數(shù)量也相對(duì)較多,為了對(duì)多種人物實(shí)體及機(jī)構(gòu)實(shí)體進(jìn)行統(tǒng)計(jì)、使用,因此,基于步驟102提取的人物實(shí)體及機(jī)構(gòu)實(shí)體,分別統(tǒng)計(jì)人物實(shí)體的提及次數(shù)、機(jī)構(gòu)實(shí)體的提及次數(shù)以及共同提及次數(shù);其中,所述共同提及次數(shù)為在同一個(gè)句子中共同提及所述人物實(shí)體與機(jī)構(gòu)實(shí)體的次數(shù)。104、根據(jù)所述共同提及次數(shù)確定所述人物實(shí)體與機(jī)構(gòu)實(shí)體之間的關(guān)聯(lián)關(guān)系。確定人物實(shí)體與機(jī)構(gòu)實(shí)體之間的關(guān)聯(lián)關(guān)系,其目的在于,分析輿情事件所涉及的人物實(shí)體和機(jī)構(gòu)實(shí)體,當(dāng)該輿情事件需要處理時(shí),能夠通過該輿情事件相關(guān)的人物實(shí)體和機(jī)構(gòu)實(shí)體對(duì)該輿情事件進(jìn)行引導(dǎo)。步驟103中統(tǒng)計(jì)的不同人物實(shí)體與機(jī)構(gòu)實(shí)體對(duì)應(yīng)的共同提及次數(shù)不同,本步驟中,將共同提及次數(shù)較多的人物實(shí)體與機(jī)構(gòu)實(shí)體確定為人物實(shí)體與機(jī)構(gòu)實(shí)體之間的關(guān)聯(lián)關(guān)系;本發(fā)明實(shí)施例中,輿情事件的不同導(dǎo)致人物實(shí)體與機(jī)構(gòu)實(shí)體的共同提及次數(shù)存在差異,而上述共同提及次數(shù)較多僅為一個(gè)相對(duì)概念,而非絕對(duì)概念;在此不對(duì)確定人物實(shí)體與機(jī)構(gòu)實(shí)體之間的關(guān)聯(lián)關(guān)所涉及的共同提及次數(shù)的具體次數(shù)進(jìn)行限定。105、根據(jù)所述人物實(shí)體提及次數(shù)和/或所述機(jī)構(gòu)實(shí)體提及次數(shù)、所述人物實(shí)體與機(jī)構(gòu)實(shí)體之間的關(guān)聯(lián)關(guān)系確定輿情事件實(shí)體及實(shí)體關(guān)系。人物實(shí)體提及次數(shù)和/或機(jī)構(gòu)實(shí)體提及次數(shù)較多的人物實(shí)體或者機(jī)構(gòu)實(shí)體,是與輿情事件最相關(guān)的輿情事件實(shí)體,因此,通過人物實(shí)體提及次數(shù)或機(jī)構(gòu)實(shí)體提及次數(shù)的次數(shù),確定輿情事件的實(shí)體;在確定出輿情事件的實(shí)體之后,通過步驟104中確定的人物實(shí)體與機(jī)構(gòu)實(shí)體確定輿情事件的實(shí)體關(guān)系。本發(fā)明實(shí)施例提供的輿情事件實(shí)體的分析方法,獲取信息集合,并對(duì)該信息集合進(jìn)行分詞,該信息集合由n個(gè)句子組成,其中,n為大于0的整數(shù);提取分詞后的信息集合中的人物實(shí)體及機(jī)構(gòu)實(shí)體,分別統(tǒng)計(jì)共同提及次數(shù)、人物實(shí)體提及次數(shù)及機(jī)構(gòu)實(shí)體提及次數(shù),該共同提及次數(shù)為在同一句子中共同提及人物實(shí)體及機(jī)構(gòu)實(shí)體的次數(shù);根據(jù)該共同提及次數(shù)確定人物實(shí)體與機(jī)構(gòu)實(shí)體之間的關(guān)聯(lián)關(guān)系,根據(jù)該人物實(shí)體提及次數(shù)和/或機(jī)構(gòu)實(shí)體提及次數(shù)、人物實(shí)體與機(jī)構(gòu)實(shí)體之間的關(guān)聯(lián)關(guān)系確定輿情事件實(shí)體及實(shí)體關(guān)系;本發(fā)明實(shí)施例能夠通過對(duì)信息集合的分析,準(zhǔn)確定位輿情事件相關(guān)的實(shí)體及實(shí)體關(guān)系,不僅能夠追溯輿情事件產(chǎn)生的原因,而且還能夠準(zhǔn)確的確定輿情事件的實(shí)體關(guān)系,能夠及時(shí)確定解決該輿情事件的最佳引導(dǎo)方式。進(jìn)一步的,作為對(duì)上述圖1所示方法的細(xì)化和擴(kuò)展,在步驟104根據(jù)所述共同提及次數(shù)確定人物實(shí)體與機(jī)構(gòu)實(shí)體之間的關(guān)聯(lián)關(guān)系時(shí),首先,確定信息集合中,同一句子中包含的人物實(shí)體和機(jī)構(gòu)實(shí)體有哪些,并獲取各個(gè)人物實(shí)體與機(jī)構(gòu)實(shí)體對(duì)應(yīng)的共同提及次數(shù),將獲取的共同提及次數(shù)進(jìn)行降序排列,獲取共同提及次數(shù)最多的人物實(shí)體與機(jī)構(gòu)實(shí)體,并確定該人物實(shí)體與機(jī)構(gòu)實(shí)體之間關(guān)聯(lián)關(guān)系。為了便于說明,以下將以示例的形式對(duì)確定人物實(shí)體與機(jī)構(gòu)實(shí)體之間的關(guān)聯(lián)關(guān)系進(jìn)行說明。示例性的,假設(shè),獲取的信息集合中,一共有5種人物實(shí)體與機(jī)構(gòu)實(shí)體同時(shí)存在于同一句子中,分別為:xx人物實(shí)體1與xx機(jī)構(gòu)實(shí)體1、xx人物實(shí)體2與xx機(jī)構(gòu)實(shí)體2、xx人物實(shí)體3與xx機(jī)構(gòu)實(shí)體3、xx人物實(shí)體4與xx機(jī)構(gòu)實(shí)體4、xx人物實(shí)體5與xx機(jī)構(gòu)實(shí)體5,獲取上述五種人物實(shí)體與機(jī)構(gòu)實(shí)體對(duì)應(yīng)的共同次數(shù)之后,對(duì)共同提及次數(shù)進(jìn)行降序排列,如圖表1所示,確定xx人物實(shí)體3與xx機(jī)構(gòu)實(shí)體3的共同提及次數(shù)最多,因此,將xx人物實(shí)體3與xx機(jī)構(gòu)實(shí)體3確定xx人物實(shí)體3與xx機(jī)構(gòu)實(shí)體3的關(guān)聯(lián)關(guān)系。需要說明的是,表1僅為示例性的舉例,本發(fā)明實(shí)施例對(duì)人物實(shí)體、機(jī)構(gòu)實(shí)體以及共同提及次數(shù)進(jìn)行降序排列的具體展示形式不進(jìn)行限定。表1序號(hào)人物實(shí)體機(jī)構(gòu)實(shí)體共同提及次數(shù)1xx人物實(shí)體3xx機(jī)構(gòu)實(shí)體312萬2xx人物實(shí)體5xx機(jī)構(gòu)實(shí)體58萬3xx人物實(shí)體2xx機(jī)構(gòu)實(shí)體20.9萬4xx人物實(shí)體1xx機(jī)構(gòu)實(shí)體10.86萬5xx人物實(shí)體4xx機(jī)構(gòu)實(shí)體40.63萬需要說明的是,在對(duì)共同提及次數(shù)進(jìn)行降序排列之后,建立人物實(shí)體與機(jī)構(gòu)實(shí)體之間的關(guān)聯(lián)關(guān)系,以便后續(xù)確定輿情事件的實(shí)體及實(shí)體關(guān)系時(shí)使用。例如:xx人物實(shí)體3-xx機(jī)構(gòu)實(shí)體3、xx人物實(shí)體5-xx機(jī)構(gòu)實(shí)體5、xx人物實(shí)體2-xx機(jī)構(gòu)實(shí)體2、xx人物實(shí)體1-xx機(jī)構(gòu)實(shí)體1、xx人物實(shí)體4-xx機(jī)構(gòu)實(shí)體4,建立的人物實(shí)體與機(jī)構(gòu)實(shí)體之間的關(guān)聯(lián)關(guān)系,既能體現(xiàn)出實(shí)體之間的關(guān)聯(lián)關(guān)系,又能體現(xiàn)出共同提及次數(shù)的排名情況。進(jìn)一步的,根據(jù)所述人物實(shí)體提及次數(shù)和/或機(jī)構(gòu)實(shí)體提及次數(shù)、人物實(shí)體與機(jī)構(gòu)實(shí)體之間的關(guān)聯(lián)關(guān)系確定輿情事件的實(shí)體及實(shí)體關(guān)系,具體實(shí)現(xiàn)過程如下:獲取人物實(shí)體提及次數(shù)及機(jī)構(gòu)實(shí)體提及次數(shù),并分別對(duì)人物實(shí)體提及次數(shù)及機(jī)構(gòu)實(shí)體提及次數(shù)進(jìn)行降序排列;確定第一最大值與第二最大值,并將第一最大值與第二最大值進(jìn)行比對(duì);其中,第一最大值為人物實(shí)體提及次數(shù)的最大值,第二最大值為機(jī)構(gòu)實(shí)體提及次數(shù)的最大值;若第一最大值大于或者等于第二最大值,則根據(jù)第一最大值對(duì)應(yīng)的人物實(shí)體確定人物實(shí)體與機(jī)構(gòu)實(shí)體之間的關(guān)聯(lián)關(guān)系;將人物實(shí)體確定為輿情事件實(shí)體,將確定的人物實(shí)體與機(jī)構(gòu)實(shí)體之間的關(guān)聯(lián)關(guān)系確定為輿情事件的實(shí)體關(guān)系;若第一最大值小于第二最大值,則根據(jù)第二最大值對(duì)應(yīng)的機(jī)構(gòu)實(shí)體確定為人物實(shí)體與機(jī)構(gòu)實(shí)體之間的關(guān)聯(lián)關(guān)系;將機(jī)構(gòu)實(shí)體確定為輿情事件實(shí)體,將確定的人物實(shí)體與機(jī)構(gòu)實(shí)體之間的關(guān)聯(lián)關(guān)系確定為輿情事件的實(shí)體關(guān)系。本發(fā)明實(shí)施例中,輿情事件的實(shí)體可能是由人物實(shí)體確定的,也可能是由機(jī)構(gòu)實(shí)體確定的,其確定輿情事件實(shí)體的依據(jù)為人物實(shí)體或者機(jī)構(gòu)實(shí)體被提及次數(shù)的最大值。示例性的,假設(shè),人物實(shí)體的提及次數(shù)為15萬,機(jī)構(gòu)實(shí)體的提及次數(shù)為21.3萬,人物實(shí)體的提及次數(shù)為15萬小于機(jī)構(gòu)實(shí)體的提及次數(shù)為21.3萬,因此,將機(jī)構(gòu)實(shí)體確定為輿情事件實(shí)體,在確定機(jī)構(gòu)實(shí)體之后,根據(jù)輿情事件實(shí)體查找步驟104確定的人物實(shí)體及機(jī)構(gòu)實(shí)體的關(guān)聯(lián)關(guān)系,并將該關(guān)聯(lián)關(guān)系涉及的人物實(shí)體與機(jī)構(gòu)實(shí)體的關(guān)聯(lián)關(guān)系,確定為輿情事件的實(shí)體關(guān)系。進(jìn)一步的,為了確保提取分詞后信息集合中人物實(shí)體與機(jī)構(gòu)實(shí)體的準(zhǔn)確性,在在提取分詞后的所述信息集合中的人物實(shí)體及機(jī)構(gòu)實(shí)體之后,獲取預(yù)設(shè)人物機(jī)構(gòu)數(shù)據(jù)庫;所述預(yù)設(shè)人物機(jī)構(gòu)數(shù)據(jù)庫用于存儲(chǔ)人物實(shí)體及機(jī)構(gòu)實(shí)體,該預(yù)設(shè)人物機(jī)構(gòu)數(shù)據(jù)庫時(shí)人工標(biāo)注的數(shù)據(jù)庫;基于所述預(yù)設(shè)人物機(jī)構(gòu)數(shù)據(jù)庫對(duì)提取的人物實(shí)體及機(jī)構(gòu)實(shí)體進(jìn)行校驗(yàn)。示例性的,若信息集合中的句子包含:“中國(guó)國(guó)家男子足球隊(duì)10月5日抵達(dá)長(zhǎng)沙備戰(zhàn)”對(duì)該句子進(jìn)行分詞為:“中國(guó)國(guó)家男子足球隊(duì)、10月5日、抵達(dá)、長(zhǎng)沙、備戰(zhàn)”,提取的人物實(shí)體為“中國(guó)國(guó)家男子足球隊(duì)”,對(duì)提取述信息集合中的人物實(shí)體及機(jī)構(gòu)實(shí)體之后,可能由于預(yù)設(shè)實(shí)時(shí)詞表更新的不及時(shí),導(dǎo)致在提取述信息集合中的人物實(shí)體及機(jī)構(gòu)實(shí)體時(shí)出現(xiàn)錯(cuò)誤,通過預(yù)設(shè)人物機(jī)構(gòu)數(shù)據(jù)庫對(duì)提取的人物實(shí)體及機(jī)構(gòu)實(shí)體進(jìn)行校驗(yàn),校驗(yàn)的人物實(shí)體為“中國(guó)國(guó)家男子足球隊(duì)、國(guó)足”。以上僅為示例性的舉例,本發(fā)明實(shí)施例對(duì)校驗(yàn)的具體內(nèi)容不進(jìn)行具體限定??蛇x的,在獲取信息集合時(shí),基于預(yù)置爬蟲程序獲取互聯(lián)網(wǎng)中的信息集合。進(jìn)一步的,作為對(duì)上述圖1所示方法的實(shí)現(xiàn),本發(fā)明另一實(shí)施例還提供了一種輿情事件實(shí)體的分析裝置。該裝置實(shí)施例與前述方法實(shí)施例對(duì)應(yīng),為便于閱讀,本裝置實(shí)施例不再對(duì)前述方法實(shí)施例中的細(xì)節(jié)內(nèi)容進(jìn)行逐一贅述,但應(yīng)當(dāng)明確,本實(shí)施例中的裝置能夠?qū)?yīng)實(shí)現(xiàn)前述方法實(shí)施例中的全部?jī)?nèi)容。本發(fā)明實(shí)施例提供一種輿情事件實(shí)體的分析裝置,如圖2所示,該裝置包括:第一獲取單元21,用于獲取信息集合;所述信息集合由n個(gè)句子組成,其中,n為大于0的整數(shù);分詞單元22,用于對(duì)所述第一獲取單元21獲取的所述信息集合進(jìn)行分詞;提取單元23,用于提取所述分詞單元22分詞后的所述信息集合中的人物實(shí)體及機(jī)構(gòu)實(shí)體;統(tǒng)計(jì)單元24,用于分別統(tǒng)計(jì)所述提取單元23提取的共同提及次數(shù)、人物實(shí)體提及次數(shù)以及機(jī)構(gòu)實(shí)體提及次數(shù),其中,所述共同提及次數(shù)為在同一個(gè)句子中共同提及所述人物實(shí)體與機(jī)構(gòu)實(shí)體的次數(shù);第一確定單元25,用于根據(jù)所述統(tǒng)計(jì)單元24統(tǒng)計(jì)的所述共同提及次數(shù)確定人物實(shí)體與機(jī)構(gòu)實(shí)體之間的關(guān)聯(lián)關(guān)系;第二確定單元26,用于根據(jù)所述統(tǒng)計(jì)單元25統(tǒng)計(jì)的所述人物實(shí)體提及次數(shù)和/或所述機(jī)構(gòu)實(shí)體提及次數(shù)、所述第一確定單元確定的所述人物實(shí)體與機(jī)構(gòu)實(shí)體之間的關(guān)聯(lián)關(guān)系確定輿情事件實(shí)體及實(shí)體關(guān)系。進(jìn)一步的,如圖3所示,所述第一確定單元25包括:獲取模塊251,用于獲取不同人物實(shí)體與機(jī)構(gòu)實(shí)體對(duì)應(yīng)的共同提及次數(shù);排列模塊252,用于對(duì)所述獲取模塊251獲取的所述共同提及次數(shù)進(jìn)行降序排列;第一確定模塊253,用于確定所述排列模塊252排列的所述共同提及次數(shù)最多的人物實(shí)體與機(jī)構(gòu)實(shí)體;第二確定模塊254,用于確定所述第一確定模塊253確定的所述共同提及次數(shù)最多的人物實(shí)體與機(jī)構(gòu)實(shí)體為所述人物實(shí)體與機(jī)構(gòu)實(shí)體之間的關(guān)聯(lián)關(guān)系。進(jìn)一步的,如圖3所示,所述第二確定單元26包括:獲取模塊261,用于獲取所述人物實(shí)體提及次數(shù)及機(jī)構(gòu)實(shí)體提及次數(shù);排列模塊262,用于分別對(duì)所述獲取模塊261獲取的所述人物實(shí)體提及次數(shù)及機(jī)構(gòu)實(shí)體提及次數(shù)進(jìn)行降序排列;第一確定模塊263,用于根據(jù)所述排列模塊262分別對(duì)所述人物實(shí)體提及次數(shù)及機(jī)構(gòu)實(shí)體提及次數(shù)進(jìn)行降序排列,確定第一最大值與第二最大值;比對(duì)模塊264,用于將所述第一確定模塊263確定的所述第一最大值與所述第二最大值進(jìn)行比對(duì);其中,所述第一最大值為所述人物實(shí)體提及次數(shù)的最大值,所述第二最大值為所述機(jī)構(gòu)實(shí)體提及次數(shù)的最大值;第二確定模塊265,用于當(dāng)所述比對(duì)模塊264比對(duì)的所述第一最大值大于或者等于所述第二最大值時(shí),根據(jù)所述第一最大值對(duì)應(yīng)的所述人物實(shí)體確定所述人物實(shí)體與機(jī)構(gòu)實(shí)體之間的關(guān)聯(lián)關(guān)系;第三確定模塊266,用于將所述人物實(shí)體確定為所述輿情事件實(shí)體,將所述第二確定模塊265確定的所述人物實(shí)體與機(jī)構(gòu)實(shí)體之間的關(guān)聯(lián)關(guān)系確定為所述輿情事件的實(shí)體關(guān)系。進(jìn)一步的,如圖3所示,所述第二確定單元26還包括:第四確定模塊267,用于當(dāng)所述比對(duì)模塊264比對(duì)的所述第一最大值小于所述第二最大值時(shí),根據(jù)所述第二最大值對(duì)應(yīng)的所述機(jī)構(gòu)實(shí)體確定為所述人物實(shí)體與機(jī)構(gòu)實(shí)體之間的關(guān)聯(lián)關(guān)系;第五確定模塊268,用于將所述機(jī)構(gòu)實(shí)體確定為所述輿情事件實(shí)體,將所述第四確定模塊267確定的所述人物實(shí)體與機(jī)構(gòu)實(shí)體之間的關(guān)聯(lián)關(guān)系確定為所述輿情事件的實(shí)體關(guān)系。進(jìn)一步的,如圖3所示,所述裝置還包括:第二獲取單元27,用于在所述提取單元23提取分詞后的所述信息集合中的人物實(shí)體及機(jī)構(gòu)實(shí)體之后,獲取預(yù)設(shè)人物機(jī)構(gòu)數(shù)據(jù)庫;所述預(yù)設(shè)人物機(jī)構(gòu)數(shù)據(jù)庫用于存儲(chǔ)人物實(shí)體及機(jī)構(gòu)實(shí)體;校驗(yàn)單元28,用于基于所述第二獲取單元27獲取的所述預(yù)設(shè)人物機(jī)構(gòu)數(shù)據(jù)庫對(duì)提取的人物實(shí)體及機(jī)構(gòu)實(shí)體進(jìn)行校驗(yàn)。本發(fā)明實(shí)施例提供的輿情事件實(shí)體的分析裝置,獲取信息集合,并對(duì)該信息集合進(jìn)行分詞,該信息集合由n個(gè)句子組成,其中,n為大于0的整數(shù);提取分詞后的信息集合中的人物實(shí)體及機(jī)構(gòu)實(shí)體,分別統(tǒng)計(jì)共同提及次數(shù)、人物實(shí)體提及次數(shù)及機(jī)構(gòu)實(shí)體提及次數(shù),該共同提及次數(shù)為在同一句子中共同提及人物實(shí)體及機(jī)構(gòu)實(shí)體的次數(shù);根據(jù)該共同提及次數(shù)確定人物實(shí)體與機(jī)構(gòu)實(shí)體之間的關(guān)聯(lián)關(guān)系,根據(jù)該人物實(shí)體提及次數(shù)和/或機(jī)構(gòu)實(shí)體提及次數(shù)、人物實(shí)體與機(jī)構(gòu)實(shí)體之間的關(guān)聯(lián)關(guān)系確定輿情事件實(shí)體及實(shí)體關(guān)系;本發(fā)明實(shí)施例能夠通過對(duì)信息集合的分析,準(zhǔn)確定位輿情事件相關(guān)的實(shí)體及實(shí)體關(guān)系,不僅能夠追溯輿情事件產(chǎn)生的原因,而且還能夠準(zhǔn)確的確定輿情事件的實(shí)體關(guān)系,能夠及時(shí)確定解決該輿情事件的最佳引導(dǎo)方式。所述輿情事件實(shí)體的分析裝置包括處理器和存儲(chǔ)器,上述第一獲取單元、分詞單元、提取單元、統(tǒng)計(jì)單元、第一確定單元和第二確定單元等均作為程序單元存儲(chǔ)在存儲(chǔ)器中,由處理器執(zhí)行存儲(chǔ)在存儲(chǔ)器中的上述程序單元來實(shí)現(xiàn)相應(yīng)的功能。處理器中包含內(nèi)核,由內(nèi)核去存儲(chǔ)器中調(diào)取相應(yīng)的程序單元。內(nèi)核可以設(shè)置一個(gè)或以上,通過調(diào)整內(nèi)核參數(shù)來解決輿情監(jiān)控系統(tǒng)不能準(zhǔn)確分析出該輿情事件所涉及的人物和機(jī)構(gòu),導(dǎo)致用戶不能通過輿情監(jiān)控系統(tǒng)準(zhǔn)確定位輿情事件產(chǎn)生的源頭,從而導(dǎo)致不能及時(shí)確定解決該輿情事件的最佳引導(dǎo)方式的問題。存儲(chǔ)器可能包括計(jì)算機(jī)可讀介質(zhì)中的非永久性存儲(chǔ)器,隨機(jī)存取存儲(chǔ)器(ram)和/或非易失性內(nèi)存等形式,如只讀存儲(chǔ)器(rom)或閃存(flashram),存儲(chǔ)器包括至少一個(gè)存儲(chǔ)芯片。本申請(qǐng)還提供了一種計(jì)算機(jī)程序產(chǎn)品,當(dāng)在數(shù)據(jù)處理設(shè)備上執(zhí)行時(shí),適于執(zhí)行初始化有如下方法步驟的程序代碼:獲取信息集合,并對(duì)所述信息集合進(jìn)行分詞;所述信息集合由n個(gè)句子組成,其中,n為大于0的整數(shù);提取分詞后的所述信息集合中的人物實(shí)體及機(jī)構(gòu)實(shí)體;分別統(tǒng)計(jì)共同提及次數(shù)、人物實(shí)體提及次數(shù)以及機(jī)構(gòu)實(shí)體提及次數(shù),其中,所述共同提及次數(shù)為在同一個(gè)句子中共同提及所述人物實(shí)體與機(jī)構(gòu)實(shí)體的次數(shù);根據(jù)所述共同提及次數(shù)確定人物實(shí)體與機(jī)構(gòu)實(shí)體之間的關(guān)聯(lián)關(guān)系;根據(jù)所述人物實(shí)體提及次數(shù)和/或機(jī)構(gòu)實(shí)體提及次數(shù)、人物實(shí)體與機(jī)構(gòu)實(shí)體之間的關(guān)聯(lián)關(guān)系確定輿情事件實(shí)體及實(shí)體關(guān)系。在本發(fā)明的上述實(shí)施例中,對(duì)各個(gè)實(shí)施例的描述都各有側(cè)重,某個(gè)實(shí)施例中沒有詳述的部分,可以參見其他實(shí)施例的相關(guān)描述。本領(lǐng)域內(nèi)的技術(shù)人員應(yīng)明白,本申請(qǐng)的實(shí)施例可提供為方法、系統(tǒng)、或計(jì)算機(jī)程序產(chǎn)品。因此,本申請(qǐng)可采用完全硬件實(shí)施例、完全軟件實(shí)施例、或結(jié)合軟件和硬件方面的實(shí)施例的形式。而且,本申請(qǐng)可采用在一個(gè)或多個(gè)其中包含有計(jì)算機(jī)可用程序代碼的計(jì)算機(jī)可用存儲(chǔ)介質(zhì)(包括但不限于磁盤存儲(chǔ)器、cd-rom、光學(xué)存儲(chǔ)器等)上實(shí)施的計(jì)算機(jī)程序產(chǎn)品的形式。本申請(qǐng)是參照根據(jù)本申請(qǐng)實(shí)施例的方法、設(shè)備(系統(tǒng))、和計(jì)算機(jī)程序產(chǎn)品的流程圖和/或方框圖來描述的。應(yīng)理解可由計(jì)算機(jī)程序指令實(shí)現(xiàn)流程圖和/或方框圖中的每一流程和/或方框、以及流程圖和/或方框圖中的流程和/或方框的結(jié)合。可提供這些計(jì)算機(jī)程序指令到通用計(jì)算機(jī)、專用計(jì)算機(jī)、嵌入式處理機(jī)或其他可編程數(shù)據(jù)處理設(shè)備的處理器以產(chǎn)生一個(gè)機(jī)器,使得通過計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備的處理器執(zhí)行的指令產(chǎn)生用于實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能的裝置。這些計(jì)算機(jī)程序指令也可存儲(chǔ)在能引導(dǎo)計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備以特定方式工作的計(jì)算機(jī)可讀存儲(chǔ)器中,使得存儲(chǔ)在該計(jì)算機(jī)可讀存儲(chǔ)器中的指令產(chǎn)生包括指令裝置的制造品,該指令裝置實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能。這些計(jì)算機(jī)程序指令也可裝載到計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備上,使得在計(jì)算機(jī)或其他可編程設(shè)備上執(zhí)行一系列操作步驟以產(chǎn)生計(jì)算機(jī)實(shí)現(xiàn)的處理,從而在計(jì)算機(jī)或其他可編程設(shè)備上執(zhí)行的指令提供用于實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能的步驟。在一個(gè)典型的配置中,計(jì)算設(shè)備包括一個(gè)或多個(gè)處理器(cpu)、輸入/輸出接口、網(wǎng)絡(luò)接口和內(nèi)存。存儲(chǔ)器可能包括計(jì)算機(jī)可讀介質(zhì)中的非永久性存儲(chǔ)器,隨機(jī)存取存儲(chǔ)器(ram)和/或非易失性內(nèi)存等形式,如只讀存儲(chǔ)器(rom)或閃存(flashram)。存儲(chǔ)器是計(jì)算機(jī)可讀介質(zhì)的示例。計(jì)算機(jī)可讀介質(zhì)包括永久性和非永久性、可移動(dòng)和非可移動(dòng)媒體可以由任何方法或技術(shù)來實(shí)現(xiàn)信息存儲(chǔ)。信息可以是計(jì)算機(jī)可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序的模塊或其他數(shù)據(jù)。計(jì)算機(jī)的存儲(chǔ)介質(zhì)的例子包括,但不限于相變內(nèi)存(pram)、靜態(tài)隨機(jī)存取存儲(chǔ)器(sram)、動(dòng)態(tài)隨機(jī)存取存儲(chǔ)器(dram)、其他類型的隨機(jī)存取存儲(chǔ)器(ram)、只讀存儲(chǔ)器(rom)、電可擦除可編程只讀存儲(chǔ)器(eeprom)、快閃記憶體或其他內(nèi)存技術(shù)、只讀光盤只讀存儲(chǔ)器(cd-rom)、數(shù)字多功能光盤(dvd)或其他光學(xué)存儲(chǔ)、磁盒式磁帶,磁帶磁磁盤存儲(chǔ)或其他磁性存儲(chǔ)設(shè)備或任何其他非傳輸介質(zhì),可用于存儲(chǔ)可以被計(jì)算設(shè)備訪問的信息。按照本文中的界定,計(jì)算機(jī)可讀介質(zhì)不包括暫存電腦可讀媒體(transitorymedia),如調(diào)制的數(shù)據(jù)信號(hào)和載波。還需要說明的是,術(shù)語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、商品或者設(shè)備不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、商品或者設(shè)備所固有的要素。在沒有更多限制的情況下,由語句“包括一個(gè)……”限定的要素,并不排除在包括要素的過程、方法、商品或者設(shè)備中還存在另外的相同要素。本領(lǐng)域技術(shù)人員應(yīng)明白,本申請(qǐng)的實(shí)施例可提供為方法、系統(tǒng)或計(jì)算機(jī)程序產(chǎn)品。因此,本申請(qǐng)可采用完全硬件實(shí)施例、完全軟件實(shí)施例或結(jié)合軟件和硬件方面的實(shí)施例的形式。而且,本申請(qǐng)可采用在一個(gè)或多個(gè)其中包含有計(jì)算機(jī)可用程序代碼的計(jì)算機(jī)可用存儲(chǔ)介質(zhì)(包括但不限于磁盤存儲(chǔ)器、cd-rom、光學(xué)存儲(chǔ)器等)上實(shí)施的計(jì)算機(jī)程序產(chǎn)品的形式。以上僅為本申請(qǐng)的實(shí)施例而已,并不用于限制本申請(qǐng)。對(duì)于本領(lǐng)域技術(shù)人員來說,本申請(qǐng)可以有各種更改和變化。凡在本申請(qǐng)的精神和原理之內(nèi)所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本申請(qǐng)的權(quán)利要求范圍之內(nèi)。當(dāng)前第1頁12