本發(fā)明屬于眾源網(wǎng)絡(luò)數(shù)據(jù)應(yīng)用于公共安全事件管理、監(jiān)控、預(yù)警、應(yīng)急響應(yīng)領(lǐng)域,特別涉及一種面向公共安全事件信息獲取的時空聚類方法。
背景技術(shù):
隨著全國經(jīng)濟的高速發(fā)展以及全國城鎮(zhèn)化的不斷推進,越來越多的人口集中到城市中來。城市人口數(shù)據(jù)量的急劇增長為城市公共管理造成了一定的麻煩。目前,城市各類公共事件的管理主要有政府部門負責,包括有城管部門、警察機關(guān)、消防機關(guān)、醫(yī)療部門、防災(zāi)減災(zāi)中心、災(zāi)難應(yīng)變指揮中心等(朱武雄,2010;徐志勝等,2005;),這些政府機構(gòu)為城市公民的生活以及生命財產(chǎn)提供了一道有效的安全屏障。然而,由于城市每天發(fā)生公共事件數(shù)量龐大,政府相關(guān)部門人力物力資源缺少,再加之各部門之間協(xié)調(diào)存在一定困難,導(dǎo)致部分公共事件得不到有效的處理。
近年來,隨著互聯(lián)網(wǎng)和移動便攜技術(shù)的發(fā)展,使越來越多的城市公民能隨手分享身邊的事情,這為普通大眾參與到公共安全事件的管理提供了可能。事實上,根據(jù)相關(guān)研究學者的調(diào)查顯示,正處于轉(zhuǎn)型期的中國社會也迫切渴望普通群眾能夠參與到公共安全事件的管理(王瑩等,2015;徐琳,2014;鎖利銘,2014;),一方面,公眾參與能體現(xiàn)出普通公民在城市日常事物管理中的參與、決策作用,發(fā)揮出公民的主體性,另一方面,城市公共管理需要公眾的積極參與,以彌補當前信息、資源的不足??偠灾?,公眾參與既是城市公共管理的發(fā)展趨勢,又是當前情勢下的迫切需要。目前,公眾參與到公共安全事件管理的方式主要是通過網(wǎng)絡(luò)社交媒體發(fā)表身邊的一些事件信息或者對某些事件的看法,收集這些數(shù)據(jù)并加以提取分析,可以獲取大量事件相關(guān)信息,進而應(yīng)用于公共安全事件的管理,提高事件處理效率,使事件管理走向智慧化(張婭楠,2014;rossc等,2011;)。
以新浪微博為例,新浪微博作為中國最大的網(wǎng)絡(luò)社交平臺,日平均活躍用戶上億,已成為公眾參與公共安全管理的一個重要平臺,每天都有眾多的用戶通過微博平臺上傳有關(guān)公共安全事件管理的微博數(shù)據(jù),例如,2015年5月中旬長沙市連續(xù)下降暴雨,在政府相關(guān)機構(gòu)快速發(fā)布暴雨預(yù)警并開展其他防洪防澇工作的同時,新浪微博平臺上已有1840000多條相關(guān)數(shù)據(jù),其內(nèi)容中包括救援信息、災(zāi)情信息、災(zāi)情預(yù)警信息等,收集整理這些數(shù)據(jù),挖掘出其中有用的信息,將輔助工作人員進行決策,并幫助減災(zāi)工作的快速、有效進行;又如,2014年浙江奉化塌樓事件,公眾紛紛在互聯(lián)網(wǎng)上對政府處理結(jié)果發(fā)表意見,人民網(wǎng)的輿情分析師提取了這些數(shù)據(jù)并分析,將公眾意見數(shù)據(jù)進行處理,得到公眾這對此次公共安全事件處理結(jié)果傾向態(tài)度,為后續(xù)的事件處理提供了參考,避免事件處理不當引起民憤;又如,2014年云南魯?shù)榘l(fā)生地震,互聯(lián)網(wǎng)上不斷有公眾上傳災(zāi)區(qū)情況,包括救援物資發(fā)放情況,重點受災(zāi)區(qū)域情況等,一些救災(zāi)工作人員搜集網(wǎng)上的救災(zāi)數(shù)據(jù),并整理分析后提取出數(shù)據(jù)中的救助信息,這些信息不僅幫助受災(zāi)人員及時了解救援情況,而且有利于災(zāi)區(qū)施救人員全面了解災(zāi)情情況,推動了救災(zāi)的快速進行。
然而,根據(jù)調(diào)查研究顯示,目前公眾在網(wǎng)絡(luò)平臺中產(chǎn)生的數(shù)據(jù)主要被應(yīng)用于公共事件發(fā)生后的輿情監(jiān)控與分析領(lǐng)域,在公共安全事件管理、監(jiān)控、預(yù)警以及應(yīng)急響應(yīng)等領(lǐng)域相應(yīng)的理論和方法較少,并鮮有應(yīng)用。
技術(shù)實現(xiàn)要素:
針對當前公共安全事件處置過程中,存在數(shù)據(jù)獲取不及時、信息源較少等問題,本發(fā)明結(jié)合網(wǎng)絡(luò)眾源數(shù)據(jù)的特點,提出了一種面向公共安全事件信息獲取的時空聚類方法,并將其應(yīng)用于公共安全事件管理中,旨在充分發(fā)揮網(wǎng)絡(luò)眾源數(shù)據(jù)的作用,提高公共安全事件處置效率。
為了實現(xiàn)上述技術(shù)目的,本發(fā)明的技術(shù)方案是,一種面向公共安全事件信息獲取的時空聚類方法,包括以下步驟:
步驟1:獲取與突發(fā)公共安全事件有關(guān)的社交媒體數(shù)據(jù),并將數(shù)據(jù)存入數(shù)據(jù)緩存區(qū)a中;
步驟2:遍歷數(shù)據(jù)緩存區(qū)a中的每條數(shù)據(jù),利用基于條件隨機場模型的中文切詞算法,將每條數(shù)據(jù)切成若干詞匯的集合;再從中抽取數(shù)據(jù)的時間、位置、事件類型和事件等級屬性,并將數(shù)據(jù)規(guī)則化為<時間,位置,事件類型,事件等級>4元組;將規(guī)則化數(shù)據(jù)存入數(shù)據(jù)緩存區(qū)b;
步驟3:根據(jù)該突發(fā)公共安全事件的自身信息,提取該突發(fā)公共安全事件的發(fā)生時間、發(fā)生位置和事件類型以建立公共安全事件的時空聚類的核信息,并以<時間,位置,事件類型>3元組作為時空聚類的核信息;
步驟4:遍歷緩存區(qū)b中的數(shù)據(jù),分別計算每條數(shù)據(jù)到核信息的時間距離、空間距離和文本距離,將3種距離均小于給定閾值的數(shù)據(jù),歸入候選結(jié)果數(shù)據(jù)集合c;然后根據(jù)集合c中的事件等級屬性,將數(shù)據(jù)分成若干簇,完成時空聚類;
步驟5:根據(jù)聚類結(jié)果的時空特征,將其疊加到地圖上,展現(xiàn)事件在時間、空間上的發(fā)展過程。
所述的方法,步驟1中獲得與突發(fā)公共安全事件有關(guān)的社交媒體數(shù)據(jù),包括以下步驟:根據(jù)該突發(fā)的公共安全事件分類,利用社交網(wǎng)站提供的api函數(shù),輸入事件關(guān)鍵詞、時間范圍和事件發(fā)生的地點,獲取與該事件有關(guān)的社交媒體數(shù)據(jù)。
所述的方法,步驟2所述的數(shù)據(jù)規(guī)則化包括以下步驟:
(1)遍歷緩存區(qū)a中的每條數(shù)據(jù),利用基于條件隨機場模型的切詞算法,對該條數(shù)據(jù)進行分詞處理,將每條數(shù)據(jù)切成若干詞匯的集合;
(2)遍歷每條數(shù)據(jù)的詞匯集合,利用時間抽取算法,確定每條數(shù)據(jù)的時間屬性;
(3)遍歷每條數(shù)據(jù)的詞匯集合,利用位置抽取算法,確定每條數(shù)據(jù)的位置屬性;
(4)遍歷每條數(shù)據(jù)的詞匯集合,利用規(guī)則歸并算法,確定每條數(shù)據(jù)的事件類型和等級;
(5)根據(jù)(2)~(4)過程確定的屬性信息,將每條數(shù)據(jù)規(guī)則化為<時間,地點,事件類型,事件等級>4元組,即使用該4元組概化每條數(shù)據(jù);
(6)將規(guī)則化的數(shù)據(jù)條目存入數(shù)據(jù)緩存區(qū)b。
所述的一種面向公共安全事件信息獲取的時空聚類方法,所述的步驟4包括以下處理步驟:
(1)設(shè)定聚類的時間距離、空間距離和文本距離3個距離閾值;
(2)遍歷緩存區(qū)b的數(shù)據(jù),剔除所有與核信息事件類型不相同的數(shù)據(jù);
(3)遍歷清理后的緩存區(qū)b,計算該條數(shù)據(jù)與核信息的時間距離、空間距離和文本距離,當三種距離均小于給定的對應(yīng)距離閾值時,該條數(shù)據(jù)歸入事件數(shù)據(jù)集合c;
(4)遍歷集合c,依據(jù)每條數(shù)據(jù)元組的事件等級,將集合c劃分成不同等級的數(shù)據(jù)簇,完成時空聚類。
所述的一種面向公共安全事件信息獲取的時空聚類方法,步驟1中所述的公共安全事件是指突發(fā)的自然災(zāi)害、重特大事故、環(huán)境公害和人為破壞。
所述的一種面向公共安全事件信息獲取的時空聚類方法,所述的api函數(shù)是指網(wǎng)絡(luò)社交網(wǎng)站發(fā)布的用于獲取網(wǎng)絡(luò)社交數(shù)據(jù)的應(yīng)用開發(fā)接口函數(shù),用于依據(jù)關(guān)鍵詞、時間范圍、地理范圍獲取實時的網(wǎng)絡(luò)社交數(shù)據(jù)。
中所述的一種面向公共安全事件信息獲取的時空聚類方法,步驟2中所述的中文切詞方法是指基于條件隨機場模型的中文分詞算法,利用條件隨機場模型將句子、段落切分成若干詞匯的集合后并標注每個詞匯的詞性,以提取文本中的關(guān)鍵信息。
中所述的一種面向公共安全事件信息獲取的時空聚類方法,步驟3和4中所述的時空聚類核信息是指數(shù)據(jù)聚類的基準信息,用于通過計算數(shù)據(jù)與核信息的距離,確定是否歸入聚類結(jié)果集;
所述的時間距離是指發(fā)表數(shù)據(jù)包含的時間與核信息設(shè)定時間的時間差;
所述的空間距離是指數(shù)據(jù)描述的空間位置與核信息設(shè)定位置的空間平面距離;
所述的文本距離是指文本的內(nèi)容相似程度,通過主題模型計算得到0~1之間的相似度數(shù)值,數(shù)值越靠近1,表示文本越相似,文本距離越近,否則本距離越遠。
中所述的一種面向公共安全事件信息獲取的時空聚類方法,所述的步驟2中,所述的時間抽取算法是指根據(jù)文本切分詞條的詞性標注,提取出被標注為時間詞性的詞條;然后根據(jù)時間詞條的詞意,將文本時間轉(zhuǎn)換為標準時間的格式;
所述的位置抽取算法是指根據(jù)文本切分詞條的詞性標注,抽取出被標注為地名的詞條;然后利用公知的地理編碼服務(wù)將地名轉(zhuǎn)換為經(jīng)緯度的數(shù)據(jù)格式;
所述的規(guī)則歸并算法是指利用語法分析算法,分析文本數(shù)據(jù)的成分構(gòu)成,并根據(jù)依存關(guān)系,提取核心謂語后面的數(shù)據(jù)作為事件描述內(nèi)容;然后建立事件類型詞典,根據(jù)詞典匹配算法,判斷事件描述中所屬的類型;最后建立語氣助詞的字典和事件等級分類規(guī)則,根據(jù)詞典匹配算法,判斷數(shù)據(jù)中的事件類型和分級。
本發(fā)明的技術(shù)效果在于,城市公共管理涉及范圍廣,事件類型繁多,處理過程復(fù)雜,人力物力耗費巨大。本發(fā)明結(jié)合互聯(lián)網(wǎng)社交平臺發(fā)展和應(yīng)用的特點,提出了從網(wǎng)絡(luò)社交數(shù)據(jù)中抽取與公共安全事件有關(guān)信息的方法,具有以下幾個優(yōu)點:
(1)利用網(wǎng)絡(luò)社交數(shù)據(jù),實現(xiàn)了面向公共安全事件的數(shù)據(jù)獲取與分析方法,能使普通公民發(fā)布的信息用于公共安全事件的管理和處置,提高公共安全事件的處置效率。
(2)利用文本處理方法,提取出數(shù)據(jù)中的時間、空間和事件描述信息;進而,利用時間提取算法,確定數(shù)據(jù)包含的時空信息;然后,利用基于三重距離的時空聚類算法,實現(xiàn)了信息的提取/聚類,能有效提高信息獲取和分類效率。
(3)根據(jù)時空聚類結(jié)果的時空、空間和事件等級信息,將結(jié)果疊加到地圖上,從空間、時間維度上展現(xiàn)事件的發(fā)展變化過程。
采用本發(fā)明,能夠?qū)崿F(xiàn)公共安全事件的智慧化管理,能實時地從網(wǎng)絡(luò)社交媒體數(shù)據(jù)中獲取事件有關(guān)的動態(tài)和輿論走向,有效提高公共安全事件的管理效率和民眾滿意度。
附圖說明
圖1為本發(fā)明的流程示意圖;
圖2為本發(fā)明的原理結(jié)構(gòu)圖;
圖3為網(wǎng)絡(luò)文本數(shù)據(jù)獲取流程圖;
圖4為文本數(shù)據(jù)中的時空、事件信息提取流程;
圖5為三重距離聚類算法流程圖。
具體實施方式
下面結(jié)合附圖和具體實施方式對本發(fā)明做進一步說明。
本發(fā)明的簡要步驟參見圖1,包括:
(1)根據(jù)公共安全事件特征,確定要搜索數(shù)據(jù)的關(guān)鍵詞、時間范圍和地理空間范圍,利用網(wǎng)絡(luò)社交平臺提供的api函數(shù),獲取實時數(shù)據(jù)。
(2)利用中文切詞算法,將獲取的數(shù)據(jù)逐條進行分詞;根據(jù)分詞結(jié)果,抽取數(shù)據(jù)的時間、位置、事件類型、事件等級等屬性信息,進而將數(shù)據(jù)規(guī)則化為<時間,地點,事件類型,事件等級>的4元組。
(3)根據(jù)選擇的事件類型以及輸入的事件發(fā)生時間、位置,確定時空聚類的初始信息,記作核信息。
(4)計算規(guī)則化數(shù)據(jù)與核信息之間的時間、空間、文本距離,將三種距離均小于給定閾值的數(shù)據(jù)歸入結(jié)果集;進而根據(jù)結(jié)果集中每條數(shù)據(jù)的事件等級,劃分為若干簇,完成時空聚類。
(5)結(jié)合地理信息的可視化功能,將時空聚類結(jié)果展示在地圖上。
本發(fā)明的處理過程包括網(wǎng)絡(luò)文本數(shù)據(jù)獲取、數(shù)據(jù)中時空信息提取、事件類型及分級信息抽取取,以及基于三重距離的文本聚類、聚類結(jié)果可視化等過程,原理如圖2所示。具體處理過程包括以下幾個步驟:
步驟1:根據(jù)突發(fā)的公共安全事件分類,輸入事件關(guān)鍵詞、時間范圍和事件發(fā)生的地點,利用網(wǎng)絡(luò)社交平臺提供的api函數(shù),獲取與該事件有關(guān)的網(wǎng)絡(luò)社交眾源數(shù)據(jù),并將數(shù)據(jù)存入數(shù)據(jù)緩存區(qū)a中。
步驟2:規(guī)則化緩存區(qū)a中的數(shù)據(jù),以下從6個方面闡述規(guī)則化過程:
(1)遍歷緩存區(qū)a中的每條數(shù)據(jù),利用基于條件隨機場的切詞算法對該條數(shù)據(jù)進行分詞處理,將每條數(shù)據(jù)切成若干詞匯的集合。
(2)遍歷每條數(shù)據(jù)的詞匯集合,利用時間抽取算法,確定每條數(shù)據(jù)的時間屬性。
(3)遍歷每條數(shù)據(jù)的詞匯集合,利用地點抽取算法,確定每條數(shù)據(jù)的位置屬性。
(4)遍歷每條數(shù)據(jù)的詞匯集合,利用規(guī)則歸并算法,確定每條數(shù)據(jù)的事件類型和等級。
(5)根據(jù)(2)~(4)過程確定的屬性信息,將每條數(shù)據(jù)規(guī)則化為<時間,地點,事件類型,事件等級>4元組,即使用該4元組概化每條數(shù)據(jù)。
(6)將規(guī)則化的數(shù)據(jù)條目存入數(shù)據(jù)緩存區(qū)b。
步驟3:建立公共安全事件的時空聚類的核信息,該信息包括公共安全事件的類型、發(fā)生時間、發(fā)生位置,從而將核信息表述為<時間,地點,事件類型>3元組。
步驟4:依據(jù)時空聚類規(guī)則,利用三重距離聚類算法,完成面向公共安全事件的時空聚類。以下從4方面描述該步驟:
(1)設(shè)定聚類的時間距離、空間距離、文本距離等3個距離閾值。
(2)遍歷緩存區(qū)b的數(shù)據(jù),剔除所有與核信息事件類型不相同的數(shù)據(jù)。
(3)遍歷清理后的緩存區(qū)b,計算該條數(shù)據(jù)與核信息的時間距離、空間距離和文本距離,當且僅當三種距離均小于給定的對應(yīng)距離閾值時,該條數(shù)據(jù)歸入候選結(jié)果集合c。
(4)遍歷集合c,依據(jù)每條數(shù)據(jù)元組的事件等級,將集合c劃分成不同等級的數(shù)據(jù)簇,完成時空聚類。
步驟5:根據(jù)聚類結(jié)果的時空特征,將其疊加到地圖上,展現(xiàn)事件在時間、空間上的發(fā)展過程。
如圖2所示,本發(fā)明主要包括三個環(huán)節(jié):(1)獲取公共安全事件相關(guān)的網(wǎng)絡(luò)數(shù)據(jù);(2)提取數(shù)據(jù)中的時空及事件信息;(3)建立公共事件的核信息,利用三重距離聚類算法,完成面向公共安全事件的時空聚類,并將聚類結(jié)果可視化。
下面按三個環(huán)節(jié)分別闡述實施過程,下列環(huán)節(jié)中a表示網(wǎng)絡(luò)文本數(shù)據(jù)存儲數(shù)據(jù)庫,b表示提取后的信息存儲數(shù)據(jù)庫:
公共安全事件相關(guān)的網(wǎng)絡(luò)社交數(shù)據(jù)獲?。?/p>
在公共安全事件發(fā)生后,利用本發(fā)明軟件提供的數(shù)據(jù)下載程序,結(jié)合事件的關(guān)鍵詞、時間范圍和地理范圍,可以快速下載與事件相關(guān)的網(wǎng)絡(luò)社交數(shù)據(jù)。首先,輸入事件關(guān)鍵詞、發(fā)生的時間范圍和地點,系統(tǒng)自動生成數(shù)據(jù)搜索參數(shù);然后,選擇網(wǎng)絡(luò)社交平臺,系統(tǒng)調(diào)用網(wǎng)絡(luò)社交平臺提供的api函數(shù),自動將下載數(shù)據(jù)并存入數(shù)據(jù)庫a。實現(xiàn)流程如圖3所示。
本實施例中利用html5+javascript程序語言,結(jié)合第三方網(wǎng)絡(luò)社交平臺提供的數(shù)據(jù)訪問api函數(shù),可實現(xiàn)基于web的數(shù)據(jù)下載。
數(shù)據(jù)中時空及事件信息的提?。?/p>
利用基于條件隨機場的中文分詞算法,將文本數(shù)據(jù)切分成若干詞組,并標注每個詞匯的詞性。根據(jù)詞性標注結(jié)果,提取被標注為時間類型的詞詞,根據(jù)時間詞典和轉(zhuǎn)換規(guī)則,將其轉(zhuǎn)換成標準的“yyyy-mm-ddhh:mm:ss”的時間格式;提取被標注為地名/位置類型的詞組,利用地理編碼算法,將地名/位置轉(zhuǎn)換成地理坐標;利用依存句法分析算法,提取出文本數(shù)據(jù)中的事件描述信息,根據(jù)事件類型詞典和事件等級劃分規(guī)則,確定事件類型和事件的等級;最后,將提取出來的時間、空間以、事件類型和分級存入數(shù)據(jù)庫b。實現(xiàn)流程如圖4所示。
本實施例基于開源的中文分詞程序hanlp,使用eclipse和tomcat集成開發(fā)環(huán)境,能夠基于網(wǎng)絡(luò)社交文本數(shù)據(jù)對時空及事件信息進行提取,實現(xiàn)了文本數(shù)據(jù)的切分、信息的自動提取、信息存儲等功能。
利用三重距離實現(xiàn)信息聚類和結(jié)果可視化:
首先,給定公共安全事件的核信息,包括事件的時間、地點和事件類型,選擇聚類的時間距、空間和文本距離閾值;然后,計算數(shù)據(jù)庫b的每條記錄與核信息的時間距離、空間距離和文本距離;最后,將三個距離都小于給定閾值的信息放入到一個候選結(jié)果中;最后,根據(jù)候選結(jié)果的事件分級,將候選結(jié)果劃分成若干簇,完成時空聚類。
聚類結(jié)束后,利用網(wǎng)絡(luò)地圖,將聚類結(jié)果分時間維度,利用熱力圖、密度圖等形式展示在地圖上。實現(xiàn)流程如圖5所示。
本實施例使用javascript開發(fā)語言,實現(xiàn)了基于三重距離的時空聚類算法,進而利用百度地圖javascriptapi,實現(xiàn)了文本信息聚類結(jié)果的可視化。
應(yīng)該說明的是,以上實施方法僅用來說明本發(fā)明的技術(shù)方案而非限制。對于本發(fā)明所屬技術(shù)領(lǐng)域的技術(shù)人員來說,在不脫離本發(fā)明構(gòu)思的前提下,還可以做出若干簡單推演或替換,都應(yīng)當視為屬于本發(fā)明的保護范圍。