專利名稱:網絡輿情信息統(tǒng)計方法及系統(tǒng)的制作方法
技術領域:
本發(fā)明涉及計算機技術領域,特別涉及一種網絡輿情信息統(tǒng)計方法及系統(tǒng)。
背景技術:
隨著互聯網應用的廣泛普及,數據的海量性在各方面的體現越來越突出,從網絡流量數據,到移動通信用戶行為記錄;從搜索引擎的日志數據,到銀行的客戶操作記錄,等。這些海量信息與生俱來的數字化與網絡化性質,在給人們帶來了改善服務機遇的同時也提出了許多新的技術挑戰(zhàn),如何從這些海量的數據里方便快捷的找到新的信息,如何從這里面統(tǒng)計分析得到我們想要的數據。目前使用的普遍采用的方法是直接根據需求從網絡獲取相關數據進行分析處理的方法。 解決海量數據統(tǒng)計速度和效率瓶頸問題目前所使用的一定程度上可以得出相關信息,但是存在如下缺陷(I)在面對海量的數據時,找不到頭緒和重點統(tǒng)計效率低。(2)展現速度慢不能及時快速呈現在用戶面前。
發(fā)明內容
本發(fā)明的目的旨在至少解決上述的技術缺陷之一。為達到上述目的,本發(fā)明一方面的實施例提出一種網絡輿情信息統(tǒng)計方法,包括以下步驟S1 :輸入需要統(tǒng)計的主題;S2 :通過網絡爬蟲從網頁和微博抓取與所述主題相關的數據并保存;S3 :將抓取所述數據進行統(tǒng)計生成統(tǒng)計數據;以及S4 :根據所述統(tǒng)計數據生成統(tǒng)計報表。根據本發(fā)明實施例的方法,通過對網頁和微博數據的抓取與統(tǒng)計得出了獲得統(tǒng)計數據,并且對數據統(tǒng)計與展現的并行進行提高了數據統(tǒng)計效率和速度,同時生成統(tǒng)計報表方便了用戶。在本發(fā)明的一個實施例中,所述方法還包括將所述統(tǒng)計報表進行保存,并呈現給用戶。在本發(fā)明的一個實施例中,所述步驟S3具體包括S31 :設置數據的統(tǒng)計方式;以及S32 :根據統(tǒng)計方式將數據中將相關聯的數據進行整合并進行統(tǒng)計。在本發(fā)明的一個實施例中,所述主題為情感信息、熱門話題、轉載率排名、點擊率排名中的一種或者用戶自定義的主題。為達到上述目的,本發(fā)明的實施例另一方面提出一種網絡輿情信息統(tǒng)計系統(tǒng),包括輸入模塊,用于輸入需要統(tǒng)計的主題;抓取模塊,用于通過網絡爬蟲從網頁和微博抓取與所述主題相關的數據并保存;統(tǒng)計模塊,將抓取所述數據進行統(tǒng)計生成統(tǒng)計數據;以及報表模塊,用于根據所述統(tǒng)計數據生成統(tǒng)計報表。根據本發(fā)明實施例的系統(tǒng),通過對網頁和微博數據的抓取與統(tǒng)計得出了獲得統(tǒng)計數據,并且對數據統(tǒng)計與展現的并行進行提高了數據統(tǒng)計效率和速度,同時生成統(tǒng)計報表方便了用戶。本發(fā)明的一個實施例中,所述系統(tǒng)還包括保存模塊,用于將所述統(tǒng)計報表進行保存,并呈現給用戶。本發(fā)明的一個實施例中,所述統(tǒng)計模塊具體包括設置單元,用于設置數據的統(tǒng)計方式以及;統(tǒng)計單元,用于根據統(tǒng)計方式將數據中將相關聯的數據進行整合并進行統(tǒng)計。本發(fā)明的一個實施例中,所述主題為情感信息、熱門話題、轉載率排名、點擊率排名中的一種或者用戶自定義的主題。本發(fā)明附加的方面和優(yōu)點將在下面的描述中部分給出,部分將從下面的描述中變得明顯,或通過本發(fā)明的實踐了解到。
本發(fā)明上述的和/或附加的方面和優(yōu)點從下面結合附圖對實施例的描述中將變得明顯和容易理解,其中圖I為根據本發(fā)明一個實施例的網絡輿情信息統(tǒng)計方法的流程圖;圖2為根據本發(fā)明另一個實施例的網絡輿情信息統(tǒng)計方法的流程圖;圖3為根據本發(fā)明另一個實施例的情感統(tǒng)計報表圖;圖4為根據本發(fā)明一個實施例的網絡輿情信息統(tǒng)計系統(tǒng)的框架圖;圖5為根據本發(fā)明一個實施例的統(tǒng)計模塊的框架圖;以及圖6為根據本發(fā)明另一個實施例的網絡輿情信息統(tǒng)計系統(tǒng)的框架圖。
具體實施例方式下面詳細描述本發(fā)明的實施例,實施例的示例在附圖中示出,其中自始至終相同或類似的標號表示相同或類似的元件或具有相同或類似功能的元件。下面通過參考附圖描述的實施例是示例性的,僅用于解釋本發(fā)明,而不能解釋為對本發(fā)明的限制。圖I為本發(fā)明實施例的基于視頻的廣告發(fā)現方法的流程圖。如圖I所示,根據本發(fā)明實施例的基于視頻的廣告發(fā)現方法,包括以下步驟步驟S101,輸入需要統(tǒng)計的主題。具體地,用戶在輸入界面輸入需要統(tǒng)計或感興趣的主題,其中,主題為情感信息、熱門話題、轉載率排名、點擊率排名中的一種或者用戶自定義的主題。步驟S102,通過網絡爬蟲從網頁和微博抓取與主題相關的數據并保存。具體地,在獲取需要統(tǒng)計的主題后,通過網絡爬蟲從互聯網抓取與主題相關信息。在獲取過程當中,同時將于主題相關的信息與該信息的來源、抓取時間等進行記錄并保存到網頁數據庫中。微博抽取涉及到目前用戶量較大的騰訊微博、新浪微博、搜狐微博和網易微博,在抓取到與主題相關的信息后同信息的來抓取時間等進行記錄保存到微博數據庫中。在本發(fā)明的一個實施例中,網頁數據的抓取與微博數據的抓取并行進行分別保存到網頁數據庫與微博數據庫中之后,交由總的數據庫進行保存管理而網頁數據庫與微博數據庫中的信息則進行刪除清空處理。
根據本發(fā)明實施例的方法,通過對處理后數據庫信息的刪除,提高了數據交互的速度,進而提聞了效率。步驟S103,將抓取數據進行統(tǒng)計生成統(tǒng)計數據。具體地,首先設置數據的統(tǒng)計方式,其中,數據的統(tǒng)計方式包括按月統(tǒng)計、按日統(tǒng)計和按小時統(tǒng)計,并設置統(tǒng)計周期,其中,統(tǒng)計周期為每隔多長時間獲取一次統(tǒng)計數據的時間。例如,統(tǒng)計方式為按月統(tǒng)計、統(tǒng)計周期為一個月,則根據所設置的統(tǒng)計方式和統(tǒng)計周期從數據庫中提取相關數據并進行整合及統(tǒng)計生成統(tǒng)計數據。例如,所設置為按月并且周期為一個月,則根據數據的周期從數據庫中提取數據并按日進行統(tǒng)計生成統(tǒng)計數據。在本發(fā)明的一個實施例中,計算機處于空閑時間進行統(tǒng)計,而在繁忙時暫停統(tǒng)計。需要說明的是,由于所要處理的是海量的網絡數據需要大量的時間進行處理因此在所設置的周期內統(tǒng)計出來的數據位中間數據而不是對整個海量的網絡數據進行處理后的數據。步驟S104,根據統(tǒng)計數據生成統(tǒng)計報表。 在本發(fā)明的一個實施例中,所生成的統(tǒng)計數據是關于主題的一些文字數據,根據這些文字數據以及統(tǒng)計方式和統(tǒng)計周期的設置,將文字數據處理生成統(tǒng)計報表。根據本發(fā)明實施例的方法,通過對網頁和微博數據的抓取與統(tǒng)計得出統(tǒng)計數據,并且通過數據統(tǒng)計與展現的并行進行提高了數據統(tǒng)計效率和速度,同時生成統(tǒng)計報表方便了用戶。圖2為根據本發(fā)明另一個實施例的網絡輿情信息統(tǒng)計方法的流程圖。如圖2所示,根據本發(fā)明實施例的網絡輿情信息統(tǒng)計方法,包括以下步驟步驟S201,輸入需要統(tǒng)計的主題。具體地,用戶在輸入界面輸入需要統(tǒng)計或感興趣的主題,其中,主題為情感信息、熱門話題、轉載率排名、點擊率排名中的一種或者用戶自定義的主題。步驟S202,通過網絡爬蟲從網頁和微博抓取與主題相關的數據并保存。在本發(fā)明的一個實施例中,網頁數據的抓取與微博數據的抓取并行進行分別保存到網頁數據庫與微博數據庫中之后,交由總的數據庫進行保存管理而網頁數據庫與微博數據庫中的信息則進行刪除清空處理。步驟S203,將抓取數據進行統(tǒng)計生成統(tǒng)計數據。具體地,首先設置數據的統(tǒng)計方式,其中,數據的統(tǒng)計方式包括按月統(tǒng)計、按日統(tǒng)計和按小時統(tǒng)計,并設置統(tǒng)計周期,其中,統(tǒng)計周期為每隔多長時間獲取一次統(tǒng)計數據的時間。例如,統(tǒng)計方式為按月統(tǒng)計、統(tǒng)計周期為一個月,則根據所設置的統(tǒng)計方式和統(tǒng)計周期從數據庫中提取相關數據并進行整合及統(tǒng)計生成統(tǒng)計數據。例如,所設置為按月并且周期為一個月,則根據數據的周期從數據庫中提取數據并按日進行統(tǒng)計生成統(tǒng)計數據。在本發(fā)明的一個實施例中,計算機處于空閑時間進行統(tǒng)計,而在繁忙時暫停統(tǒng)計。需要說明的是,由于所要處理的是海量的網絡數據需要大量的時間進行處理,因此在所設置的周期內統(tǒng)計出來的數據位中間數據而不是對整個海量的網絡數據進行處理后的數據。步驟S204,根據統(tǒng)計數據生成統(tǒng)計報表。步驟S205,將統(tǒng)計報表進行保存并呈現給用戶。具體地,將生成的統(tǒng)計報表首先保存到后臺數據庫中,并通過圖像界面呈現給用戶。
在本發(fā)明的一個實施例中,統(tǒng)計與展現并行執(zhí)行,可以先從海量數據中的內容分成多個部分并定時統(tǒng)計出一部分得中間結果,并將中間結果存儲在數據庫同時呈現給用戶,例如,圖3為情感統(tǒng)計報表圖。根據本發(fā)明實施例的方法,通過采用統(tǒng)計與展現并行執(zhí)行的方式,減少了用戶的等待時間,同時使用戶了解數據統(tǒng)計情況方便了用戶。圖4為本發(fā)明實施例的網絡輿情信息統(tǒng)計系統(tǒng)的結構框圖,如圖4所示,根據本發(fā)明實施例的網絡輿情信息統(tǒng)計系統(tǒng)包括輸入模塊100、抓取模塊200、統(tǒng)計模塊300和報表模塊400。具體地,輸入模塊100用于輸入需要統(tǒng)計的主題。用戶在輸入界面輸入需要統(tǒng)計或感興趣的主題,其中,主題為情感信息、熱門話題、轉載率排名、點擊率排名中的一種或者用戶自定義的主題。
抓取模塊200用于通過網絡爬蟲從網頁和微博抓取與主題相關的數據并保存。通過網絡爬蟲從互聯網抓取與主題相關信息。在獲取過程當中,同時將于主題相關的信息與該信息的來源、抓取時間等進行記錄并保存到網頁數據庫中。微博抽取涉及到目前用戶量較大的騰訊微博、新浪微博、搜狐微博和網易微博,在抓取到與主題相關的信息后同信息的來抓取時間等進行記錄保存到微博數據庫中。在本發(fā)明的一個實施例中,網頁數據的抓取與微博數據的抓取并行進行分別保存到網頁數據庫與微博數據庫中之后,交由總的數據庫進行保存管理而網頁數據庫與微博數據庫中的信息則進行刪除清空處理。根據本發(fā)明實施例的系統(tǒng),通過對處理后數據庫信息的刪除,提高了數據交互的速度,進而提聞了效率。統(tǒng)計模塊300將抓取數據進行統(tǒng)計生成統(tǒng)計數據。圖5為本發(fā)明實施例的網絡輿情信息統(tǒng)計系統(tǒng)的結構框圖,如圖5所示,根據本發(fā)明實施例的網絡輿情信息統(tǒng)計系統(tǒng)具體包括設置單元310和統(tǒng)計單元320。更具體地,設置單元310用于設置數據的統(tǒng)計方式。設置數據的統(tǒng)計方式,其中,數據的統(tǒng)計方式包括按月統(tǒng)計、按日統(tǒng)計和按小時統(tǒng)計,并設置統(tǒng)計周期,其中,統(tǒng)計周期為每隔多長時間獲取一次統(tǒng)計數據的時間。統(tǒng)計單元320用于根據統(tǒng)計方式將數據中將相關聯的數據進行整合并進行統(tǒng)計。根據所設置的統(tǒng)計方式和統(tǒng)計周期從數據庫中提取相關數據并進行整合及統(tǒng)計生成統(tǒng)計數據。例如,所設置為按月并且周期為一個月,則根據數據的周期從數據庫中提取數據并按日進行統(tǒng)計生成統(tǒng)計數據。在本發(fā)明的一個實施例中,計算機處于空閑時間進行統(tǒng)計,而在繁忙時暫統(tǒng)計。需要說明的是,由于所要處理的是海量的網絡數據需要大量的時間進行處理,因此在所設置的周期內統(tǒng)計出來的數據位中間數據而不是對整個海量的網絡數據進行處理后的數據。報表模塊400用于根據統(tǒng)計數據生成統(tǒng)計報表。所生成的統(tǒng)計數據是關于主題的一些文字數據,根據所這些文字數據以及統(tǒng)計方式和統(tǒng)計周期的設置,將文字數據處理生成統(tǒng)計報表。根據本發(fā)明實施例的系統(tǒng),通過對網頁和微博數據的抓取與統(tǒng)計得出了獲得統(tǒng)計數據,并且對數據統(tǒng)計與展現的并行進行提高了數據統(tǒng)計效率和速度,同時生成統(tǒng)計報表方便了用戶。圖6為本發(fā)明另一個實施例的網絡輿情信息統(tǒng)計系統(tǒng)的結構框圖,如圖6所示,根據本發(fā)明實施例的網絡輿情信息統(tǒng)計系統(tǒng)還包括保存模塊500用于將統(tǒng)計報表進行保存,并呈現給用戶。在本發(fā)明的一個實施例中,將生成的統(tǒng)計報表首先保存到后臺數據庫中,并通過圖像界面呈現給用戶。由于這些數據對時效性要求不高,但是對速度要求比較高,因此統(tǒng)計與展現并行執(zhí)行,可以先從海量數據中的內容分成多個部分并定時統(tǒng)計出一部分得中間結果,并將中間結果存儲在數據庫同時呈現給用戶根據本發(fā)明實施例的系統(tǒng),通過采用統(tǒng)計與展現并行執(zhí)行的方式,減少了用戶的等待時間,同時使用戶了解數據統(tǒng)計情況方便了用戶。應當理解,本發(fā)明的系統(tǒng)實施例中的各個模塊和單元的具體操作過程可與方法實 施例中的描述相同,此處不再詳細描述。盡管上面已經示出和描述了本發(fā)明的實施例,可以理解的是,上述實施例是示例性的,不能理解為對本發(fā)明的限制,本領域的普通技術人員在不脫離本發(fā)明的原理和宗旨的情況下在本發(fā)明的范圍內可以對上述實施例進行變化、修改、替換和變型。
權利要求
1.一種網絡輿情信息統(tǒng)計方法,其特征在于,包括以下步驟 Si:輸入需要統(tǒng)計的主題; 52:通過網絡爬蟲從網頁和微博抓取與所述主題相關的數據并保存; 53:將抓取所述數據進行統(tǒng)計生成統(tǒng)計數據;以及 54:根據所述統(tǒng)計數據生成統(tǒng)計報表。
2.根據權利要求I所述的網絡輿情信息統(tǒng)計方法,其特征在于,還包括 55:將所述統(tǒng)計報表進行保存,并呈現給用戶。
3.根據權利要求I所述的網絡輿情信息統(tǒng)計方法,其特征在于,所述步驟S3具體包括 531:設置數據的統(tǒng)計方式;以及 532:根據統(tǒng)計方式將數據中將相關聯的數據進行整合并進行統(tǒng)計。
4.根據權利要求I所述的網絡輿情信息統(tǒng)計方法,其特征在于,所述主題為情感信息、熱門話題、轉載率排名、點擊率排名中的一種或者用戶自定義的主題。
5.一種網絡輿情信息統(tǒng)計系統(tǒng),其特征在于,包括 輸入模塊,用于輸入需要統(tǒng)計的主題; 抓取模塊,用于通過網絡爬蟲從網頁和微博抓取與所述主題相關的數據并保存; 統(tǒng)計模塊,將抓取所述數據進行統(tǒng)計生成統(tǒng)計數據;以及 報表模塊,用于根據所述統(tǒng)計數據生成統(tǒng)計報表。
6.根據權利要求6所述的網絡輿情信息統(tǒng)計系統(tǒng),其特征在于,還包括 保存模塊,用于將所述統(tǒng)計報表進行保存,并呈現給用戶。
7.根據權利要求6所述的網絡輿情信息統(tǒng)計系統(tǒng),其特征在于,所述統(tǒng)計模塊具體包括 設置單元,用于設置數據的統(tǒng)計方式;以及 統(tǒng)計單元,用于根據統(tǒng)計方式將數據中將相關聯的數據進行整合并進行統(tǒng)計。
8.根據權利要求5所述的網絡輿情信息統(tǒng)計系統(tǒng),其特征在于,所述主題為情感信息、熱門話題、轉載率排名、點擊率排名中的一種或者用戶自定義的主題。
全文摘要
本發(fā)明提出一種網絡輿情信息統(tǒng)計方法及系統(tǒng)。其中,方法包括以下步驟輸入需要統(tǒng)計的主題;通過網絡爬蟲從網頁和微博抓取與主題相關的數據并保存;將抓取數據進行統(tǒng)計生成統(tǒng)計數據;根據統(tǒng)計數據生成統(tǒng)計報表。根據本發(fā)明實施例的方法,通過對網頁和微博數據的抓取與統(tǒng)計得出了獲得統(tǒng)計數據,并且對數據統(tǒng)計與展現的并行進行提高了數據統(tǒng)計效率和速度,同時生成統(tǒng)計報表方便了用戶。
文檔編號G06F17/30GK102968452SQ20121041444
公開日2013年3月13日 申請日期2012年10月25日 優(yōu)先權日2012年10月25日
發(fā)明者楊睿塵 申請人:北京騰逸科技發(fā)展有限公司