本發(fā)明涉及信息檢索技術(shù)領(lǐng)域,尤其涉及一種能自動抓取和播報新聞的方法及其機(jī)器人裝置。
背景技術(shù):
在互聯(lián)網(wǎng)的時代,傳統(tǒng)媒體新聞在逐漸退出歷史舞臺,淡出大眾的視野,成為一種小眾的讀物。在互聯(lián)網(wǎng)發(fā)達(dá)的今天,忙碌的年輕人更喜歡通過電子媒體的方式獲取最新的資訊和信息。例如今日頭條,facebook,騰訊,網(wǎng)易等等公司的電子新聞都是目前大家喜歡閱讀的新聞平臺。
鑒于傳統(tǒng)的媒體新聞無法做到互聯(lián)網(wǎng)新聞的高時效性,新鮮性,和針對不同的用戶群體的精準(zhǔn)推薦性。并且基于現(xiàn)有的新聞平臺新聞信息互為補(bǔ)充,因此急需一種技術(shù)可以對新聞平臺中的新聞進(jìn)行整合后提供給用戶。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明目的是提供一種能自動抓取和播報新聞的方法及其機(jī)器人裝置,可以通過網(wǎng)絡(luò)機(jī)器人爬蟲爬取網(wǎng)頁的方式,采集不同類別的新聞,播報給用戶。
本發(fā)明解決技術(shù)問題采用如下技術(shù)方案:一種能自動抓取和播報新聞的方法,其特征在于,至少包括以下步驟:
獲取新聞網(wǎng)頁,指定初始種子連接和抓取深度,抓取相關(guān)網(wǎng)頁;
采用正則表達(dá)式抽取導(dǎo)航欄連接,進(jìn)行網(wǎng)頁去噪,提取正文內(nèi)容;
對提取的正文內(nèi)容進(jìn)行網(wǎng)頁去重;
對去重后的網(wǎng)頁內(nèi)容進(jìn)行中文分詞;
對分詞后的網(wǎng)頁進(jìn)行新聞文本分類;
語音播報分類后的新聞。
其中,使用開源工具nutch進(jìn)行相關(guān)網(wǎng)頁抓取。
其中,使用開源工具boilerpipe進(jìn)行網(wǎng)頁去噪。
其中,采用開源算法simhash進(jìn)行網(wǎng)頁去重。
其中,使用樸素貝葉斯分類算法進(jìn)行新聞文本分類。
本發(fā)明還提供一種能自動抓取和播報新聞的機(jī)器人裝置,至少包括:
網(wǎng)頁抓取單元,用于獲取新聞網(wǎng)頁,指定初始種子連接和抓取深度,抓取相關(guān)網(wǎng)頁;
網(wǎng)頁去噪單元,用于采用正則表達(dá)式抽取導(dǎo)航欄連接,進(jìn)行網(wǎng)頁去噪,提取正文內(nèi)容;
網(wǎng)頁去重單元,用于對提取的正文內(nèi)容進(jìn)行網(wǎng)頁去重;
中文分詞單元,用于對去重后的網(wǎng)頁內(nèi)容進(jìn)行中文分詞;
文本分類單元,用于對分詞后的網(wǎng)頁進(jìn)行新聞文本分類;
語音播報單元,用于語音播報分類后的新聞
本發(fā)明具有如下有益效果:采用本發(fā)明的技術(shù)方案對不同新聞平臺中的新聞進(jìn)行整合并播報給用戶,提升了用戶新聞瀏覽的友好感。
附圖說明
圖1為本發(fā)明的能自動抓取和播報新聞的方法的流程簡圖;
圖2為本發(fā)明的能自動抓取和播報新聞的機(jī)器人裝置的結(jié)構(gòu)框圖。
具體實(shí)施方式
下面結(jié)合實(shí)施例及附圖對本發(fā)明的技術(shù)方案作進(jìn)一步闡述。
本發(fā)明提供一種能自動抓取和播報新聞的方法,至少包括以下步驟:
獲取新聞網(wǎng)頁,指定初始種子連接和抓取深度,抓取相關(guān)網(wǎng)頁;
采用正則表達(dá)式抽取導(dǎo)航欄連接,進(jìn)行網(wǎng)頁去噪,提取正文內(nèi)容;
對提取的正文內(nèi)容進(jìn)行網(wǎng)頁去重;
對去重后的網(wǎng)頁內(nèi)容進(jìn)行中文分詞;
對分詞后的網(wǎng)頁進(jìn)行新聞文本分類;
語音播報分類后的新聞。
下面結(jié)合具體的實(shí)施例對本發(fā)明方法進(jìn)一步說明,本發(fā)明的技術(shù)是通過從各大門戶網(wǎng)站(今日頭條,騰訊,網(wǎng)易等新聞網(wǎng)站)采集新聞網(wǎng)頁,通過網(wǎng)頁過濾(去除噪聲部分,去除廣告部分,提取正文),網(wǎng)頁去重,中文分詞,文本分類,使用語音的方式進(jìn)行語音播報,播報給用戶關(guān)于不同類別的新聞內(nèi)容。
結(jié)合圖1所示的本發(fā)明的方法流程簡圖以及以下步驟對本方法進(jìn)行說明:
1、采集新聞網(wǎng)頁,如sohu,騰訊,網(wǎng)易等網(wǎng)站,指定初始種子鏈接和抓取深度,如指定當(dāng)天的熱門新聞,使用開源工具nutch進(jìn)行相關(guān)網(wǎng)頁抓?。?/p>
2、使用正則表達(dá)式抽取導(dǎo)航欄鏈接,使用開源工具boilerpipe進(jìn)行網(wǎng)頁去噪的處理部分,提取出正文內(nèi)容;基于正則表達(dá)式屬于現(xiàn)有技術(shù)的內(nèi)容,因此不再贅述;
3、抽取出網(wǎng)頁的正文后,大量的新聞存在重復(fù)冗余,在本發(fā)明的實(shí)施例中可以使用google的開源算法simhash進(jìn)行網(wǎng)頁去重;
4、中文分詞,在本發(fā)明的實(shí)施例中可以使用開源的java版的斯坦福大學(xué)分詞器進(jìn)行分詞,當(dāng)然也可以采用現(xiàn)有的其他方式進(jìn)行分詞,分詞的目的是為了抽取出關(guān)鍵詞(名詞,形容詞),去除冗余的詞,為下一步文本分類做準(zhǔn)備;
5、在本發(fā)明的實(shí)施例中,使用樸素貝葉斯分類算法進(jìn)行文本分類,把新聞分為科技,體育,娛樂,財經(jīng)新聞;
6、語音播報功能,將分類后的新聞播報給用戶,可以采用順序播報的方式也可以按照用戶的喜好設(shè)置進(jìn)行播報。在本發(fā)明的實(shí)施例中,可以使用現(xiàn)有的訊飛平臺進(jìn)行語音播報。
另外在本發(fā)明還提供一種能自動抓取和播報新聞的機(jī)器人裝置,參考圖2所示,至少包括:
網(wǎng)頁抓取單元,用于獲取新聞網(wǎng)頁,指定初始種子連接和抓取深度,抓取相關(guān)網(wǎng)頁;
網(wǎng)頁去噪單元,用于采用正則表達(dá)式抽取導(dǎo)航欄連接,進(jìn)行網(wǎng)頁去噪,提取正文內(nèi)容;
網(wǎng)頁去重單元,用于對提取的正文內(nèi)容進(jìn)行網(wǎng)頁去重;
中文分詞單元,用于對去重后的網(wǎng)頁內(nèi)容進(jìn)行中文分詞;
文本分類單元,用于對分詞后的網(wǎng)頁進(jìn)行新聞文本分類;
語音播報單元,用于語音播報分類后的新聞。
基于本發(fā)明的機(jī)器人裝置應(yīng)用上述方法進(jìn)行自動抓取和播報新聞,因此在此不再進(jìn)行贅述。
以上實(shí)施例的先后順序僅為便于描述,不代表實(shí)施例的優(yōu)劣。
最后應(yīng)說明的是:以上實(shí)施例僅用以說明本發(fā)明的技術(shù)方案,而非對其限制;盡管參照前述實(shí)施例對本發(fā)明進(jìn)行了詳細(xì)的說明,本領(lǐng)域的普通技術(shù)人員應(yīng)當(dāng)理解:其依然可以對前述各實(shí)施例所記載的技術(shù)方案進(jìn)行修改,或者對其中部分技術(shù)特征進(jìn)行等同替換;而這些修改或者替換,并不使相應(yīng)技術(shù)方案的本質(zhì)脫離本發(fā)明各實(shí)施例技術(shù)方案的精神和范圍。