欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種識別網(wǎng)絡(luò)文字信息的語種的方法及系統(tǒng)的制作方法

文檔序號:6630087閱讀:289來源:國知局
一種識別網(wǎng)絡(luò)文字信息的語種的方法及系統(tǒng)的制作方法
【專利摘要】本發(fā)明提供了一種識別網(wǎng)絡(luò)文字信息的語種的方法及系統(tǒng),通過在網(wǎng)絡(luò)接入位置采集上網(wǎng)設(shè)備在上網(wǎng)時產(chǎn)生的上網(wǎng)數(shù)據(jù)包,之后獲取所述上網(wǎng)數(shù)據(jù)包中包含的文字信息并根據(jù)所述文字信息識別所述上網(wǎng)設(shè)備產(chǎn)生的文字信息的語種。因此本發(fā)明所述識別網(wǎng)絡(luò)文字信息的語種的方法及系統(tǒng),無需在上網(wǎng)設(shè)備上安裝客戶端即可獲取所述上網(wǎng)數(shù)據(jù)包并能從中識別文字信息的語種,而根據(jù)所述語種即可判斷出所述上網(wǎng)設(shè)備的持有人所屬的民族,使得安全部門能夠有針對性的對某些特定人群(比如某一民族范圍內(nèi)的人群)進行監(jiān)控,提高了監(jiān)察效率,有利于安全部門及時獲取到與恐怖活動相關(guān)的情報,維護社會的穩(wěn)定。
【專利說明】一種識別網(wǎng)絡(luò)文字信息的語種的方法及系統(tǒng)

【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及數(shù)據(jù)采集處理技術(shù)。具體地說涉及一種識別網(wǎng)絡(luò)文字信息的語種的方法及系統(tǒng)。

【背景技術(shù)】
[0002]現(xiàn)階段,世界范圍內(nèi)民族矛盾突出,基于民族特征的暴力恐怖事件頻繁發(fā)生。而隨著網(wǎng)絡(luò)技術(shù)的快速發(fā)展,互聯(lián)網(wǎng)上信息資源的數(shù)量急劇增長,上網(wǎng)用戶群體也不斷擴大,上網(wǎng)設(shè)備的持有人通過網(wǎng)絡(luò)可以進行發(fā)送郵件、聊天、論壇發(fā)帖以及瀏覽網(wǎng)頁等操作,在進行這些操作的同時會產(chǎn)生包含上述操作信息的上網(wǎng)數(shù)據(jù)包,因此,如果能對所述上網(wǎng)數(shù)據(jù)包加以分析,將有可能獲取到上網(wǎng)設(shè)備的持有人的某些信息,比如上網(wǎng)設(shè)備的持有人所輸入的文字信息所屬的語種,進而判斷出其所屬的民族,使得安全部門能夠有針對性的對某些特定人群(比如某一民族范圍內(nèi)的人群)進行監(jiān)控,提高了監(jiān)察效率,有利于安全部門及時獲取到與恐怖活動相關(guān)的情報,維護社會的穩(wěn)定。
[0003]但現(xiàn)有技術(shù)中要獲取上述上網(wǎng)數(shù)據(jù)包存在很多技術(shù)上的困難和挑戰(zhàn),一般需要在上網(wǎng)設(shè)備上安裝客戶端才能實現(xiàn)對上述數(shù)據(jù)的采集,但不同的上網(wǎng)設(shè)備往往使用不同的操作系統(tǒng),這就需要開發(fā)出多種與操作系統(tǒng)相匹配的客戶端,開發(fā)工作量非常大,上網(wǎng)設(shè)備的操作系統(tǒng)升級的時候,也需要對客戶端進行同步升級,使得系統(tǒng)的維護成本非常高,而且上網(wǎng)設(shè)備持有人在安裝客戶端時往往特別小心,經(jīng)常會發(fā)生拒絕安裝客戶端的現(xiàn)象,而客戶端安裝不了,就不能獲取到上網(wǎng)設(shè)備的上網(wǎng)數(shù)據(jù)包,識別上網(wǎng)數(shù)據(jù)包中包括的文字信息的語種當然也就無法實現(xiàn)了。


【發(fā)明內(nèi)容】

[0004]為此,本發(fā)明所要解決的技術(shù)問題在于現(xiàn)有技術(shù)中需要在上網(wǎng)設(shè)備上安裝客戶端才能獲取到上網(wǎng)設(shè)備持有人在上網(wǎng)時產(chǎn)生的上網(wǎng)數(shù)據(jù)包,從而提供一種無需在上網(wǎng)設(shè)備上安裝客戶端即可獲取上網(wǎng)數(shù)據(jù)包并能從中識別文字信息的語種的識別網(wǎng)絡(luò)文字信息的語種的方法及系統(tǒng)。
[0005]為解決上述技術(shù)問題,本發(fā)明的技術(shù)方案如下:
[0006]本發(fā)明提供了一種識別網(wǎng)絡(luò)文字信息的語種的方法,包括如下步驟:
[0007]在網(wǎng)絡(luò)接入位置采集上網(wǎng)設(shè)備在上網(wǎng)時產(chǎn)生的上網(wǎng)數(shù)據(jù)包;
[0008]獲取所述上網(wǎng)數(shù)據(jù)包中包含的文字信息;
[0009]根據(jù)所述文字信息識別所述上網(wǎng)設(shè)備產(chǎn)生的文字信息的語種。
[0010]本發(fā)明所述的識別網(wǎng)絡(luò)文字信息的語種的方法,所述獲取所述上網(wǎng)數(shù)據(jù)包中包含的文字信息的步驟,包括:
[0011]根據(jù)傳輸層協(xié)議將所述上網(wǎng)數(shù)據(jù)包重組成傳輸層會話數(shù)據(jù)流;
[0012]根據(jù)超文本標記語言HTML協(xié)議解析出所述傳輸層會話數(shù)據(jù)流中包含的數(shù)據(jù);
[0013]從所述數(shù)據(jù)中提取出其包含的文字信息。
[0014]本發(fā)明所述的識別網(wǎng)絡(luò)文字信息的語種的方法,所述根據(jù)所述文字信息識別所述上網(wǎng)設(shè)備產(chǎn)生的文字信息的語種的步驟,包括:
[0015]解析出所述文字信息中包含的每個字符在Unicode中對應(yīng)的字符編碼;
[0016]根據(jù)所述字符編碼得到所述文字信息在Unicode中的編碼范圍;
[0017]根據(jù)所述編碼范圍識別出所述文字信息的語種。
[0018]本發(fā)明所述的識別網(wǎng)絡(luò)文字信息的語種的方法,在所述根據(jù)所述文字信息識別所述上網(wǎng)設(shè)備產(chǎn)生的文字信息的語種之后還包括:
[0019]根據(jù)所述文字信息的語種對所述文字信息進行分類存儲。
[0020]本發(fā)明還提供了一種識別網(wǎng)絡(luò)文字信息的語種的系統(tǒng),包括:
[0021]采集裝置,用于在網(wǎng)絡(luò)接入位置采集上網(wǎng)設(shè)備在上網(wǎng)時產(chǎn)生的上網(wǎng)數(shù)據(jù)包;
[0022]獲取裝置,用于獲取所述上網(wǎng)數(shù)據(jù)包中包含的文字信息;
[0023]識別裝置,用于根據(jù)所述文字信息識別所述上網(wǎng)設(shè)備產(chǎn)生的文字信息的語種。
[0024]本發(fā)明所述的識別網(wǎng)絡(luò)文字信息的語種的系統(tǒng),所述獲取裝置包括:
[0025]重組單元,用于根據(jù)傳輸層協(xié)議將所述上網(wǎng)數(shù)據(jù)包重組成傳輸層會話數(shù)據(jù)流;
[0026]第一解析單元,用于根據(jù)超文本標記語言HTML協(xié)議解析出所述傳輸層會話數(shù)據(jù)流中包含的數(shù)據(jù);
[0027]提取單元,用于從所述數(shù)據(jù)中提取出其包含的文字信息。
[0028]本發(fā)明所述的識別網(wǎng)絡(luò)文字信息的語種的系統(tǒng),所述識別裝置包括:
[0029]第二解析單元,用于解析出所述文字信息中包含的每個字符在Unicode中對應(yīng)的字符編碼;
[0030]范圍獲取單元,用于根據(jù)所述字符編碼得到所述文字信息在Unicode中的編碼范圍;
[0031]語種識別單元,用于根據(jù)所述編碼范圍識別出所述文字信息的語種。
[0032]本發(fā)明所述的識別網(wǎng)絡(luò)文字信息的語種的系統(tǒng),還包括:
[0033]分類存儲裝置,用于根據(jù)所述文字信息的語種對所述文字信息進行分類存儲。
[0034]本發(fā)明的上述技術(shù)方案相比現(xiàn)有技術(shù)具有以下優(yōu)點:
[0035]本發(fā)明提供了一種識別網(wǎng)絡(luò)文字信息的語種的方法及系統(tǒng),通過在網(wǎng)絡(luò)接入位置采集上網(wǎng)設(shè)備在上網(wǎng)時產(chǎn)生的上網(wǎng)數(shù)據(jù)包,之后獲取所述上網(wǎng)數(shù)據(jù)包中包含的文字信息并根據(jù)所述文字信息識別所述上網(wǎng)設(shè)備產(chǎn)生的文字信息的語種。因此本發(fā)明所述識別網(wǎng)絡(luò)文字信息的語種的方法及系統(tǒng),無需在上網(wǎng)設(shè)備上安裝客戶端即可獲取所述上網(wǎng)數(shù)據(jù)包并能從中識別文字信息的語種,而根據(jù)所述語種即可判斷出所述上網(wǎng)設(shè)備的持有人所屬的民族,使得安全部門能夠有針對性的對某些特定人群(比如某一民族范圍內(nèi)的人群)進行監(jiān)控,提高了監(jiān)察效率,有利于安全部門及時獲取到與恐怖活動相關(guān)的情報,維護社會的穩(wěn)定。

【專利附圖】

【附圖說明】
[0036]為了使本發(fā)明的內(nèi)容更容易被清楚的理解,下面根據(jù)本發(fā)明的具體實施例并結(jié)合附圖,對本發(fā)明作進一步詳細的說明,其中
[0037]圖1是實施例1所述識別網(wǎng)絡(luò)文字信息的語種的方法的步驟框圖;
[0038]圖2是獲取上網(wǎng)數(shù)據(jù)包中包含的文字信息方法的步驟框圖;
[0039]圖3是根據(jù)文字信息識別上網(wǎng)設(shè)備產(chǎn)生的文字信息的語種方法的步驟框圖;
[0040]圖4是實施例2所述識別網(wǎng)絡(luò)文字信息的語種的系統(tǒng)的結(jié)構(gòu)框圖;
[0041]圖5是獲取裝置的結(jié)構(gòu)框圖;
[0042]圖6是識別裝置的結(jié)構(gòu)框圖。
[0043]圖中附圖標記表示為:1_采集裝置,2-獲取裝置,3-識別裝置,4-分類存儲裝置,21-重組單元,22-第一解析單元,23-提取單元,31-第二解析單元,32-范圍獲取單元,33-語音識別單元。

【具體實施方式】
[0044]實施例1
[0045]本實施例提供了一種識別網(wǎng)絡(luò)文字信息的語種的方法,如圖1所示,包括如下步驟:
[0046]S1.在網(wǎng)絡(luò)接入位置采集上網(wǎng)設(shè)備在上網(wǎng)時產(chǎn)生的上網(wǎng)數(shù)據(jù)包。
[0047]S2.獲取所述上網(wǎng)數(shù)據(jù)包中包含的文字信息。
[0048]S3.根據(jù)所述文字信息識別所述上網(wǎng)設(shè)備產(chǎn)生的文字信息的語種。
[0049]優(yōu)選地,所述步驟S3之后還包括如下步驟:
[0050]S4.根據(jù)所述文字信息的語種對所述文字信息進行分類存儲。
[0051]具體地,可以通過設(shè)置于網(wǎng)絡(luò)接入位置的數(shù)據(jù)采集節(jié)點在網(wǎng)絡(luò)接入位置采集上網(wǎng)設(shè)備在上網(wǎng)時產(chǎn)生的上網(wǎng)數(shù)據(jù)包??梢酝ㄟ^輪詢的模式采集各個上網(wǎng)設(shè)備的上網(wǎng)數(shù)據(jù)包。
[0052]具體地,也可以先存儲上網(wǎng)數(shù)據(jù)包,再對存儲的上網(wǎng)數(shù)據(jù)包執(zhí)行上述操作識別出上網(wǎng)設(shè)備產(chǎn)生的文字信息的語種,語種識別之后再按照語種對存儲的數(shù)據(jù)按照語種進行分類標識;也可以先執(zhí)行上述操作識別出上網(wǎng)設(shè)備產(chǎn)生的文字信息的語種后按照語種對文字信息進行分類存儲??傊瑢?shù)據(jù)的存儲可以在識別之前進行,也可以在識別之后進行,可以在搭建系統(tǒng)的時候根據(jù)系統(tǒng)架構(gòu)具體情況來確定。
[0053]優(yōu)選地,如圖2所示,所述獲取所述上網(wǎng)數(shù)據(jù)包中包含的文字信息的步驟,可以包括:
[0054]S21.根據(jù)傳輸層協(xié)議將所述上網(wǎng)數(shù)據(jù)包重組成傳輸層會話數(shù)據(jù)流。
[0055]S22.根據(jù)超文本標記語言HTML協(xié)議解析出所述傳輸層會話數(shù)據(jù)流中包含的數(shù)據(jù)。
[0056]S23.從所述數(shù)據(jù)中提取出其包含的文字信息。
[0057]具體地,上網(wǎng)設(shè)備持有人利用上網(wǎng)設(shè)備進行發(fā)送郵件、聊天、網(wǎng)上論壇留言等操作時,一般都會進行文字輸入,因此上網(wǎng)設(shè)備在上網(wǎng)時產(chǎn)生的上網(wǎng)數(shù)據(jù)包中就會包含上述文字信息,當采集到上述上網(wǎng)數(shù)據(jù)包后,通過傳輸層協(xié)議將所述上網(wǎng)數(shù)據(jù)包重組成傳輸層會話數(shù)據(jù)流,根據(jù)超文本標記語言HTML協(xié)議即可解析出所述傳輸層會話數(shù)據(jù)流中包含的數(shù)據(jù),所述數(shù)據(jù)中就包括了上網(wǎng)設(shè)備的MAC地址,上網(wǎng)類型(發(fā)送郵件、瀏覽網(wǎng)頁、論壇發(fā)帖、聊天等)以及上網(wǎng)內(nèi)容(郵件內(nèi)容、網(wǎng)站URL地址發(fā)帖內(nèi)容、聊天對象、聊天內(nèi)容)等數(shù)據(jù),因此從上述數(shù)據(jù)中即可提取出其包含的文字信息,比如郵件內(nèi)容、聊天內(nèi)容、發(fā)帖內(nèi)容等。
[0058]優(yōu)選地,如圖3所示,所述根據(jù)所述文字信息識別所述上網(wǎng)設(shè)備產(chǎn)生的文字信息的語種的步驟,可以包括:
[0059]S31.解析出所述文字信息中包含的每個字符在Unicode中對應(yīng)的字符編碼。
[0060]S32.根據(jù)所述字符編碼得到所述文字信息在Unicode中的編碼范圍。
[0061]S33.根據(jù)所述編碼范圍識別出所述文字信息的語種。
[0062]具體地,解析出文字信息中包含的每個字符在Unicode(統(tǒng)一碼、萬國碼、單一碼)中對應(yīng)的字符編碼,就可以根據(jù)字符編碼獲取到文字信息在Unicode中的編碼范圍,比如編碼范圍在(4E00-9FBF)中時,就可以通過查詢比對的方式根據(jù)該編碼范圍識別出其對應(yīng)的文字信息的語種為中文,當編碼范圍處于(0600-06FF,0750-077F,F(xiàn)B50-FDFF,FE70-FEFF)中時,就可以識別出該編碼范圍對應(yīng)的文字信息的語種為阿拉伯文,當編碼范圍在(1800-18AF)中時,就可以識別出該編碼范圍對應(yīng)的文字信息的語種為蒙古文等等。而通過所述文字信息的語種,就可以判斷出上網(wǎng)設(shè)備持有人的民族,是中國人、阿拉伯人、蒙古人還是其他國家、民族的人。語種確認后,再根據(jù)文字信息的語種對文字信息進行分類存儲,例如按照中文信息、英文信息、藏文信息、維文信息、中英混合信息、中維混合信息等對所述文字信息進行分類存儲和展示,有利于后期的查詢和監(jiān)測。
[0063]本實施例所述識別網(wǎng)絡(luò)文字信息的語種的方法,無需在上網(wǎng)設(shè)備上安裝客戶端即可獲取所述上網(wǎng)數(shù)據(jù)包并能從中識別文字信息的語種,而根據(jù)所述語種即可判斷出所述上網(wǎng)設(shè)備的持有人所屬的民族,使得安全部門能夠有針對性的對某些特定人群(比如某一民族范圍內(nèi)的人群)進行監(jiān)控,提高了監(jiān)察效率,有利于安全部門及時獲取到與恐怖活動相關(guān)的情報,維護社會的穩(wěn)定。
[0064]實施例2
[0065]本實施例提供了一種識別網(wǎng)絡(luò)文字信息的語種的系統(tǒng),如圖4所示,包括:
[0066]采集裝置1,用于在網(wǎng)絡(luò)接入位置采集上網(wǎng)設(shè)備在上網(wǎng)時產(chǎn)生的上網(wǎng)數(shù)據(jù)包。
[0067]獲取裝置2,用于獲取所述上網(wǎng)數(shù)據(jù)包中包含的文字信息。
[0068]識別裝置3,用于根據(jù)所述文字信息識別所述上網(wǎng)設(shè)備產(chǎn)生的文字信息的語種。
[0069]優(yōu)選地,還可以包括分類存儲裝置4,用于根據(jù)所述文字信息的語種對所述文字信息進行分類存儲。
[0070]優(yōu)選地,所述獲取裝置2可以包括:
[0071 ] 重組單元21,用于根據(jù)傳輸層協(xié)議將所述上網(wǎng)數(shù)據(jù)包重組成傳輸層會話數(shù)據(jù)流。
[0072]第一解析單元22,用于根據(jù)超文本標記語言HTML協(xié)議解析出所述傳輸層會話數(shù)據(jù)流中包含的數(shù)據(jù)。
[0073]提取單元23,用于從所述數(shù)據(jù)中提取出其包含的文字信息。
[0074]優(yōu)選地,所述識別裝置3可以包括:
[0075]第二解析單元31,用于解析出所述文字信息中包含的每個字符在Unicode中對應(yīng)的字符編碼。
[0076]范圍獲取單元32,用于根據(jù)所述字符編碼得到所述文字信息在Unicode中的編碼范圍。
[0077]語種識別單元33,用于根據(jù)所述編碼范圍識別出所述文字信息的語種。
[0078]本實施例所述識別網(wǎng)絡(luò)文字信息的語種的系統(tǒng),無需在上網(wǎng)設(shè)備上安裝客戶端,通過采集裝置I即可獲取所述上網(wǎng)數(shù)據(jù)包并通過獲取裝置2和識別裝置3從中識別出文字信息的語種,而根據(jù)所述語種即可判斷出所述上網(wǎng)設(shè)備的持有人所屬的民族,使得安全部門能夠有針對性的對某些特定人群(比如某一民族范圍內(nèi)的人群)進行監(jiān)控,提高了監(jiān)察效率,有利于安全部門及時獲取到與恐怖活動相關(guān)的情報,維護社會的穩(wěn)定。
[0079]本領(lǐng)域內(nèi)的技術(shù)人員應(yīng)明白,本發(fā)明的實施例可提供為方法、系統(tǒng)、或計算機程序產(chǎn)品。因此,本發(fā)明可采用完全硬件實施例、完全軟件實施例、或結(jié)合軟件和硬件方面的實施例的形式。而且,本發(fā)明可采用在一個或多個其中包含有計算機可用程序代碼的計算機可用存儲介質(zhì)(包括但不限于磁盤存儲器、CD-ROM、光學存儲器等)上實施的計算機程序產(chǎn)品的形式。
[0080]本發(fā)明是參照根據(jù)本發(fā)明實施例的方法、設(shè)備(系統(tǒng))、和計算機程序產(chǎn)品的流程圖和/或方框圖來描述的。應(yīng)理解可由計算機程序指令實現(xiàn)流程圖和/或方框圖中的每一流程和/或方框、以及流程圖和/或方框圖中的流程和/或方框的結(jié)合??商峁┻@些計算機程序指令到通用計算機、專用計算機、嵌入式處理機或其他可編程數(shù)據(jù)處理設(shè)備的處理器以產(chǎn)生一個機器,使得通過計算機或其他可編程數(shù)據(jù)處理設(shè)備的處理器執(zhí)行的指令產(chǎn)生用于實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的裝置。
[0081]這些計算機程序指令也可存儲在能引導計算機或其他可編程數(shù)據(jù)處理設(shè)備以特定方式工作的計算機可讀存儲器中,使得存儲在該計算機可讀存儲器中的指令產(chǎn)生包括指令裝置的制造品,該指令裝置實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能。
[0082]這些計算機程序指令也可裝載到計算機或其他可編程數(shù)據(jù)處理設(shè)備上,使得在計算機或其他可編程設(shè)備上執(zhí)行一系列操作步驟以產(chǎn)生計算機實現(xiàn)的處理,從而在計算機或其他可編程設(shè)備上執(zhí)行的指令提供用于實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的步驟。
[0083]盡管已描述了本發(fā)明的優(yōu)選實施例,但本領(lǐng)域內(nèi)的技術(shù)人員一旦得知了基本創(chuàng)造性概念,則可對這些實施例作出另外的變更和修改。所以,所附權(quán)利要求意欲解釋為包括優(yōu)選實施例以及落入本發(fā)明范圍的所有變更和修改。
【權(quán)利要求】
1.一種識別網(wǎng)絡(luò)文字信息的語種的方法,其特征在于,包括如下步驟: 在網(wǎng)絡(luò)接入位置采集上網(wǎng)設(shè)備在上網(wǎng)時產(chǎn)生的上網(wǎng)數(shù)據(jù)包; 獲取所述上網(wǎng)數(shù)據(jù)包中包含的文字信息; 根據(jù)所述文字信息識別所述上網(wǎng)設(shè)備產(chǎn)生的文字信息的語種。
2.根據(jù)權(quán)利要求1所述的識別網(wǎng)絡(luò)文字信息的語種的方法,其特征在于,所述獲取所述上網(wǎng)數(shù)據(jù)包中包含的文字信息的步驟,包括: 根據(jù)傳輸層協(xié)議將所述上網(wǎng)數(shù)據(jù)包重組成傳輸層會話數(shù)據(jù)流; 根據(jù)超文本標記語言HTML協(xié)議解析出所述傳輸層會話數(shù)據(jù)流中包含的數(shù)據(jù); 從所述數(shù)據(jù)中提取出其包含的文字信息。
3.根據(jù)權(quán)利要求1或2所述的識別網(wǎng)絡(luò)文字信息的語種的方法,其特征在于,所述根據(jù)所述文字信息識別所述上網(wǎng)設(shè)備產(chǎn)生的文字信息的語種的步驟,包括: 解析出所述文字信息中包含的每個字符在Unicode中對應(yīng)的字符編碼; 根據(jù)所述字符編碼得到所述文字信息在Unicode中的編碼范圍; 根據(jù)所述編碼范圍識別出所述文字信息的語種。
4.根據(jù)權(quán)利要求1-3任一所述的識別網(wǎng)絡(luò)文字信息的語種的方法,其特征在于,在所述根據(jù)所述文字信息識別所述上網(wǎng)設(shè)備產(chǎn)生的文字信息的語種之后還包括: 根據(jù)所述文字信息的語種對所述文字信息進行分類存儲。
5.一種識別網(wǎng)絡(luò)文字信息的語種的系統(tǒng),其特征在于,包括: 采集裝置(I),用于在網(wǎng)絡(luò)接入位置采集上網(wǎng)設(shè)備在上網(wǎng)時產(chǎn)生的上網(wǎng)數(shù)據(jù)包; 獲取裝置(2),用于獲取所述上網(wǎng)數(shù)據(jù)包中包含的文字信息; 識別裝置(3),用于根據(jù)所述文字信息識別所述上網(wǎng)設(shè)備產(chǎn)生的文字信息的語種。
6.根據(jù)權(quán)利要求5所述的識別網(wǎng)絡(luò)文字信息的語種的系統(tǒng),其特征在于,所述獲取裝置⑵包括: 重組單元(21),用于根據(jù)傳輸層協(xié)議將所述上網(wǎng)數(shù)據(jù)包重組成傳輸層會話數(shù)據(jù)流;第一解析單元(22),用于根據(jù)超文本標記語言HTML協(xié)議解析出所述傳輸層會話數(shù)據(jù)流中包含的數(shù)據(jù); 提取單元(23),用于從所述數(shù)據(jù)中提取出其包含的文字信息。
7.根據(jù)權(quán)利要求5或6所述的識別網(wǎng)絡(luò)文字信息的語種的系統(tǒng),其特征在于,所述識別裝置⑶包括: 第二解析單元(31),用于解析出所述文字信息中包含的每個字符在Unicode中對應(yīng)的字符編碼; 范圍獲取單元(32),用于根據(jù)所述字符編碼得到所述文字信息在Unicode中的編碼范圍; 語種識別單元(33),用于根據(jù)所述編碼范圍識別出所述文字信息的語種。
8.根據(jù)權(quán)利要求5-7任一所述的識別網(wǎng)絡(luò)文字信息的語種的系統(tǒng),其特征在于,還包括: 分類存儲裝置(4),用于根據(jù)所述文字信息的語種對所述文字信息進行分類存儲。
【文檔編號】G06F17/27GK104317847SQ201410539771
【公開日】2015年1月28日 申請日期:2014年10月13日 優(yōu)先權(quán)日:2014年10月13日
【發(fā)明者】孫偉力, 楊超 申請人:孫偉力
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
通化市| 金沙县| 西昌市| 绿春县| 图们市| 绥芬河市| 南投市| 容城县| 绥棱县| 武义县| 盖州市| 休宁县| 商水县| 泰兴市| 仲巴县| 沂南县| 苏尼特右旗| 钦州市| 广安市| 宜川县| 贵溪市| 乃东县| 绥化市| 霍山县| 崇仁县| 綦江县| 洛川县| 抚州市| 博爱县| 即墨市| 新野县| 无为县| 乌拉特前旗| 黑龙江省| 平顺县| 龙岩市| 辽阳市| 紫阳县| 三门峡市| 漳平市| 萨嘎县|