欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

漢外雙語(yǔ)平行語(yǔ)料自動(dòng)采集的系統(tǒng)及實(shí)現(xiàn)方法_4

文檔序號(hào):9326948閱讀:來(lái)源:國(guó)知局
B:數(shù)據(jù)處理服務(wù)器(嵌入自動(dòng)提取模塊、自動(dòng)整理模塊)
服務(wù)器C:數(shù)據(jù)存儲(chǔ)服務(wù)器網(wǎng)絡(luò)通信
為保證數(shù)據(jù)安全,使用內(nèi)外網(wǎng)物理隔離,服務(wù)器經(jīng)過(guò)防火墻和路由器與Internet連接。當(dāng)需要服務(wù)器A需要訪問(wèn)互聯(lián)網(wǎng)時(shí),服務(wù)器A將與交換機(jī)X連接,并斷開(kāi)與交換機(jī)Y的連接。當(dāng)服務(wù)器A需要訪問(wèn)內(nèi)網(wǎng)時(shí),服務(wù)器A將與交換機(jī)Y連接,并斷開(kāi)與交換機(jī)X的連接。
[0053]交換機(jī)X實(shí)現(xiàn)外網(wǎng)間的通訊。
[0054]交換機(jī)Y實(shí)現(xiàn)內(nèi)網(wǎng)間的通訊。
[0055]其工作過(guò)程如下:
(I)數(shù)據(jù)采集人員將服務(wù)器A與交換機(jī)X連接,使服務(wù)器A能訪問(wèn)到互聯(lián)網(wǎng)服務(wù)。數(shù)據(jù)采集人員使用外網(wǎng)臺(tái)式計(jì)算機(jī)編排需要采集數(shù)據(jù)的相關(guān)關(guān)鍵詞組。確定采集任務(wù)后,向服務(wù)器A發(fā)送啟動(dòng)自動(dòng)采集請(qǐng)求。
[0056](2)服務(wù)器A接收臺(tái)式電腦傳輸?shù)年P(guān)鍵詞組數(shù)據(jù)和任務(wù)啟動(dòng)命令后,開(kāi)始運(yùn)行數(shù)據(jù)自動(dòng)發(fā)現(xiàn)程序。通過(guò)互聯(lián)網(wǎng)獲取所有關(guān)鍵詞組的搜索結(jié)果后,將搜索結(jié)果保存到本地。
[0057](3)數(shù)據(jù)采集人員將服務(wù)器A與交換機(jī)X斷開(kāi)連接,并與交換機(jī)Y連接。數(shù)據(jù)采集人員啟動(dòng)服務(wù)器B中的數(shù)據(jù)自動(dòng)提取和自動(dòng)整理程序,服務(wù)器B讀取存儲(chǔ)在服務(wù)器A中的搜索結(jié)果,進(jìn)行數(shù)據(jù)自動(dòng)提取和自動(dòng)整理。程序完成工作后,將獲取到的所有的雙語(yǔ)數(shù)據(jù)保存于服務(wù)器C。
[0058]應(yīng)用實(shí)施例3:
巴黎是法國(guó)的首都、法國(guó)最大城市,是法國(guó)的政治、經(jīng)濟(jì)、文化、商業(yè)中心,也是歐洲第二大城市。巴黎是歐洲的公路、鐵路交通的中心,也是世界航空運(yùn)輸?shù)闹行闹唬彩侵挠^光旅游地,中國(guó)每年都有許多人去觀光游覽,由于當(dāng)?shù)刂v解人員有限,特別是漢語(yǔ)講解,很難為每位游客提供規(guī)范如一的講解服務(wù),于是在一些比較著名的景點(diǎn)設(shè)置電子導(dǎo)游機(jī)系統(tǒng),使用本發(fā)明的系統(tǒng)收集到相關(guān)的雙語(yǔ)數(shù)據(jù),可以把景區(qū)和陳列展示的物品圖文并茂的用雙語(yǔ)對(duì)照的形式表現(xiàn)出來(lái),使觀眾在邊看邊聽(tīng)中,汲取知識(shí),了解內(nèi)涵,享受文化。游客們可以充分了解觀賞對(duì)象深厚的文化底蘊(yùn)。睹物思情、浮想聯(lián)翩,景點(diǎn)、展品的豐富內(nèi)涵在對(duì)照瀏覽后得到升華。
[0059]應(yīng)用實(shí)施例4:
里斯本是工業(yè)城市、國(guó)際化都市,如今是葡萄牙的政治、經(jīng)濟(jì)、文化、教育中心,亦是歐洲著名的旅游城市,該城市的博物館、科技館、會(huì)展中心等室內(nèi)展館內(nèi),用電子導(dǎo)覽系統(tǒng)取代了人工導(dǎo)游以及因噪音大而影響它人游覽的高音喇叭,該系統(tǒng)與本發(fā)明的系統(tǒng)聯(lián)網(wǎng),通過(guò)雙語(yǔ)對(duì)照的形式對(duì)陳列展品的內(nèi)容以圖文并茂的方式展現(xiàn)給游客,使游客在觀賞展品的過(guò)程中使其內(nèi)涵得以延伸,更加生動(dòng)。游客在充分欣賞了展品的外觀表象后,又獲得了豐富的知識(shí)。除此以外,游客還可以通過(guò)觸摸屏上的按鈕,查詢展區(qū)的位置及路徑,自由地享受自助游覽的樂(lè)趣。
[0060]以上所述,僅為本發(fā)明的【具體實(shí)施方式】,但本發(fā)明的保護(hù)范圍并不局限于此,任何熟悉本技術(shù)領(lǐng)域的技術(shù)人員在本發(fā)明揭露的技術(shù)范圍內(nèi),可輕易想到的變化或替換,都應(yīng)涵蓋在本發(fā)明的保護(hù)范圍之內(nèi)。因此,本發(fā)明的保護(hù)范圍應(yīng)該以權(quán)利要求的保護(hù)范圍為準(zhǔn)。
【主權(quán)項(xiàng)】
1.一種漢外雙語(yǔ)平行語(yǔ)料自動(dòng)采集的系統(tǒng),包括漢外雙語(yǔ)平行信息的自動(dòng)發(fā)現(xiàn)模塊、自動(dòng)提取模塊、自動(dòng)整理模塊,其特征在于: (1)自動(dòng)發(fā)現(xiàn)模塊:實(shí)現(xiàn)漢外雙語(yǔ)平行語(yǔ)料自動(dòng)發(fā)現(xiàn)的功能,制定需要采集語(yǔ)料的關(guān)鍵詞組,通過(guò)搜索引擎搜索網(wǎng)站,采集網(wǎng)頁(yè)得到搜索結(jié)果,對(duì)搜索結(jié)果的信息進(jìn)行過(guò)濾和篩選后,將經(jīng)過(guò)濾得搜索結(jié)果存儲(chǔ)于搜索結(jié)果數(shù)據(jù)庫(kù); (2)自動(dòng)提取模塊:實(shí)現(xiàn)漢外雙語(yǔ)平行語(yǔ)料自動(dòng)提取的功能,通過(guò)訪問(wèn)搜索結(jié)果數(shù)據(jù)庫(kù)里的網(wǎng)頁(yè),自動(dòng)提取漢外雙語(yǔ)平行信息; (3)自動(dòng)整理模塊:針對(duì)自動(dòng)提取的漢外雙語(yǔ)平行信息,進(jìn)行數(shù)據(jù)過(guò)濾,并將經(jīng)過(guò)過(guò)濾處理后的漢外雙語(yǔ)平行數(shù)據(jù)存放到漢外雙語(yǔ)平行語(yǔ)料庫(kù)。2.根據(jù)權(quán)利要求1所述的漢外雙語(yǔ)平行語(yǔ)料自動(dòng)采集的系統(tǒng),其特征在于,所述自動(dòng)發(fā)現(xiàn)模塊的漢外雙語(yǔ)平行語(yǔ)料自動(dòng)發(fā)現(xiàn)工作流程為:制定一組或多組漢外互譯關(guān)鍵詞組,通過(guò)搜索引擎獲取搜索結(jié)果,分析搜索結(jié)果并以之為目標(biāo)進(jìn)行數(shù)據(jù)獲取。3.根據(jù)權(quán)利要求1所述的漢外雙語(yǔ)平行語(yǔ)料自動(dòng)采集的系統(tǒng),其特征在于,所述自動(dòng)發(fā)現(xiàn)模塊的漢外雙語(yǔ)平行語(yǔ)料自動(dòng)發(fā)現(xiàn)設(shè)計(jì)原則為: a.所選關(guān)鍵詞組應(yīng)為特定領(lǐng)域范圍內(nèi)的漢外互譯詞組對(duì); b.使用的第三方搜索引擎工具為開(kāi)放式提供搜索服務(wù)方; c.通過(guò)關(guān)鍵詞組搜索得到結(jié)果后,只保存前η頁(yè)信息,η與所選關(guān)鍵詞的熱門程度關(guān)聯(lián),保存內(nèi)容包括搜素結(jié)果URL地址、搜索結(jié)果標(biāo)題和搜索結(jié)果摘要。4.根據(jù)權(quán)利要求1所述的漢外雙語(yǔ)平行語(yǔ)料自動(dòng)采集的系統(tǒng),其特征在于,所述自動(dòng)提取模塊的雙語(yǔ)平行語(yǔ)料自動(dòng)提取工作流程為:使用網(wǎng)頁(yè)機(jī)器人對(duì)目標(biāo)網(wǎng)頁(yè)進(jìn)行訪問(wèn),使用對(duì)應(yīng)的漢外互譯關(guān)鍵詞組對(duì)目標(biāo)頁(yè)面內(nèi)容進(jìn)行內(nèi)容定位,從定位點(diǎn)開(kāi)始,前后遍歷并獲取頁(yè)面數(shù)據(jù)。5.根據(jù)權(quán)利要求1所述的漢外雙語(yǔ)平行語(yǔ)料自動(dòng)采集的系統(tǒng),其特征在于,所述自動(dòng)提取模塊的網(wǎng)絡(luò)雙語(yǔ)平行語(yǔ)料提取原則: a.規(guī)定訪問(wèn)的頁(yè)面文件類型只能為“!^!^”、“!^!!!”、、!^!^”以及常見(jiàn)的頁(yè)面文件類型,對(duì)非規(guī)定類型的頁(yè)面將不進(jìn)行訪問(wèn); b.訪問(wèn)目標(biāo)網(wǎng)頁(yè)前,網(wǎng)絡(luò)檢查目標(biāo)網(wǎng)站的robots,txt文件,若目標(biāo)頁(yè)面存在于robots, txt文件上,將不對(duì)該目標(biāo)網(wǎng)頁(yè)進(jìn)行訪問(wèn); c.要多抽取完整雙語(yǔ)數(shù)據(jù),在抽取過(guò)程中,包含在目標(biāo)語(yǔ)言數(shù)據(jù)里的html標(biāo)簽頁(yè)將視為抽取對(duì)象。6.根據(jù)權(quán)利要求1所述的漢外雙語(yǔ)平行語(yǔ)料自動(dòng)采集的系統(tǒng),其特征在于,所述自動(dòng)提取模塊的工作流程主要包含以下幾個(gè)步驟: (1)非目標(biāo)語(yǔ)言信息過(guò)濾:分別對(duì)采集到的漢外數(shù)據(jù)進(jìn)行字符過(guò)濾,主要過(guò)濾html標(biāo)簽、網(wǎng)頁(yè)代碼和一些非語(yǔ)言符號(hào),去除采集信息中的噪音數(shù)據(jù),得到干凈的漢外雙語(yǔ)平行數(shù)據(jù); (2)漢外分詞過(guò)程:使用漢語(yǔ)和外語(yǔ)分詞工具,對(duì)漢語(yǔ)和外語(yǔ)數(shù)據(jù)進(jìn)行分詞操作,為后面的數(shù)據(jù)處理過(guò)程提供基礎(chǔ)。7.根據(jù)權(quán)利要求1所述的漢外雙語(yǔ)平行語(yǔ)料自動(dòng)采集的系統(tǒng),其特征在于,所述自動(dòng)整理模塊的工作流程主要包含以下幾個(gè)步驟: (I)長(zhǎng)度比和互譯匹配率計(jì)算:針對(duì)自動(dòng)抽取的數(shù)據(jù)進(jìn)行有效過(guò)濾,分別對(duì)抽取回來(lái)的漢外雙語(yǔ)平行數(shù)據(jù)中的每一組雙語(yǔ)數(shù)據(jù)進(jìn)行長(zhǎng)度比和互譯匹配率的計(jì)算,將長(zhǎng)度差距較大的數(shù)據(jù)進(jìn)行過(guò)濾,并進(jìn)行漢外雙語(yǔ)平行數(shù)據(jù)的互譯匹配判斷,篩選出正確的平行數(shù)據(jù); (2 )將經(jīng)過(guò)處理后的漢外雙語(yǔ)平行數(shù)據(jù)將存放入漢外雙語(yǔ)平行語(yǔ)料庫(kù)。8.根據(jù)權(quán)利要求1所述的漢外雙語(yǔ)平行語(yǔ)料自動(dòng)采集的系統(tǒng),其特征在于,所述漢外雙語(yǔ)平行語(yǔ)料自動(dòng)采集系統(tǒng)的實(shí)現(xiàn)方法為:設(shè)置數(shù)據(jù)采集服務(wù)器、數(shù)據(jù)處理服務(wù)器、數(shù)據(jù)存儲(chǔ)服務(wù)器和外網(wǎng)交換機(jī)、內(nèi)網(wǎng)交換機(jī),將自動(dòng)發(fā)現(xiàn)模塊嵌入數(shù)據(jù)采集服務(wù)器,自動(dòng)提取模塊、自動(dòng)整理模塊嵌入數(shù)據(jù)處理服務(wù)器; 數(shù)據(jù)采集人員將數(shù)據(jù)采集服務(wù)器與外網(wǎng)交換機(jī)連接,使數(shù)據(jù)采集服務(wù)器能訪問(wèn)到互聯(lián)網(wǎng)服務(wù),數(shù)據(jù)采集人員使用外網(wǎng)臺(tái)式計(jì)算機(jī)編排需要采集數(shù)據(jù)的相關(guān)關(guān)鍵詞組,確定采集任務(wù)后,向數(shù)據(jù)采集服務(wù)器發(fā)送啟動(dòng)自動(dòng)采集請(qǐng)求,數(shù)據(jù)采集服務(wù)器接收臺(tái)式電腦傳輸?shù)年P(guān)鍵詞組數(shù)據(jù)和任務(wù)啟動(dòng)命令后,開(kāi)始運(yùn)行數(shù)據(jù)自動(dòng)發(fā)現(xiàn)程序,通過(guò)互聯(lián)網(wǎng)獲取所有關(guān)鍵詞組的搜索結(jié)果后,將搜索結(jié)果保存到本地;數(shù)據(jù)采集人員將數(shù)據(jù)采集服務(wù)器與外網(wǎng)交換機(jī)斷開(kāi)連接,并與內(nèi)網(wǎng)交換機(jī)連接; 數(shù)據(jù)采集人員啟動(dòng)數(shù)據(jù)處理服務(wù)器中的數(shù)據(jù)自動(dòng)提取和自動(dòng)整理程序,數(shù)據(jù)處理服務(wù)器讀取存儲(chǔ)在數(shù)據(jù)采集服務(wù)器中的搜索結(jié)果,進(jìn)行數(shù)據(jù)自動(dòng)提取和自動(dòng)整理,程序完成工作后,將獲取到的所有的雙語(yǔ)數(shù)據(jù)保存于數(shù)據(jù)存儲(chǔ)服務(wù)器。
【專利摘要】一種漢外雙語(yǔ)平行語(yǔ)料自動(dòng)采集的系統(tǒng)及實(shí)現(xiàn)方法,包括漢外雙語(yǔ)平行信息的自動(dòng)發(fā)現(xiàn)、自動(dòng)提取、自動(dòng)整理,首先,制定需要采集語(yǔ)料的關(guān)鍵詞組,通過(guò)搜索引擎搜索網(wǎng)站,采集網(wǎng)頁(yè)得到搜索結(jié)果,對(duì)搜索結(jié)果的信息進(jìn)行過(guò)濾和篩選后,將經(jīng)過(guò)濾得搜索結(jié)果存儲(chǔ)于搜索結(jié)果數(shù)據(jù)庫(kù);其次,通過(guò)訪問(wèn)搜索結(jié)果數(shù)據(jù)庫(kù)里的網(wǎng)頁(yè),自動(dòng)提取漢外雙語(yǔ)平行信息;最后,針對(duì)自動(dòng)提取的漢外雙語(yǔ)平行信息,進(jìn)行數(shù)據(jù)過(guò)濾,并將經(jīng)過(guò)過(guò)濾處理后的漢外雙語(yǔ)平行數(shù)據(jù)存放到漢外雙語(yǔ)平行語(yǔ)料庫(kù)。本發(fā)明為漢外語(yǔ)言研究和機(jī)器翻譯應(yīng)用提供重要基礎(chǔ)數(shù)據(jù),解決了語(yǔ)料采集人員和研究人員所面臨的數(shù)據(jù)來(lái)源的問(wèn)題,為雙語(yǔ)語(yǔ)料自動(dòng)采集的發(fā)展和漢外自然語(yǔ)言處理做出了杰出的貢獻(xiàn)。
【IPC分類】G06F17/30
【公開(kāi)號(hào)】CN105045862
【申請(qǐng)?zhí)枴緾N201510407578
【發(fā)明人】溫家凱, 農(nóng)強(qiáng), 劉連芳, 鄧姿嫻, 陸迪茜
【申請(qǐng)人】廣西達(dá)譯商務(wù)服務(wù)有限責(zé)任公司, 南寧市平方軟件新技術(shù)有限責(zé)任公司
【公開(kāi)日】2015年11月11日
【申請(qǐng)日】2015年7月13日
當(dāng)前第4頁(yè)1 2 3 4 
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
钟山县| 鹿邑县| 阳春市| 酉阳| 濉溪县| 田东县| 澄江县| 凤山县| 墨脱县| 旌德县| 阿坝县| 建宁县| 宁陕县| 马鞍山市| 惠东县| 台中市| 南木林县| 延吉市| 邹城市| 迭部县| 筠连县| 茌平县| 田林县| 武川县| 防城港市| 滦南县| 永泰县| 镇江市| 泌阳县| 屯门区| 永清县| 乌兰浩特市| 高尔夫| 泰来县| 瑞金市| 晋城| 沈丘县| 拜城县| 南昌市| 团风县| 灌云县|