欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于相似度匹配算法為待譯稿件匹配譯員的方法與流程

文檔序號(hào):12665900閱讀:381來(lái)源:國(guó)知局

本發(fā)明屬于自然語(yǔ)言處理、信息檢索,尤其涉及一種基于相似度匹配算法為待譯稿件匹配譯員的方法。



背景技術(shù):

在大體量的翻譯公司或者翻譯平臺(tái)上,不得不面對(duì)的一個(gè)問(wèn)題是如何為待譯稿件匹配譯員,常見(jiàn)的做法是人工判別和機(jī)器判別,人工判別是通過(guò)語(yǔ)言專家或翻譯專家分別對(duì)翻譯文檔和譯員進(jìn)行分析和判斷,由于人的閱讀和理解限制,這種方法速度較慢同時(shí)要耗費(fèi)非常大的的人力成本,并且由于判別人能力的參差以及每人對(duì)文檔難度的理解不同而產(chǎn)生很大的判別差別,判別結(jié)果無(wú)法做到統(tǒng)一標(biāo)準(zhǔn),客觀性很差;機(jī)器判別的方法包括一種方法:根據(jù)譯稿匹配譯員,實(shí)際是通過(guò)譯稿匹配譯稿庫(kù)中已有譯稿,進(jìn)而確定譯員。

文檔相似度匹配可以通過(guò)搜索引擎實(shí)現(xiàn),Lucene是一套用于全文檢索和搜索的開(kāi)源程序庫(kù),為互聯(lián)網(wǎng)時(shí)代搜索引擎是常見(jiàn)的信息檢索工具。

通常一個(gè)文檔集合里會(huì)有很多文檔包含某個(gè)單詞,每個(gè)文檔會(huì)記錄文檔編號(hào),單詞在這個(gè)文檔中出現(xiàn)的次數(shù)(TF)及單詞在文檔中哪些位置出現(xiàn)過(guò)等信息,這樣與一個(gè)文檔相關(guān)的信息叫做倒排索引項(xiàng),包含這個(gè)單詞的一系列倒排索引項(xiàng)構(gòu)成了這個(gè)單詞對(duì)應(yīng)的倒排索引表,成萬(wàn)上億個(gè)單詞的倒排索引表構(gòu)成了倒排索引。

目前,對(duì)利用文檔處理及匹配提高匹配譯員的效率尚有許多提高空間。



技術(shù)實(shí)現(xiàn)要素:

本發(fā)明所要解決的技術(shù)問(wèn)題是通過(guò)對(duì)已有譯稿和待譯稿進(jìn)行預(yù)處理,基于高效的相似度匹配算法對(duì)預(yù)處理后的已有譯稿和預(yù)處理后的待譯稿進(jìn)行相似度匹配,從而高效準(zhǔn)確地匹配到合適的譯員。

為解決上述技術(shù)問(wèn)題,本發(fā)明提供了一種基于相似度匹配算法為待譯稿件匹配譯員的方法,其特征是包括以下步驟:

(1)對(duì)已有譯稿進(jìn)行預(yù)處理,所述已有譯稿均記錄著完稿譯員的信息,所述預(yù)處理包括分詞;

(2)對(duì)待譯稿件進(jìn)行預(yù)處理,所述預(yù)處理包括分詞;

(3)將預(yù)處理后的已有譯稿與預(yù)處理后的待譯稿件進(jìn)行文檔相似度匹配,獲得候選譯稿;

(4)獲取候選譯稿記錄的譯員信息,保存為待譯稿件匹配譯員的信息;

所述將預(yù)處理后的已有譯稿與預(yù)處理后的待譯稿件進(jìn)行文檔相似度匹配的步驟是根據(jù)公式(一)計(jì)算文檔相似度,所述公式(一)為:

其中,Q表示待譯稿件,d表示已有譯稿,qi表示預(yù)處理后的待譯稿件詞語(yǔ),N表示譯稿庫(kù)中的總文檔數(shù);

k1, b為調(diào)節(jié)因子,設(shè)置k1=1.2,b=0.75,fi為qi在d中的出現(xiàn)次數(shù),n(qi)為譯稿庫(kù)中包含qi的文檔數(shù),dl為已有譯稿d的長(zhǎng)度,avgdl為譯稿庫(kù)中所有文檔的平均長(zhǎng)度;

所述公式一的計(jì)算因子N,qi,n(qi),dl,avgdl,fi由以下步驟得出;

(a)記錄譯稿庫(kù)中的總文檔數(shù)N,總文檔長(zhǎng)度adl,根據(jù)公式 計(jì)算得出平均文檔長(zhǎng)度avgdl;

(b)根據(jù)步驟(2)獲取預(yù)處理后的待譯稿件詞語(yǔ)qi,獲取已有譯稿d的長(zhǎng)度dl,獲取qi在已有譯稿d中的出現(xiàn)次數(shù) fi,計(jì)算譯稿庫(kù)中包含qi的文檔數(shù)n(qi) 。

進(jìn)一步,所述公式(一)是由公式集合(二)轉(zhuǎn)換而來(lái),

所述公式集合(二)為:

其中, Wi表示qi的權(quán)重;R(qi,d)表示qi與已有譯稿d的相關(guān)性得分,

k1,k2,b為調(diào)節(jié)因子,設(shè)k2=0 ,qfi為qi在待譯稿件中的出現(xiàn)頻率,Wi表示詞語(yǔ)與文檔相關(guān)性的權(quán)重,IDF為逆文檔頻率。

進(jìn)一步,所述對(duì)待譯稿件進(jìn)行預(yù)處理的步驟是:對(duì)待譯稿件進(jìn)行分詞,形成待譯稿件詞匯集合,提取待譯稿件主題,對(duì)待譯稿件分詞后的待譯稿件詞匯集合和待譯稿件主題進(jìn)行加權(quán),獲得預(yù)處理后的待譯稿件;

進(jìn)一步,所述對(duì)已有譯稿進(jìn)行預(yù)處理的步驟是:(1)對(duì)已有譯稿分詞并建立基于詞匯的倒排索引;(2) 對(duì)分詞后的已有譯稿提取主題,建立基于譯稿主題的倒排索引;(3)對(duì)基于詞匯的倒排索引和基于譯稿主題的倒排索引進(jìn)行加權(quán),獲得預(yù)處理后的已有譯稿。

進(jìn)一步,所述對(duì)已有譯稿分詞后提取主題的方法是:(1)如果有標(biāo)題,將標(biāo)題默認(rèn)為主題;(2)如果沒(méi)有標(biāo)題,但有關(guān)鍵詞,根據(jù)關(guān)鍵詞提取譯稿主題;(3)如果沒(méi)有標(biāo)題,也沒(méi)有關(guān)鍵詞,默認(rèn)首句為主題句。

進(jìn)一步,所述對(duì)待譯稿件進(jìn)行分詞是通過(guò)調(diào)用Lucene搜索引擎進(jìn)行分詞,所述Lucene搜索引擎包括若干種分詞器。

進(jìn)一步,所述Lucene搜索引擎根據(jù)語(yǔ)種類別采用相匹配的分詞器對(duì)譯稿庫(kù)中已有譯稿進(jìn)行分詞。

進(jìn)一步,所述Lucene搜索引擎根據(jù)語(yǔ)種類別采用相匹配的分詞器,所述語(yǔ)種類別包括拉丁語(yǔ)系和東亞語(yǔ)系,所述拉丁語(yǔ)系采用具有詞干提取功能的分詞器,所述東亞語(yǔ)系采用基于詞典和統(tǒng)計(jì)的分詞器。

采用上述技術(shù)方案,可達(dá)到以下效果:

通過(guò)譯稿匹配譯員,代替人工指派譯員,降低人工勞動(dòng)強(qiáng)度,提高匹配準(zhǔn)確率;

通過(guò)對(duì)對(duì)已有譯稿和待譯稿進(jìn)行預(yù)處理提高了匹配基礎(chǔ) ;

通過(guò)高效的相似度匹配算法提高了匹配效率和質(zhì)量。

附圖說(shuō)明

此處所說(shuō)明的附圖用來(lái)提供對(duì)本發(fā)明的進(jìn)一步理解,構(gòu)成本申請(qǐng)的一部分,本發(fā)明的示意性實(shí)施例及其說(shuō)明用于解釋本發(fā)明,并不構(gòu)成對(duì)本發(fā)明的不當(dāng)限定,在附圖中:

圖1示出了一種基于相似度匹配算法為待譯稿件匹配譯員的方法的流程示意圖。

具體實(shí)施方式

下面結(jié)合附圖和具體實(shí)施方式對(duì)本發(fā)明的技術(shù)方案作進(jìn)一步具體說(shuō)明。

為解決上述技術(shù)問(wèn)題,本發(fā)明提供了一種基于相似度匹配算法為待譯稿件匹配譯員的方法,如圖1所示,其特征是包括以下步驟:

為解決上述技術(shù)問(wèn)題,本發(fā)明提供了一種基于相似度匹配算法為待譯稿件匹配譯員的方法,其特征是包括以下步驟:

(1)對(duì)已有譯稿進(jìn)行預(yù)處理,所述已有譯稿均記錄著完稿譯員的信息,所述預(yù)處理包括分詞;

(2)對(duì)待譯稿件進(jìn)行預(yù)處理,所述預(yù)處理包括分詞;

(3)將預(yù)處理后的已有譯稿與預(yù)處理后的待譯稿件進(jìn)行文檔相似度匹配,獲得候選譯稿;

(4)獲取候選譯稿記錄的譯員信息,保存為待譯稿件匹配譯員的信息;

所述將預(yù)處理后的已有譯稿與預(yù)處理后的待譯稿件進(jìn)行文檔相似度匹配的步驟是根據(jù)公式(一)計(jì)算文檔相似度,所述公式(一)為:

其中,Q表示待譯稿件,d表示已有譯稿,qi表示預(yù)處理后的待譯稿件詞語(yǔ),N表示譯稿庫(kù)中的總文檔數(shù);

k1, b為調(diào)節(jié)因子,設(shè)置k1=1.2,b=0.75,fi為qi在d中的出現(xiàn)次數(shù),n(qi)為譯稿庫(kù)中包含qi的文檔數(shù),dl為已有譯稿d的長(zhǎng)度,avgdl為譯稿庫(kù)中所有文檔的平均長(zhǎng)度;

所述公式一的計(jì)算因子N,qi,n(qi),dl,avgdl,fi由以下步驟得出;

(a)記錄譯稿庫(kù)中的總文檔數(shù)N,總文檔長(zhǎng)度adl,根據(jù)公式 計(jì)算得出平均文檔長(zhǎng)度avgdl;

(b)根據(jù)步驟(2)獲取預(yù)處理后的待譯稿件詞語(yǔ)qi,獲取已有譯稿d的長(zhǎng)度dl,獲取qi在已有譯稿d中的出現(xiàn)次數(shù) fi,計(jì)算譯稿庫(kù)中包含qi的文檔數(shù)n(qi) 。

進(jìn)一步,所述公式(一)是由公式集合(二)轉(zhuǎn)換而來(lái),

所述公式集合(二)為:

其中, Wi表示qi的權(quán)重;R(qi,d)表示qi與已有譯稿d的相關(guān)性得分,

k1,k2,b為調(diào)節(jié)因子,設(shè)k2=0 ,qfi為qi在待譯稿件中的出現(xiàn)頻率,Wi表示詞語(yǔ)與文檔相關(guān)性的權(quán)重,IDF為逆文檔頻率。

進(jìn)一步,所述對(duì)待譯稿件進(jìn)行預(yù)處理的步驟是:對(duì)待譯稿件進(jìn)行分詞,形成待譯稿件詞匯集合,提取待譯稿件主題,對(duì)待譯稿件分詞后的待譯稿件詞匯集合和待譯稿件主題進(jìn)行加權(quán),獲得預(yù)處理后的待譯稿件;

進(jìn)一步,所述對(duì)已有譯稿進(jìn)行預(yù)處理的步驟是:(1)對(duì)已有譯稿分詞并建立基于詞匯的倒排索引;(2) 對(duì)分詞后的已有譯稿提取主題,建立基于譯稿主題的倒排索引;(3)對(duì)基于詞匯的倒排索引和基于譯稿主題的倒排索引進(jìn)行加權(quán),獲得預(yù)處理后的已有譯稿。

進(jìn)一步,所述對(duì)已有譯稿分詞后提取主題的方法是:(1)如果有標(biāo)題,將標(biāo)題默認(rèn)為主題;(2)如果沒(méi)有標(biāo)題,但有關(guān)鍵詞,根據(jù)關(guān)鍵詞提取譯稿主題;(3)如果沒(méi)有標(biāo)題,也沒(méi)有關(guān)鍵詞,默認(rèn)首句為主題句。

進(jìn)一步,所述對(duì)待譯稿件進(jìn)行分詞是通過(guò)調(diào)用Lucene搜索引擎進(jìn)行分詞,所述Lucene搜索引擎包括若干種分詞器。

進(jìn)一步,所述Lucene搜索引擎根據(jù)語(yǔ)種類別采用相匹配的分詞器對(duì)譯稿庫(kù)中已有譯稿進(jìn)行分詞。

進(jìn)一步,所述Lucene搜索引擎根據(jù)語(yǔ)種類別采用相匹配的分詞器,所述語(yǔ)種類別包括拉丁語(yǔ)系和東亞語(yǔ)系,所述拉丁語(yǔ)系采用具有詞干提取功能的分詞器,所述東亞語(yǔ)系采用基于詞典和統(tǒng)計(jì)的分詞器。

本領(lǐng)域技術(shù)人員還應(yīng)當(dāng)理解,以上所述僅為本發(fā)明的優(yōu)選實(shí)施例而已,并不用于限制本發(fā)明,對(duì)于本領(lǐng)域的技術(shù)人員來(lái)說(shuō),本發(fā)明可以有各種更改和變化。凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。

當(dāng)前第1頁(yè)1 2 3 
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
镇赉县| 鄂托克旗| 海口市| 五原县| 临高县| 千阳县| 东乌| 英吉沙县| 铁岭市| 瑞丽市| 永嘉县| 皮山县| 嘉善县| 额济纳旗| 昭觉县| 柳江县| 万宁市| 兴国县| 嘉善县| 巴林左旗| 绥江县| 东莞市| 台安县| 财经| 柘荣县| 丰镇市| 本溪市| 周宁县| 周至县| 东乡县| 嘉黎县| 中牟县| 潜江市| 霞浦县| 沽源县| 德昌县| 安乡县| 郁南县| 广东省| 安陆市| 东乡|