一種對翻譯質(zhì)量影響因素的分析方法
【專利摘要】本發(fā)明公開了一種對翻譯質(zhì)量影響因素的分析方法,包括:將每篇已翻譯文檔的翻譯質(zhì)量信息數(shù)據(jù)及若干影響因素組合,得到數(shù)據(jù)項,將所有所述數(shù)據(jù)項進行合并處理,得到多個數(shù)據(jù)集,建立事務數(shù)據(jù)庫;所述事務數(shù)據(jù)庫中的每一條記錄對應一個所述數(shù)據(jù)集;根據(jù)所述事務數(shù)據(jù)庫中的每條記錄,進行關聯(lián)計算,得到所述翻譯質(zhì)量信息數(shù)據(jù)與所述影響因素的關聯(lián)規(guī)則。本發(fā)明通過對翻譯質(zhì)量與影響因素進行關聯(lián)計算,提高了翻譯質(zhì)量與相關影響因素關聯(lián)的準確性。
【專利說明】一種對翻譯質(zhì)量影響因素的分析方法
【技術領域】
[0001]本發(fā)明涉及一種翻譯【技術領域】,具體而言,涉及一種對翻譯質(zhì)量影響因素的分析方法。
【背景技術】
[0002]對于翻譯服務企業(yè),影響翻譯質(zhì)量的因素很多,翻譯服務企業(yè)需要從業(yè)務接洽、譯前準備、翻譯、審校、編輯、檢驗、客戶反饋以及文檔管理、責任和保密等各個方面進行進行規(guī)范。其中對翻譯質(zhì)量影響最大的因素就是譯文在翻譯過程中出現(xiàn)的各種形式的翻譯錯誤。這些不同等級、類型的錯誤,往往跟譯員、譯文、翻譯過程、翻譯質(zhì)量等諸多因素相關,這些因素之間往往互相關聯(lián)、互相牽制、互為因果,因此,對于提高翻譯質(zhì)量關聯(lián)的影響因素的準確性一直是研究的重點。
【發(fā)明內(nèi)容】
[0003]本發(fā)明旨在提供一種對翻譯質(zhì)量影響因素的分析方法,解決了如何提高翻譯質(zhì)量關聯(lián)的影響因素的準確性的問題。
[0004]本發(fā)明公開了一種對翻譯質(zhì)量影響因素的分析方法,包括:
[0005]將每篇已翻譯文檔的翻譯質(zhì)量信息數(shù)據(jù)及若干影響因素組合,得到數(shù)據(jù)項,將所有所述數(shù)據(jù)項進行合并處理,得到多個數(shù)據(jù)集,建立事務數(shù)據(jù)庫;所述事務數(shù)據(jù)庫中的每一條記錄對應一個所述數(shù)據(jù)集;
[0006]根據(jù)所述事務數(shù)據(jù)庫中的每條記錄,進行關聯(lián)計算,得到所述翻譯質(zhì)量信息數(shù)據(jù)與所述影響因素的關聯(lián)規(guī)則。
[0007]優(yōu)選地,所述翻譯質(zhì)量信息數(shù)據(jù)通過所述已翻譯文檔的翻譯質(zhì)量、翻譯速度及客戶反饋組合得到。
[0008]優(yōu)選地,一個所述影響因素為以下之一:譯員ID、譯員性別、譯員專業(yè)、譯員翻譯能力、譯員是否簽約、譯員所屬供應商、譯員所屬供應商規(guī)模、譯員合作次數(shù)、已翻譯文檔的類型、已翻譯文檔的翻譯方向、已翻譯文檔的翻譯難度、使用的輔助翻譯工具、審校次數(shù)、審校級別和譯文反饋次數(shù)。
[0009]優(yōu)選地,所述合并處理包括:
[0010]將同一個所述譯員ID的數(shù)據(jù)項進行歸集,得到所述數(shù)據(jù)集。
[0011]優(yōu)選地,所述關聯(lián)計算包括:
[0012]根據(jù)所述事務數(shù)據(jù)庫中的記錄,遞推出頻繁k+Ι項集,并計算所有得到的頻繁項集中的任一真子集與其補集的關聯(lián)程度,結果滿足置信度閥值要求,輸出所述關聯(lián)規(guī)則。
[0013]優(yōu)選地,所述遞推出頻繁k+Ι項集的過程包括:
[0014]掃描事務數(shù)據(jù)庫,根據(jù)事務數(shù)據(jù)庫中的記錄中所述數(shù)據(jù)項,得到所述事務數(shù)據(jù)庫中所有的I項集;
[0015]計算每個所述I項集的支持度,得到支持度不小于最小支持度閥值的頻繁I項集;
[0016]通過頻繁k項集與頻繁I項集進行無重復合并,生成支持度不小于最小支持度閥值的頻繁k+Ι項集。
[0017]優(yōu)選地,還包括:
[0018]每個所述I項集對應著有一布爾數(shù)組,該布爾數(shù)組長度為事務數(shù)據(jù)庫的記錄總數(shù),所述布爾數(shù)組的各個數(shù)位按照所述事務數(shù)據(jù)庫中的記錄的順序一一與所述事務數(shù)據(jù)庫的記錄對應;
[0019]若事務數(shù)據(jù)庫中的某條記錄包含該I項集中的項,則將與該記錄對應的數(shù)位上的邏輯值記為I;否則,記為O;
[0020]計算所述所有I項集的支持度,剔除支持度小于最小支持度閥值的所述I項集,得到所述頻繁I項集;
[0021]其中,布爾數(shù)組中“I”的個數(shù)與布爾數(shù)組的數(shù)位長度之比作為所述支持度。
[0022]優(yōu)選地,還包括:
[0023]所述k+Ι項集及其對應的布爾數(shù)組由頻繁K項集及其布爾數(shù)組和頻繁I項集及其布爾數(shù)組進行無重復合并得到;
[0024]在所述無重復合并的過程中,頻繁k項集的布爾數(shù)組與頻繁I項集的布爾數(shù)組上的相同數(shù)位上的邏輯值進行邏輯與運算,得到候選頻繁k+Ι項集的布爾數(shù)組;
[0025]計算所述所有候選頻繁k+Ι項集的支持度;剔除支持度小于最小支持度閥值的所述k+Ι項集,得到所述頻繁k+Ι項集。
[0026]本發(fā)明中的翻譯錯誤的數(shù)據(jù)分析方法,具有以下優(yōu)點:
[0027]1、通過對錯誤數(shù)據(jù)和影響因素進行關聯(lián)計算,提高了翻譯質(zhì)量數(shù)據(jù)關聯(lián)的準確性;
[0028]2、本發(fā)明對頻繁項集搜索和檢出的方法,只需在生成I項集表時掃描I次事務數(shù)據(jù)庫D,相比大部分其他關聯(lián)規(guī)則算法的多次讀取事務數(shù)據(jù)庫而言,大為減少了由于讀取事務數(shù)據(jù)庫而產(chǎn)生的IO開銷;生成頻繁項集時不用先產(chǎn)生候選項,頻繁k項集由頻繁I項集和頻繁k-Ι項集直接生成,相較于同樣只需一次掃描事務數(shù)據(jù)庫但需將事務數(shù)據(jù)庫壓縮到頻繁模式樹的FP-growth方法而言,有更少的內(nèi)存消耗;
[0029]3、本方法中通過采用布爾數(shù)組來進行頻繁項集的挖掘,最大的計算消耗為“邏輯與”運算,符合計算機的最底層的計算處理模式,由此設計出的軟件不但運算速度快,對于cpu和內(nèi)存的消耗也最為節(jié)省。
【專利附圖】
【附圖說明】
[0030]此處所說明的附圖用來提供對本發(fā)明的進一步理解,構成本申請的一部分,本發(fā)明的示意性實施例及其說明用于解釋本發(fā)明,并不構成對本發(fā)明的不當限定。在附圖中:[0031 ] 圖1示出了實施例的流程圖。
【具體實施方式】
[0032]下面將參考附圖并結合實施例,來詳細說明本發(fā)明。
[0033]本實施例中提供了一種對翻譯質(zhì)量影響因素的分析方法,包括:[0034]將每篇已翻譯文檔的翻譯質(zhì)量信息數(shù)據(jù)及若干影響因素組合,得到數(shù)據(jù)項,將所有所述數(shù)據(jù)項進行合并處理,得到多個數(shù)據(jù)集,建立事務數(shù)據(jù)庫;所述事務數(shù)據(jù)庫中的每一條記錄對應一個所述數(shù)據(jù)集;
[0035]根據(jù)所述事務數(shù)據(jù)庫中的每條記錄,進行關聯(lián)計算,得到所述翻譯質(zhì)量信息數(shù)據(jù)與所述影響因素的關聯(lián)規(guī)則。
[0036]實施例中的翻譯質(zhì)量信息數(shù)據(jù)是通過將已翻譯文檔的的翻譯質(zhì)量、翻譯速度和客戶反饋組合得到;
[0037]翻譯質(zhì)量按“優(yōu)”、“良”、“中”、“一般”、“差”分為5檔,分別為grdl、grd2、grd3、grd4、grd50
[0038]客戶反饋按“優(yōu)”、“良”、“中”、“一般”、“差”分為5檔,分別為cgrdUcgrd2,cgrd3,cgrd4、cgrd5。
[0039]翻譯速度分5檔,從快到慢分別為,spdl, spd2, spd3, spd4, spd5。
[0040]一個所述影響因素為以下之一:譯員ID、譯員性別、譯員專業(yè)、譯員翻譯能力、譯員是否簽約、譯員所屬供應商、譯員所屬供應商規(guī)模、譯員合作次數(shù)、已翻譯文檔的類型、已翻譯文檔的翻譯方向、已翻譯文檔的難度、使用的輔助翻譯工具、審校次數(shù)和審校級別。
[0041]影響因素的表示,例如如下:
[0042]譯員ID:ΙΡ(η),η為譯員序號;
[0043]譯員性別:男:male;女:female ;
[0044]專業(yè):譯員所學的專業(yè),以pro (η)表示;η為專業(yè)的序號。
[0045]翻譯能力:譯員具備的語種和行業(yè)學科領域的專業(yè)能力,這是個多項集,每個譯員可能有多項能力,以集合形式表示{capl、cap2...}。
[0046]是否簽約:表不該譯貝是否是簽約譯貝,簽約為sign,未簽約為not_sign。
[0047]所屬供應商:該譯員所屬的翻譯公司,以sup (η)表示,η為翻譯公司序號。
[0048]供應商規(guī)模:按供應商的規(guī)模大小,50個譯員以上為大;50?20為中;20以下為小。分別對應 scalel、scale2、scale3。
[0049]譯員合作次數(shù):以col (η)表示,η為合作次數(shù)。
[0050]譯文類別:譯文類別為該譯文所屬的行業(yè)或?qū)W科領域類別,與譯員的能力項相對應,表示形式為icap(n),η為譯員類別序號。
[0051]譯文方向:表示譯文為哪個翻譯方向,即其源語種和目標翻譯語種,如中到英表示為CN-EN,其他的類同。
[0052]譯文難度:表示該譯文翻譯的難易程度,分為5檔,從難到易為levl、lev2、lev3、lev4>lev5。
[0053]使用何種輔助翻譯工具:CAT(n)表示,η為輔助翻譯工具的序號,其中η為O表示沒有使用輔助翻譯工具。
[0054]審校次數(shù):以chk(n)表示,η表示該譯文審校的次數(shù);
[0055]審校級別:以rev (η)表示,η表示審校的級別。
[0056]譯文反饋次數(shù):以FB (η),η表示譯文在項目經(jīng)理與譯員之間的反饋次數(shù)。
[0057]優(yōu)選地,所述合并處理包括:
[0058]將同一個所述譯員ID的數(shù)據(jù)項進行歸集,得到所述數(shù)據(jù)集。[0059]優(yōu)選地,所述關聯(lián)計算包括:
[0060]根據(jù)所述事務數(shù)據(jù)庫中的記錄,遞推出頻繁k+Ι項集,并計算所有得到的頻繁項集中的任一真子集與其補集的關聯(lián)程度,結果滿足置信度閥值要求,輸出所述關聯(lián)規(guī)則。
[0061]優(yōu)選地,所述遞推出頻繁k+Ι項集的過程包括:
[0062]掃描事務數(shù)據(jù)庫,根據(jù)事務數(shù)據(jù)庫中的記錄中所述數(shù)據(jù)項,得到所述事務數(shù)據(jù)庫中所有的I項集;
[0063]計算每個所述I項集的支持度,得到支持度不小于最小支持度閥值的頻繁I項集;
[0064]通過頻繁k項集與頻繁I項集進行無重復合并,生成支持度不小于最小支持度閥值的頻繁k+Ι項集。
[0065]優(yōu)選地,還包括:
[0066]每個所述I項集對應著有一布爾數(shù)組,該布爾數(shù)組長度為事務數(shù)據(jù)庫的記錄總數(shù),所述布爾數(shù)組的各個數(shù)位按照所述事務數(shù)據(jù)庫中的記錄的順序一一與所述事務數(shù)據(jù)庫的記錄對應;
[0067]若事務數(shù)據(jù)庫中的某條記錄包含該I項集中的項,則將與該記錄對應的數(shù)位上的邏輯值記為I;否則,記為O;
[0068]計算所述所有I項集的支持度,剔除支持度小于最小支持度閥值的所述I項集,得到所述頻繁I項集;
[0069]其中,布爾數(shù)組中“I”的個數(shù)與布爾數(shù)組的數(shù)位長度之比作為所述支持度。
[0070]優(yōu)選地,還包括:
[0071]所述k+Ι項集及其對應的布爾數(shù)組由頻繁K項集及其布爾數(shù)組和頻繁I項集及其布爾數(shù)組進行無重復合并得到;
[0072]在所述無重復合并的過程中,頻繁k項集的布爾數(shù)組與頻繁I項集的布爾數(shù)組上的相同數(shù)位上的邏輯值進行邏輯與運算,得到候選頻繁k+Ι項集的布爾數(shù)組;
[0073]計算所述所有候選頻繁k+Ι項集的支持度;剔除支持度小于最小支持度閥值的所述k+Ι項集,得到所述頻繁k+Ι項集。
[0074]進一步的,還本方案還提供一個優(yōu)選的實施例:
[0075]數(shù)據(jù)采集:
[0076]本方法采集以下潛在的與翻譯質(zhì)量有關因素的數(shù)據(jù)信息。包括翻譯結果信息、譯員基本信息、譯文基本信息、翻譯過程信息。其中翻譯結果信息包括:翻譯速度、翻譯質(zhì)量、客戶反饋;譯員基本信息包括:性別、專業(yè)、翻譯能力、是否簽約、所屬供應商、譯員合作次數(shù);譯文基本信息包括:譯文方向、譯文類別、譯文難度、翻譯價格;翻譯過程信息包括:使用何種輔助翻譯工具、譯文審校次數(shù)、審校級別、譯文在客戶項目經(jīng)理及譯員之間的反饋次數(shù)。
[0077]數(shù)據(jù)預處理:
[0078]將錯誤數(shù)據(jù)和影響因素進行表述,例如實施例1中的表示;
[0079]得到若干數(shù)據(jù)項;
[0080]將得到的數(shù)據(jù)項按照譯員ID進行合并,得到數(shù)據(jù)集;
[0081]建立事務數(shù)據(jù)庫:[0082]通過對產(chǎn)生翻譯錯誤潛在因素的數(shù)據(jù)信息進行上述處理后,得到如下形式的事務數(shù)據(jù)庫記錄,如表1:
[0083]表1如下:
【權利要求】
1.一種對翻譯質(zhì)量影響因素的分析方法,其特征在于,包括: 將每篇已翻譯文檔的翻譯質(zhì)量信息數(shù)據(jù)及若干影響因素組合,得到數(shù)據(jù)項,將所有所述數(shù)據(jù)項進行合并處理,得到多個數(shù)據(jù)集,建立事務數(shù)據(jù)庫;所述事務數(shù)據(jù)庫中的每一條記錄對應一個所述數(shù)據(jù)集; 根據(jù)所述事務數(shù)據(jù)庫中的每條記錄,進行關聯(lián)計算,得到所述翻譯質(zhì)量信息數(shù)據(jù)與所述影響因素的關聯(lián)規(guī)則。
2.根據(jù)權利要求1所述的方法,其特征在于,所述翻譯質(zhì)量信息數(shù)據(jù)通過所述已翻譯文檔的翻譯質(zhì)量、翻譯速度及客戶反饋組合得到。
3.根據(jù)權利要求1所述的方法,其特征在于,一個所述影響因素為以下之一:譯員ID、譯員性別、譯員專業(yè)、譯員翻譯能力、譯員是否簽約、譯員所屬供應商、譯員所屬供應商規(guī)模、譯員合作次數(shù)、已翻譯文檔的類型、已翻譯文檔的翻譯方向、已翻譯文檔的翻譯難度、使用的輔助翻譯工具、審校次數(shù)、審校級別和譯文反饋次數(shù)。
4.根據(jù)權利要求3所述的方法,其特征在于,所述合并處理包括: 將同一個所述譯員ID的數(shù)據(jù)項進行歸集,得到所述數(shù)據(jù)集。
5.根據(jù)權利要求1所述的方法,其特征在于,所述關聯(lián)計算包括: 根據(jù)所述事務數(shù)據(jù)庫中的記錄,遞推出頻繁k+Ι項集,并計算所有得到的頻繁項集中的任一真子集與其補集的關聯(lián)程度,結果滿足置信度閥值要求,輸出所述關聯(lián)規(guī)則。
6.根據(jù)權利要求5所述的方法,其特征在于,所述遞推出頻繁k+Ι項集的過程包括: 掃描事務數(shù)據(jù)庫,根據(jù)事務數(shù)據(jù)庫中的記錄中所述數(shù)據(jù)項,得到所述事務數(shù)據(jù)庫中所有的I項集; 計算每個所述I項集的支持度,得到支持度不小于最小支持度閥值的頻繁I項集; 通過頻繁k項集與頻繁I項集進行無重復合并,生成支持度不小于最小支持度閥值的頻繁k+Ι項集。
7.根據(jù)權利要求6所述的方法,其特征在于,還包括: 每個所述I項集對應著有一布爾數(shù)組,該布爾數(shù)組長度為事務數(shù)據(jù)庫的記錄總數(shù),所述布爾數(shù)組的各個數(shù)位按照所述事務數(shù)據(jù)庫中的記錄的順序一一與所述事務數(shù)據(jù)庫的記錄對應; 若事務數(shù)據(jù)庫中的某條記錄包含該I項集中的項,則將與該記錄對應的數(shù)位上的邏輯值記為I ;否則,記為O ; 計算所述所有I項集的支持度,剔除支持度小于最小支持度閥值的所述I項集,得到所述頻繁I項集; 其中,布爾數(shù)組中“I”的個數(shù)與布爾數(shù)組的數(shù)位長度之比作為所述支持度。
8.根據(jù)權利要求7的方法,其特征在于,還包括: 所述k+Ι項集及其對應的布爾數(shù)組由頻繁K項集及其布爾數(shù)組和頻繁I項集及其布爾數(shù)組進行無重復合并得到; 在所述無重復合并的過程中,頻繁k項集的布爾數(shù)組與頻繁I項集的布爾數(shù)組上的相同數(shù)位上的邏輯值進行邏輯與運算,得到候選頻繁k+Ι項集的布爾數(shù)組; 計算所述所有候選頻繁k+Ι項集的支持度;剔除支持度小于最小支持度閥值的所述k+Ι項集,得到所述頻繁k+Ι項集。
【文檔編號】G06F17/28GK103729349SQ201310712338
【公開日】2014年4月16日 申請日期:2013年12月23日 優(yōu)先權日:2013年12月23日
【發(fā)明者】江潮 申請人:武漢傳神信息技術有限公司