專利名稱:一種行業(yè)應(yīng)用軟件詞根表的構(gòu)建方法
技術(shù)領(lǐng)域:
本發(fā)明涉及行業(yè)應(yīng)用軟件建設(shè)領(lǐng)域,具體地說(shuō),就是建設(shè)一個(gè)支撐行業(yè)應(yīng)用軟件開發(fā)的語(yǔ)義字典表(詞根表),從而規(guī)范程序中數(shù)據(jù)結(jié)構(gòu)命名、功能和程序命名、需求規(guī)格說(shuō)明書中主要術(shù)語(yǔ)命名。本發(fā)明不僅能應(yīng)用于保險(xiǎn)領(lǐng)域,對(duì)其他領(lǐng)域的行業(yè)應(yīng)用也有指導(dǎo)意義。
背景技術(shù):
詞根是最基礎(chǔ)的詞及其縮寫符號(hào),也包括某些詞根組成的新詞,由中英文為基礎(chǔ),另加多種語(yǔ)言的詞根集合組成詞根表。(參考行業(yè)應(yīng)用軟件中的詞根表和庫(kù)結(jié)構(gòu),左春,2009.)行業(yè)應(yīng)用軟件中的詞根表是由表述領(lǐng)域內(nèi)容的術(shù)語(yǔ)組成的詞碼表。統(tǒng)一詞根表是標(biāo)準(zhǔn)化的語(yǔ)義定義,便于更大范圍的交流和共享。行業(yè)應(yīng)用軟件開發(fā)過(guò)程中的詞根是領(lǐng)域概念在軟件實(shí)現(xiàn)過(guò)程中的縮寫與約定,是軟件設(shè)計(jì)和實(shí)現(xiàn)中各種概念元素命名構(gòu)造的基本單位。詞根的整理旨在統(tǒng)一領(lǐng)域語(yǔ)義,對(duì)行業(yè)應(yīng)用軟件開發(fā)形成一套規(guī)范和標(biāo)準(zhǔn),實(shí)現(xiàn) 軟件開發(fā)過(guò)程“成果物”的一致性,供開發(fā)人員參考遵循,避免不必要的重復(fù)工作和資源浪費(fèi),提高工作效率和質(zhì)量。雖然詞根表是行業(yè)應(yīng)用軟件開發(fā)的基礎(chǔ)性文件,但真正比較成熟的詞根表構(gòu)建方法并不多,構(gòu)建方法效率低,而且所構(gòu)建詞根表中的詞根語(yǔ)義不統(tǒng)一,給后續(xù)的應(yīng)用軟件開發(fā)和開發(fā)文件的可讀性帶來(lái)嚴(yán)重問(wèn)題。
發(fā)明內(nèi)容
本發(fā)明解決的技術(shù)問(wèn)題:提升詞根命名的一致性,構(gòu)建一個(gè)開放、穩(wěn)定的詞根表系統(tǒng)。本發(fā)明的目的是提供一種行業(yè)應(yīng)用軟件詞根表的構(gòu)建方法?;诖松傻脑~根表是行業(yè)應(yīng)用軟件構(gòu)建和實(shí)施的基礎(chǔ),是開發(fā)過(guò)程一系列成果物的重要支撐。完善、規(guī)范的詞根表,有助于提聞開發(fā)效率,提升軟件品質(zhì)。行業(yè)應(yīng)用軟件針對(duì)有特定含義的領(lǐng)域?qū)ο?,且需要?shí)現(xiàn)程序?qū)ο蠛皖I(lǐng)域?qū)ο箝g有效的映射。為解決行業(yè)應(yīng)用軟件用詞的隨意性,提升映射效率,特將領(lǐng)域術(shù)語(yǔ)中穩(wěn)定的部分做成詞根表,以便在行業(yè)應(yīng)用軟件中有效的使用。事實(shí)上,特定領(lǐng)域內(nèi)的語(yǔ)義字典表積累具有重要意義。我們憑借在行業(yè)應(yīng)用領(lǐng)域的多年經(jīng)驗(yàn)和領(lǐng)域知識(shí)積累,實(shí)現(xiàn)了詞根表在保險(xiǎn)領(lǐng)域內(nèi)的良好實(shí)踐。IDC “中國(guó)保險(xiǎn)解決方案2009-2013市場(chǎng)預(yù)測(cè)與分析”指出,中科軟在保險(xiǎn)行業(yè)IT解決方案(包括財(cái)產(chǎn)險(xiǎn)核心業(yè)務(wù)系統(tǒng)、壽險(xiǎn)核心業(yè)務(wù)系統(tǒng)、ERM、多渠道客戶服務(wù)、網(wǎng)上保險(xiǎn)系統(tǒng)、再保險(xiǎn)業(yè)務(wù)處理系統(tǒng)等)提供商的收入及市場(chǎng)份額連續(xù)五年均排名第
O為實(shí)現(xiàn)上述目的,本發(fā)明的解決方案是: 提出詞根表的定義和組成
詞根表是行業(yè)應(yīng)用軟件中用以表述領(lǐng)域術(shù)語(yǔ)的詞碼表,也稱語(yǔ)義字典表。詞根是最基礎(chǔ)的詞及其縮寫符號(hào)的集合,由于“程序塊”的獨(dú)立發(fā)展及業(yè)務(wù)的不斷創(chuàng)新,還將不斷產(chǎn)生新的詞根,詞根還可組成新詞。詞根表的主要組成部分如圖1所示?;A(chǔ)的詞根表由中英文詞根構(gòu)成雙語(yǔ)詞根表,可根據(jù)實(shí)際業(yè)務(wù)需求增加新的語(yǔ)種。 給出詞根表的構(gòu)建方法該方法的主要思想是:基于詞根表初始庫(kù),當(dāng)有新的“個(gè)體”(每一條詞根稱為一個(gè)“個(gè)體”)加入時(shí),對(duì)初始庫(kù)按照中英文名稱進(jìn)行檢索,已存在的“個(gè)體”按照構(gòu)成補(bǔ)充其他屬性(如果有),不存在的“個(gè)體”按照“適合”系數(shù)算法的規(guī)則檢索規(guī)范文件,計(jì)算綜合評(píng)價(jià)“適合”系數(shù)(fitness)大小,選擇優(yōu)化的(“適合”系數(shù)較大的)“個(gè)體”加入詞根表,并依據(jù)詞根表已確定的“適合”條件進(jìn)行尾部淘汰,形成開放、穩(wěn)定的詞根表。其中“開放的”表示“個(gè)體”是不斷加入和尾部淘汰的,“容錯(cuò)的”表示“個(gè)體”有一部分是“試探性的”,不太肯定的。詞根表的構(gòu)建步驟如下:(I)形成初始庫(kù),區(qū)分當(dāng)前庫(kù)和歷史庫(kù),按照中英文名稱對(duì)初始庫(kù)進(jìn)行唯一性檢查;(2)當(dāng)有新“個(gè)體”需要加入時(shí),按照中英文名稱匹配檢索已有詞根表(當(dāng)前庫(kù));(3)在庫(kù)中檢索到 該“個(gè)體”時(shí)(比如有匹配中文名稱和英文名稱的個(gè)體),按照規(guī)則補(bǔ)充其他屬性,循環(huán)至(5);(4)對(duì)未檢索到的“個(gè)體”(即與已有詞根表不匹配),檢索規(guī)范文件(主要是指((ACORDK《保險(xiǎn)術(shù)語(yǔ)表》等文件),生成“適合”系數(shù),多個(gè)選擇中選“適合”系數(shù)較高的“個(gè)體”進(jìn)入詞根表(即要進(jìn)入詞根表的多個(gè)個(gè)體具有相同的中文名稱或英文名稱);(5)對(duì)新進(jìn)入“個(gè)體”添加其他屬性,如果“個(gè)體”數(shù)大于η (設(shè)η = 5000),則在“當(dāng)前庫(kù)”中選擇“適合”系數(shù)最低者進(jìn)入“歷史庫(kù)”;檢索存在的個(gè)體在補(bǔ)充屬性時(shí)就有了適合系數(shù);(6)循環(huán)至⑵。與現(xiàn)有技術(shù)相比,本發(fā)明的積極效果為:將原本封閉的詞根表積累過(guò)程變?yōu)殚_放式的,容錯(cuò)的,漸進(jìn)替代的過(guò)程,從而提升了詞根表構(gòu)建的穩(wěn)定性。
圖1詞根表每一個(gè)體的組成;圖2詞根表構(gòu)建步驟;圖3文本分類步驟。具體實(shí)現(xiàn)方式下面結(jié)合附圖詳細(xì)描述本發(fā)明詞根表的構(gòu)建方法,詞根表的構(gòu)建步驟如圖2所
/Jn ο注I根據(jù)中英文名稱的唯一性進(jìn)行詞根表檢查
(I)檢索初始庫(kù),是現(xiàn)有任意一詞根表初始化的詞根表;表I是一個(gè)初始集的實(shí)例,由于篇幅限制,只給出其中一部分。表1、詞根表實(shí)例
權(quán)利要求
1.一種行業(yè)應(yīng)用軟件詞根表的構(gòu)建方法,其步驟為: 1)創(chuàng)建一詞根表初始庫(kù),并對(duì)該初始庫(kù)中的詞根進(jìn)行唯一性檢查; 2)當(dāng)某詞根需要加入該初始庫(kù)時(shí),按照中文或英文名稱匹配檢索該初始庫(kù): a)如果檢索到匹配詞根,則將該詞根加入到該初始庫(kù)并根據(jù)該匹配詞根的屬性對(duì)該詞根的屬性進(jìn)行補(bǔ)充; b)如果未檢索到匹配詞根,按照中文或英文名稱檢索規(guī)范文件,得到匹配的詞根;然后根據(jù)規(guī)范文件計(jì)算該詞根及其匹配詞根的適合系數(shù),將適合系數(shù)最大的詞根加入到該初始庫(kù)并對(duì)該適合系數(shù)最大的詞根的屬性進(jìn)行補(bǔ)充。
2.如權(quán)利要求1所述的方法,其特征在于所述初始庫(kù)包括一當(dāng)前庫(kù)和一歷史庫(kù),判斷所述初始庫(kù)中詞根的個(gè)數(shù)是否大于設(shè)定閾值H,如果大于設(shè)定閾值H,則將所述初始庫(kù)中詞根適合系數(shù)最大的前H個(gè)詞根放到所述當(dāng)前庫(kù)中,將剩余詞根放到所述歷史庫(kù)中。
3.如權(quán)利要求2所述的方法,其特征在于對(duì)該初始庫(kù)中的詞根進(jìn)行唯一性檢查的方法為:根據(jù)詞根的名稱對(duì)該初始庫(kù)中的詞根進(jìn)行唯一性檢查,將具有中文名稱相同或英文名稱相同的詞根配對(duì)成組;然后對(duì)于每一配對(duì)組,根據(jù)規(guī)范文件計(jì)算其該配對(duì)組內(nèi)每一詞根的適合系數(shù),選取適合系數(shù)最高的詞根存儲(chǔ)在所述當(dāng)前庫(kù)中,并根據(jù)該配對(duì)組中其他詞根的屬性對(duì)該適合系數(shù)最高詞根的屬性進(jìn)行補(bǔ)充。
4.如權(quán)利要求3所述的方法,其特征在于如果配對(duì)組中同一中文名稱或英文名稱對(duì)應(yīng)多個(gè)含義時(shí),進(jìn)行語(yǔ)義相似度計(jì)算,取相似度最大者作為該適合系數(shù)最高詞根的含義。
5.如權(quán)利要求1或2或3所述的方法,其特征在于所述規(guī)范文件包括=ACORD文件、金融術(shù)語(yǔ)文件、《精 編英漢保險(xiǎn)詞典》、保險(xiǎn)術(shù)語(yǔ)表、金融術(shù)語(yǔ)文件;計(jì)算詞根的所述適合系數(shù)的方法為: 51)檢索保險(xiǎn)術(shù)語(yǔ)表是否存在該詞根,記為V1,存在則V1= 1,反之則為O ; 52)檢索ACORD文件是否存在該詞根,記為V2,存在則V2= 1,反之則為O ; 53)檢索《精編英漢保險(xiǎn)詞典》,確認(rèn)該詞根英文名稱的中文含義中是否有對(duì)應(yīng)的中文名稱,記為V3,存在則V3 = I,反之則為O ; 54)檢索保險(xiǎn)術(shù)語(yǔ)文件是否存在該詞根,記為V4,存在則V4= I,反之則為O ; 55)檢索金融術(shù)語(yǔ)文件是否存在該詞根,記為V5,存在則V5= I,反之則為O ; 56)檢索《精編英漢保險(xiǎn)詞典》,確認(rèn)該詞根中文名稱的含義中是否有對(duì)應(yīng)的中文含義,記為V6,,存在則V6 = I,反之則為O ; 57)計(jì)算該詞根的適合系數(shù)fitness = a lVl+a 2V2+α 3ν3+α 4ν4+α 5ν5+α 6v6,其中,α χ+ α 2+ α 3+ α 4+ α 5+ a 6 = 10
6.如權(quán)利要求1所述的方法,其特征在于所述規(guī)范文件包括:AC0RD文件、金融術(shù)語(yǔ)文件、《精編英漢保險(xiǎn)詞典》、保險(xiǎn)術(shù)語(yǔ)表、金融術(shù)語(yǔ)文件;對(duì)于中文含義或英文含義為空的詞根,根據(jù)規(guī)范文件對(duì)詞根的屬性進(jìn)行補(bǔ)充,其方法為:自動(dòng)檢索保險(xiǎn)術(shù)語(yǔ)表和ACORD文件,對(duì)詞根的中文名稱和英文名稱進(jìn)行補(bǔ)充,未檢索到則進(jìn)行標(biāo)注。
7.如權(quán)利要求1或2或3所述的方法,其特征在于所述詞根的屬性包括:中文名稱、中文簡(jiǎn)稱、中文含義、英文名稱、英文簡(jiǎn)稱、英文含義、適合系數(shù)、分類信息和備注信息。
8.如權(quán)利要求7所述的方法,其特征在于對(duì)分類屬性為空的詞根,自動(dòng)添加詞根的分類屬性,其方法為:81)對(duì)于一詞根X1(χη,χ12, χ13,χ14,χ15),首先對(duì)X12按照正向最大匹配算法和逆向最大匹配算法相結(jié)合進(jìn)行分詞,得到向量X12 (Xm,Xl22 Xl2i ..,Xl2n);其中,Xll為詞根X1中文名稱,X12為中文含義,X13為英文名稱,X14為英文含義,X15為備注;x12i為X12的分詞,η為分詞總數(shù); 82)利用分類器計(jì)算每一分詞的類條件概率; 83)計(jì)算該向量X12屬于分類器類ci的概率P(CiIx12)=TI P (xn| CiRP(Ci);其中,P(Ci)為某分詞屬于分類器類ci的先驗(yàn)概率,P (xnl Ci)為分詞Xn的類條件概率; 84)取maxP(Ci I X12)的最大值,即向量X12屬于此概率最大的分類ct,得到X1 (xn, x12,Xl3,Xl4,Xl5,Ct) 。
9.如權(quán)利要求7所述的方法,其特征在于所述詞根的屬性還包括:中英文以外的其他語(yǔ)言名稱、簡(jiǎn)稱及含義。
全文摘要
本發(fā)明公開了一種行業(yè)應(yīng)用軟件詞根表的構(gòu)建方法。本方法為1)創(chuàng)建一詞根表初始庫(kù),并對(duì)該初始庫(kù)中的詞根進(jìn)行唯一性檢查;2)當(dāng)某詞根需要加入該初始庫(kù)時(shí),按照中文或英文名稱匹配檢索該初始庫(kù)a)如果檢索到匹配詞根,則將該詞根加入到該初始庫(kù)并根據(jù)該匹配詞根的屬性對(duì)該詞根的屬性進(jìn)行補(bǔ)充;b)如果未檢索到匹配詞根,按照中文或英文名稱檢索規(guī)范文件,得到匹配的詞根;然后根據(jù)規(guī)范文件計(jì)算該詞根及其匹配詞根的適合系數(shù),將適合系數(shù)最大的詞根加入到該初始庫(kù)并對(duì)該適合系數(shù)最大的詞根的屬性進(jìn)行補(bǔ)充。本發(fā)明將原本封閉的詞根表積累過(guò)程變?yōu)殚_放式的,容錯(cuò)的,漸進(jìn)替代的過(guò)程,從而提升了詞根表構(gòu)建的穩(wěn)定性。
文檔編號(hào)G06F17/30GK103150376SQ20131007733
公開日2013年6月12日 申請(qǐng)日期2013年3月12日 優(yōu)先權(quán)日2013年3月12日
發(fā)明者左春, 龐樸, 張正, 魏萍 申請(qǐng)人:中科軟科技股份有限公司