一種行業(yè)應(yīng)用軟件詞根表的構(gòu)建方法

文檔序號(hào)：6400215閱讀：834來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：一種行業(yè)應(yīng)用軟件詞根表的構(gòu)建方法
技術(shù)領(lǐng)域：
本發(fā)明涉及行業(yè)應(yīng)用軟件建設(shè)領(lǐng)域，具體地說(shuō)，就是建設(shè)一個(gè)支撐行業(yè)應(yīng)用軟件開發(fā)的語(yǔ)義字典表(詞根表)，從而規(guī)范程序中數(shù)據(jù)結(jié)構(gòu)命名、功能和程序命名、需求規(guī)格說(shuō)明書中主要術(shù)語(yǔ)命名。本發(fā)明不僅能應(yīng)用于保險(xiǎn)領(lǐng)域，對(duì)其他領(lǐng)域的行業(yè)應(yīng)用也有指導(dǎo)意義。
背景技術(shù)：
詞根是最基礎(chǔ)的詞及其縮寫符號(hào)，也包括某些詞根組成的新詞，由中英文為基礎(chǔ)，另加多種語(yǔ)言的詞根集合組成詞根表。(參考行業(yè)應(yīng)用軟件中的詞根表和庫(kù)結(jié)構(gòu)，左春，2009.)行業(yè)應(yīng)用軟件中的詞根表是由表述領(lǐng)域內(nèi)容的術(shù)語(yǔ)組成的詞碼表。統(tǒng)一詞根表是標(biāo)準(zhǔn)化的語(yǔ)義定義，便于更大范圍的交流和共享。行業(yè)應(yīng)用軟件開發(fā)過(guò)程中的詞根是領(lǐng)域概念在軟件實(shí)現(xiàn)過(guò)程中的縮寫與約定，是軟件設(shè)計(jì)和實(shí)現(xiàn)中各種概念元素命名構(gòu)造的基本單位。詞根的整理旨在統(tǒng)一領(lǐng)域語(yǔ)義，對(duì)行業(yè)應(yīng)用軟件開發(fā)形成一套規(guī)范和標(biāo)準(zhǔn)，實(shí)現(xiàn) 軟件開發(fā)過(guò)程“成果物”的一致性，供開發(fā)人員參考遵循，避免不必要的重復(fù)工作和資源浪費(fèi)，提高工作效率和質(zhì)量。雖然詞根表是行業(yè)應(yīng)用軟件開發(fā)的基礎(chǔ)性文件，但真正比較成熟的詞根表構(gòu)建方法并不多，構(gòu)建方法效率低，而且所構(gòu)建詞根表中的詞根語(yǔ)義不統(tǒng)一，給后續(xù)的應(yīng)用軟件開發(fā)和開發(fā)文件的可讀性帶來(lái)嚴(yán)重問(wèn)題。

發(fā)明內(nèi)容
本發(fā)明解決的技術(shù)問(wèn)題:提升詞根命名的一致性，構(gòu)建一個(gè)開放、穩(wěn)定的詞根表系統(tǒng)。本發(fā)明的目的是提供一種行業(yè)應(yīng)用軟件詞根表的構(gòu)建方法?；诖松傻脑~根表是行業(yè)應(yīng)用軟件構(gòu)建和實(shí)施的基礎(chǔ)，是開發(fā)過(guò)程一系列成果物的重要支撐。完善、規(guī)范的詞根表，有助于提聞開發(fā)效率，提升軟件品質(zhì)。行業(yè)應(yīng)用軟件針對(duì)有特定含義的領(lǐng)域?qū)ο?，且需要?shí)現(xiàn)程序?qū)ο蠛皖I(lǐng)域?qū)ο箝g有效的映射。為解決行業(yè)應(yīng)用軟件用詞的隨意性，提升映射效率，特將領(lǐng)域術(shù)語(yǔ)中穩(wěn)定的部分做成詞根表，以便在行業(yè)應(yīng)用軟件中有效的使用。事實(shí)上，特定領(lǐng)域內(nèi)的語(yǔ)義字典表積累具有重要意義。我們憑借在行業(yè)應(yīng)用領(lǐng)域的多年經(jīng)驗(yàn)和領(lǐng)域知識(shí)積累，實(shí)現(xiàn)了詞根表在保險(xiǎn)領(lǐng)域內(nèi)的良好實(shí)踐。IDC “中國(guó)保險(xiǎn)解決方案2009-2013市場(chǎng)預(yù)測(cè)與分析”指出，中科軟在保險(xiǎn)行業(yè)IT解決方案(包括財(cái)產(chǎn)險(xiǎn)核心業(yè)務(wù)系統(tǒng)、壽險(xiǎn)核心業(yè)務(wù)系統(tǒng)、ERM、多渠道客戶服務(wù)、網(wǎng)上保險(xiǎn)系統(tǒng)、再保險(xiǎn)業(yè)務(wù)處理系統(tǒng)等)提供商的收入及市場(chǎng)份額連續(xù)五年均排名第
O為實(shí)現(xiàn)上述目的，本發(fā)明的解決方案是: 提出詞根表的定義和組成
詞根表是行業(yè)應(yīng)用軟件中用以表述領(lǐng)域術(shù)語(yǔ)的詞碼表，也稱語(yǔ)義字典表。詞根是最基礎(chǔ)的詞及其縮寫符號(hào)的集合，由于“程序塊”的獨(dú)立發(fā)展及業(yè)務(wù)的不斷創(chuàng)新，還將不斷產(chǎn)生新的詞根，詞根還可組成新詞。詞根表的主要組成部分如圖1所示?；A(chǔ)的詞根表由中英文詞根構(gòu)成雙語(yǔ)詞根表，可根據(jù)實(shí)際業(yè)務(wù)需求增加新的語(yǔ)種。給出詞根表的構(gòu)建方法該方法的主要思想是:基于詞根表初始庫(kù)，當(dāng)有新的“個(gè)體”(每一條詞根稱為一個(gè)“個(gè)體”)加入時(shí)，對(duì)初始庫(kù)按照中英文名稱進(jìn)行檢索，已存在的“個(gè)體”按照構(gòu)成補(bǔ)充其他屬性(如果有)，不存在的“個(gè)體”按照“適合”系數(shù)算法的規(guī)則檢索規(guī)范文件，計(jì)算綜合評(píng)價(jià)“適合”系數(shù)(fitness)大小，選擇優(yōu)化的(“適合”系數(shù)較大的)“個(gè)體”加入詞根表，并依據(jù)詞根表已確定的“適合”條件進(jìn)行尾部淘汰，形成開放、穩(wěn)定的詞根表。其中“開放的”表示“個(gè)體”是不斷加入和尾部淘汰的，“容錯(cuò)的”表示“個(gè)體”有一部分是“試探性的”，不太肯定的。詞根表的構(gòu)建步驟如下:(I)形成初始庫(kù)，區(qū)分當(dāng)前庫(kù)和歷史庫(kù)，按照中英文名稱對(duì)初始庫(kù)進(jìn)行唯一性檢查；(2)當(dāng)有新“個(gè)體”需要加入時(shí)，按照中英文名稱匹配檢索已有詞根表(當(dāng)前庫(kù))；(3)在庫(kù)中檢索到該“個(gè)體”時(shí)(比如有匹配中文名稱和英文名稱的個(gè)體)，按照規(guī)則補(bǔ)充其他屬性，循環(huán)至(5)；(4)對(duì)未檢索到的“個(gè)體”(即與已有詞根表不匹配)，檢索規(guī)范文件(主要是指((ACORDK《保險(xiǎn)術(shù)語(yǔ)表》等文件)，生成“適合”系數(shù)，多個(gè)選擇中選“適合”系數(shù)較高的“個(gè)體”進(jìn)入詞根表(即要進(jìn)入詞根表的多個(gè)個(gè)體具有相同的中文名稱或英文名稱)；(5)對(duì)新進(jìn)入“個(gè)體”添加其他屬性，如果“個(gè)體”數(shù)大于η (設(shè)η = 5000)，則在“當(dāng)前庫(kù)”中選擇“適合”系數(shù)最低者進(jìn)入“歷史庫(kù)”;檢索存在的個(gè)體在補(bǔ)充屬性時(shí)就有了適合系數(shù)；(6)循環(huán)至⑵。與現(xiàn)有技術(shù)相比，本發(fā)明的積極效果為:將原本封閉的詞根表積累過(guò)程變?yōu)殚_放式的，容錯(cuò)的，漸進(jìn)替代的過(guò)程，從而提升了詞根表構(gòu)建的穩(wěn)定性。

圖1詞根表每一個(gè)體的組成；圖2詞根表構(gòu)建步驟；圖3文本分類步驟。具體實(shí)現(xiàn)方式下面結(jié)合附圖詳細(xì)描述本發(fā)明詞根表的構(gòu)建方法，詞根表的構(gòu)建步驟如圖2所
/Jn ο注I根據(jù)中英文名稱的唯一性進(jìn)行詞根表檢查
(I)檢索初始庫(kù)，是現(xiàn)有任意一詞根表初始化的詞根表；表I是一個(gè)初始集的實(shí)例，由于篇幅限制，只給出其中一部分。表1、詞根表實(shí)例

權(quán)利要求
1.一種行業(yè)應(yīng)用軟件詞根表的構(gòu)建方法，其步驟為: 1)創(chuàng)建一詞根表初始庫(kù)，并對(duì)該初始庫(kù)中的詞根進(jìn)行唯一性檢查； 2)當(dāng)某詞根需要加入該初始庫(kù)時(shí)，按照中文或英文名稱匹配檢索該初始庫(kù): a)如果檢索到匹配詞根，則將該詞根加入到該初始庫(kù)并根據(jù)該匹配詞根的屬性對(duì)該詞根的屬性進(jìn)行補(bǔ)充； b)如果未檢索到匹配詞根，按照中文或英文名稱檢索規(guī)范文件，得到匹配的詞根；然后根據(jù)規(guī)范文件計(jì)算該詞根及其匹配詞根的適合系數(shù)，將適合系數(shù)最大的詞根加入到該初始庫(kù)并對(duì)該適合系數(shù)最大的詞根的屬性進(jìn)行補(bǔ)充。
2.如權(quán)利要求1所述的方法，其特征在于所述初始庫(kù)包括一當(dāng)前庫(kù)和一歷史庫(kù)，判斷所述初始庫(kù)中詞根的個(gè)數(shù)是否大于設(shè)定閾值H，如果大于設(shè)定閾值H，則將所述初始庫(kù)中詞根適合系數(shù)最大的前H個(gè)詞根放到所述當(dāng)前庫(kù)中，將剩余詞根放到所述歷史庫(kù)中。
3.如權(quán)利要求2所述的方法，其特征在于對(duì)該初始庫(kù)中的詞根進(jìn)行唯一性檢查的方法為:根據(jù)詞根的名稱對(duì)該初始庫(kù)中的詞根進(jìn)行唯一性檢查，將具有中文名稱相同或英文名稱相同的詞根配對(duì)成組；然后對(duì)于每一配對(duì)組，根據(jù)規(guī)范文件計(jì)算其該配對(duì)組內(nèi)每一詞根的適合系數(shù)，選取適合系數(shù)最高的詞根存儲(chǔ)在所述當(dāng)前庫(kù)中，并根據(jù)該配對(duì)組中其他詞根的屬性對(duì)該適合系數(shù)最高詞根的屬性進(jìn)行補(bǔ)充。
4.如權(quán)利要求3所述的方法，其特征在于如果配對(duì)組中同一中文名稱或英文名稱對(duì)應(yīng)多個(gè)含義時(shí)，進(jìn)行語(yǔ)義相似度計(jì)算，取相似度最大者作為該適合系數(shù)最高詞根的含義。
5.如權(quán)利要求1或2或3所述的方法，其特征在于所述規(guī)范文件包括=ACORD文件、金融術(shù)語(yǔ)文件、《精編英漢保險(xiǎn)詞典》、保險(xiǎn)術(shù)語(yǔ)表、金融術(shù)語(yǔ)文件；計(jì)算詞根的所述適合系數(shù)的方法為: 51)檢索保險(xiǎn)術(shù)語(yǔ)表是否存在該詞根，記為V1，存在則V1= 1，反之則為O ; 52)檢索ACORD文件是否存在該詞根，記為V2，存在則V2= 1，反之則為O ; 53)檢索《精編英漢保險(xiǎn)詞典》，確認(rèn)該詞根英文名稱的中文含義中是否有對(duì)應(yīng)的中文名稱，記為V3，存在則V3 = I，反之則為O ; 54)檢索保險(xiǎn)術(shù)語(yǔ)文件是否存在該詞根，記為V4，存在則V4= I，反之則為O ; 55)檢索金融術(shù)語(yǔ)文件是否存在該詞根，記為V5，存在則V5= I，反之則為O ; 56)檢索《精編英漢保險(xiǎn)詞典》，確認(rèn)該詞根中文名稱的含義中是否有對(duì)應(yīng)的中文含義，記為V6,，存在則V6 = I，反之則為O ; 57)計(jì)算該詞根的適合系數(shù)fitness = a lVl+a 2V2+α 3ν3+α 4ν4+α 5ν5+α 6v6，其中，α χ+ α 2+ α 3+ α 4+ α 5+ a 6 = 10
6.如權(quán)利要求1所述的方法，其特征在于所述規(guī)范文件包括:AC0RD文件、金融術(shù)語(yǔ)文件、《精編英漢保險(xiǎn)詞典》、保險(xiǎn)術(shù)語(yǔ)表、金融術(shù)語(yǔ)文件；對(duì)于中文含義或英文含義為空的詞根，根據(jù)規(guī)范文件對(duì)詞根的屬性進(jìn)行補(bǔ)充，其方法為:自動(dòng)檢索保險(xiǎn)術(shù)語(yǔ)表和ACORD文件，對(duì)詞根的中文名稱和英文名稱進(jìn)行補(bǔ)充，未檢索到則進(jìn)行標(biāo)注。
7.如權(quán)利要求1或2或3所述的方法，其特征在于所述詞根的屬性包括:中文名稱、中文簡(jiǎn)稱、中文含義、英文名稱、英文簡(jiǎn)稱、英文含義、適合系數(shù)、分類信息和備注信息。
8.如權(quán)利要求7所述的方法，其特征在于對(duì)分類屬性為空的詞根，自動(dòng)添加詞根的分類屬性，其方法為:81)對(duì)于一詞根X1(χη，χ12, χ13，χ14，χ15)，首先對(duì)X12按照正向最大匹配算法和逆向最大匹配算法相結(jié)合進(jìn)行分詞，得到向量X12 (Xm，Xl22 Xl2i ..，Xl2n);其中，Xll為詞根X1中文名稱，X12為中文含義，X13為英文名稱，X14為英文含義，X15為備注；x12i為X12的分詞，η為分詞總數(shù)； 82)利用分類器計(jì)算每一分詞的類條件概率； 83)計(jì)算該向量X12屬于分類器類ci的概率P(CiIx12)=TI P (xn| CiRP(Ci);其中，P(Ci)為某分詞屬于分類器類ci的先驗(yàn)概率，P (xnl Ci)為分詞Xn的類條件概率； 84)取maxP(Ci I X12)的最大值，即向量X12屬于此概率最大的分類ct,得到X1 (xn, x12,Xl3，Xl4，Xl5，Ct) 。
9.如權(quán)利要求7所述的方法，其特征在于所述詞根的屬性還包括:中英文以外的其他語(yǔ)言名稱、簡(jiǎn)稱及含義。
全文摘要
本發(fā)明公開了一種行業(yè)應(yīng)用軟件詞根表的構(gòu)建方法。本方法為1)創(chuàng)建一詞根表初始庫(kù)，并對(duì)該初始庫(kù)中的詞根進(jìn)行唯一性檢查；2)當(dāng)某詞根需要加入該初始庫(kù)時(shí)，按照中文或英文名稱匹配檢索該初始庫(kù)a)如果檢索到匹配詞根，則將該詞根加入到該初始庫(kù)并根據(jù)該匹配詞根的屬性對(duì)該詞根的屬性進(jìn)行補(bǔ)充；b)如果未檢索到匹配詞根，按照中文或英文名稱檢索規(guī)范文件，得到匹配的詞根；然后根據(jù)規(guī)范文件計(jì)算該詞根及其匹配詞根的適合系數(shù)，將適合系數(shù)最大的詞根加入到該初始庫(kù)并對(duì)該適合系數(shù)最大的詞根的屬性進(jìn)行補(bǔ)充。本發(fā)明將原本封閉的詞根表積累過(guò)程變?yōu)殚_放式的，容錯(cuò)的，漸進(jìn)替代的過(guò)程，從而提升了詞根表構(gòu)建的穩(wěn)定性。
文檔編號(hào)G06F17/30GK103150376SQ20131007733
公開日2013年6月12日申請(qǐng)日期2013年3月12日優(yōu)先權(quán)日2013年3月12日
發(fā)明者左春, 龐樸, 張正, 魏萍申請(qǐng)人:中科軟科技股份有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：左春;龐樸;張正;魏萍
技術(shù)所有人：中科軟科技股份有限公司
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種行業(yè)應(yīng)用軟件詞根表的構(gòu)建方法