欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于編輯距離以及詞頻和詞向量的實(shí)體關(guān)系識(shí)別方法

文檔序號(hào):10697604閱讀:550來源:國(guó)知局
一種基于編輯距離以及詞頻和詞向量的實(shí)體關(guān)系識(shí)別方法
【專利摘要】本發(fā)明涉及一種基于編輯距離以及詞頻和詞向量的實(shí)體關(guān)系識(shí)別方法:步驟一:獲取文本數(shù)據(jù);步驟二:采用分詞軟件進(jìn)行分詞,對(duì)分詞后的文本進(jìn)行每個(gè)詞個(gè)數(shù)的統(tǒng)計(jì);步驟三:調(diào)整詞向量的維數(shù)、窗口大小,進(jìn)行詞向量的訓(xùn)練;步驟四:利用訓(xùn)練好的詞向量,對(duì)詞進(jìn)行聚合;步驟五:對(duì)步驟四中獲得的實(shí)體進(jìn)行編輯距離的計(jì)算,結(jié)合步驟一中得到的詞頻,進(jìn)而得到給定實(shí)體詞的別名或簡(jiǎn)稱;基于編輯距離,在步驟四的基礎(chǔ)上,計(jì)算給定實(shí)體詞到其它實(shí)體的d[i,j]值,結(jié)合步驟一獲取每個(gè)實(shí)體詞的個(gè)數(shù);經(jīng)加權(quán)平均得到G(X),即:獲取給定實(shí)體詞的前n個(gè)最可能的簡(jiǎn)稱,通過比重可以看出其關(guān)系強(qiáng)度,便可得到給定實(shí)體詞的別名或簡(jiǎn)稱。
【專利說明】
-種基于編輯距離從及詞頻和詞向量的實(shí)體關(guān)系識(shí)別方法
技術(shù)領(lǐng)域
[0001] 本發(fā)明設(shè)及一種基于編輯距離W及詞頻和詞向量的實(shí)體關(guān)系識(shí)別方法,它應(yīng)用于 WEB數(shù)據(jù)挖掘、實(shí)體識(shí)別,捜索引擎等方面,屬于數(shù)據(jù)挖掘技術(shù)領(lǐng)域。
【背景技術(shù)】
[0002] 當(dāng)今社會(huì),隨著科技的迅速發(fā)展,特別是互聯(lián)網(wǎng)技術(shù)的發(fā)展,人民生活水平的提 高,使用互聯(lián)網(wǎng)的人群越來越多,隨之而來的就是捜索引擎的到來,但是W往的捜索體驗(yàn)并 不是很好,特別是對(duì)于非專業(yè)人±,W及娛樂活動(dòng)不是很多的群眾,往往在捜索引擎中捜索 的并不是自己想要的東西,但運(yùn)種東西在廣大群體中,是被廣為流傳的,隨之面臨的問題便 是,捜索引擎對(duì)于實(shí)體的識(shí)別W及關(guān)系的建立,其目的就是讓系統(tǒng)知道用戶檢索的實(shí)體別 名信息,反饋的都是一種其全稱信息,增強(qiáng)了系統(tǒng)的健壯性。
[0003] 實(shí)體識(shí)別W及關(guān)系的建立,在一定程度上,提高了系統(tǒng)的效率,并極大的提高了用 戶的捜索體驗(yàn),在實(shí)際生活中,往往捜索的都是答非所問,其原因大都是因?yàn)?,系統(tǒng)未能將 實(shí)體聯(lián)系起來,本發(fā)明主要解決根據(jù)中文組織機(jī)構(gòu)名對(duì)公司名稱W及公司所對(duì)應(yīng)的簡(jiǎn)稱進(jìn) 行識(shí)別問題,結(jié)果表明,本發(fā)明能獲得很好的效果。

【發(fā)明內(nèi)容】

[0004] 1、目的:為了識(shí)別出實(shí)體的其他別名、縮略名,在捜索引擎中檢索出自己最想要的 信息,提出了一種基于編輯距離W及詞頻和詞向量的實(shí)體關(guān)系識(shí)別方法。
[0005] 本發(fā)明的原理是:首先進(jìn)行自然語(yǔ)言的處理,獲取分詞結(jié)果并統(tǒng)計(jì)詞頻,就是對(duì)每 個(gè)實(shí)體在文本中出現(xiàn)的次數(shù)進(jìn)行統(tǒng)計(jì)并記錄下來,根據(jù)分詞的結(jié)果,基于詞的上下文訓(xùn)練 詞向量,在得到詞向量的基礎(chǔ)上,對(duì)獲取的詞向量進(jìn)行聚合操作,得到詞向量上最近的m個(gè) 實(shí)體,基于分詞W及詞在文本中出現(xiàn)次數(shù)的基礎(chǔ)上,對(duì)m個(gè)實(shí)體,通過計(jì)算給定實(shí)體與文本 中的其他實(shí)體之間的編輯距離W及詞頻,最終獲得與給定實(shí)體關(guān)系最強(qiáng)的實(shí)體即給定實(shí)體 的別名或簡(jiǎn)稱,W及在得知?jiǎng)e名的情況下獲取實(shí)體的全稱信息,隨著信息的不斷融入,進(jìn)而 得到給定實(shí)體的其他信息。
[0006] 2、技術(shù)方案:本發(fā)明提供的技術(shù)方案如下:
[0007] 本發(fā)明是一種基于編輯距離W及詞頻和詞向量的實(shí)體關(guān)系識(shí)別方法,該方法具體 步驟如下:
[000引步驟一:獲取文本數(shù)據(jù)。
[0009]步驟二:采用分詞軟件進(jìn)行分詞,基于分詞的基礎(chǔ)上,對(duì)分詞后的文本進(jìn)行每個(gè)詞 個(gè)數(shù)的統(tǒng)計(jì),并記錄下來。
[0010] 步驟云采用Google的word2vec模型,調(diào)整詞向量的維數(shù)、窗口大小,進(jìn)行詞向量 的訓(xùn)練,窗口大小即在一句話中給定實(shí)體詞的前后幾個(gè)詞,它是基于詞的上下文訓(xùn)練方法。 經(jīng)過word2vec訓(xùn)練后的每個(gè)詞向量為如下形式:
[0011] Wm(Vml,Vm2,Vm3,Vm4,......,Vmn)
[0012] 其中,w表示文本中的詞,m表示詞的序號(hào),V表示w的詞向量,1,2…η:表示詞向量的 維數(shù),可W根據(jù)需要,設(shè)置詞向量的維數(shù),即設(shè)置η的值,本文訓(xùn)練的詞向量采用400維,即η = 400。
[0013] 步驟四:利用訓(xùn)練好的詞向量,對(duì)詞進(jìn)行聚合,即獲取給定實(shí)體詞,在詞向量上分 別計(jì)算到其它實(shí)體的距離,根據(jù)距離,進(jìn)而得到距離給定實(shí)體詞關(guān)系最近的實(shí)體,其目的在 于增強(qiáng)了實(shí)體關(guān)系的抽取,本文采用在獲取詞向量的基礎(chǔ)上,:
[0014] 先獲取離給定實(shí)體詞化最近的X個(gè)實(shí)體:
[0015] 實(shí)體詞化:化(VE1,VE2,VE3,VE4,----,VEn)
[0016] 實(shí)體詞W1:W1(V11,V12,V13,V14, . . . . ,νιη)
[0017] χι= (;VE廣VlO ,Χ2=(>Ε2-ν?2;) ,Χ3= (>Ε3-ν?3;),…,Xm= (>En-Vlr〇 (l)
[001 引
(2)
[0019] 其中,X康示詞向量在第一維的分量差,dis表示W(wǎng)e與wi在詞向量上的距離,依次迭 代計(jì)算公式(1)與公式(2),獲取最近的X個(gè)實(shí)體,本文X取100:
[0020] 實(shí)體詞W1:W1(V11,V12,V13,V14, .... ,νιη)
[0021] 實(shí)體詞化:化(>21,¥22,¥23,¥24,....,¥2。)
[0022] 實(shí)體詞W3:W2(V31,V32,V33,V34, .... ,V3n)
[0023] 實(shí)體詞Wx:Wx(Vxl,Vx2,Vx3,Vx4, . . . . ,Vxn)
[0024] 步驟五:對(duì)步驟四中獲得的實(shí)體進(jìn)行編輯距離的計(jì)算,結(jié)合步驟一中得到的詞頻, 進(jìn)而得到給定實(shí)體詞的別名或簡(jiǎn)稱,其編輯距離主要公式如下:
[00951
[00%]其中d[i-i, j] + l代表給定實(shí)體詞插入一個(gè)字符,d[i,j-i]+l代表給定實(shí)體詞刪除一個(gè) 詞,然后當(dāng)xi = y川寸,不需要代價(jià),所W和上一步d[i-i,w]代價(jià)相同,否則+1,接著(1[1^]是^ 上Ξ者中最小的一項(xiàng)?;诰庉嬀嚯x,在步驟四的基礎(chǔ)上,計(jì)算給定實(shí)體詞到其它實(shí)體的 cki,非值,結(jié)合步驟一獲取每個(gè)實(shí)體詞的個(gè)數(shù)。
[0027] 經(jīng)加權(quán)平均得到G(X),即:獲取給定實(shí)體詞的前η個(gè)最可能的簡(jiǎn)稱,通過比重可W 看出其關(guān)系強(qiáng)度,便可得到給定實(shí)體詞的別名或簡(jiǎn)稱:
[0028] G(X) = (sort(f (disxi/xicount) ,f (disx2/x2C〇unt) ,f (disx3/x3C〇unt)......f (disxn/xncount)))
[0029] sort:表示排序,從小到大排序。
[0030] disxi:表示給定實(shí)體詞變換到實(shí)體XI的編輯距離。
[0031 ] Xmcount:表示實(shí)體Xm在文中所出現(xiàn)的次數(shù)。
[0032] f (disxi/xicount):表示給定實(shí)體詞對(duì)實(shí)體XI的比重,換句話,就是說實(shí)體XI,是給 定實(shí)體詞簡(jiǎn)稱的可能性大小,值越小表示可能性越大。
[0033] 3、優(yōu)點(diǎn)及功效:本發(fā)明所提供的一種基于編輯距離W及詞頻和詞向量的實(shí)體關(guān)系 識(shí)別方法,它在大數(shù)據(jù)量的情況下,能夠自動(dòng)、快速、有效的進(jìn)行實(shí)體識(shí)別并建立關(guān)系,進(jìn)而 獲得實(shí)體相關(guān)信息;并且通過一定數(shù)量的樣本學(xué)習(xí)之后,可W將該模型部署到捜索引擎W 及影視行業(yè),能夠更快、準(zhǔn)確的對(duì)用戶輸入實(shí)體簡(jiǎn)稱進(jìn)行有效的識(shí)別,極大的提高了系統(tǒng)的 識(shí)別率,在一定程度上提升了用戶的體驗(yàn)。
【附圖說明】
[0034] 圖1所示為本發(fā)明方法的流程圖。
[0035] 圖中符號(hào)說明如下:
[0036] K:表示給定實(shí)體名,根據(jù)距離公式,獲得與該實(shí)體在詞向量上最近的X個(gè)實(shí)體W1, W2, . .,Wx:表示通過計(jì)算獲得的實(shí)體詞
【具體實(shí)施方式】
[0037] 見圖1,本發(fā)明一種基于詞頻編輯距離的實(shí)體關(guān)系識(shí)別方法,其具體實(shí)施步驟:
[0038] 步驟一:抽取百度百科中的文本信息如:中博傳媒有限公司
[0039] 中博傳媒有限公司,通常簡(jiǎn)稱中博傳媒,是中國(guó)第一家成功獲得美國(guó)國(guó)際數(shù)據(jù)集 團(tuán)技術(shù)創(chuàng)業(yè)投資基金和新媒體基金(IDGVC、IDG肥W MEDIA)、鼎輝投資王功權(quán)先生、運(yùn)時(shí)投 資等風(fēng)險(xiǎn)投資的影視公司。
[0040] 公司名稱中博傳媒有限公司成立時(shí)間1999年簡(jiǎn)稱中博傳媒投資發(fā)行《英雄》、《十 面埋伏》成就唯一Ξ次獲得法國(guó)曼納電影節(jié)大獎(jiǎng)
[0041 ] 目錄
[00創(chuàng) 1簡(jiǎn)介
[0043] 2發(fā)展簡(jiǎn)史
[0044] 3獲得榮譽(yù)
[0045] 簡(jiǎn)介編輯
[0046] 中博傳媒有限公司是中國(guó)第一批取得影視制作特許資質(zhì),專業(yè)從事影視投資、審U 作與發(fā)行,W及新媒體內(nèi)容制作、傳播與互動(dòng)了大量頗具影響力的影視作品。
[0047] 發(fā)展簡(jiǎn)史編輯
[004引自1999年成立W來,公司投資制作的電影《危險(xiǎn)關(guān)系》入選2012年第65屆曼納電影 節(jié)導(dǎo)演雙周單元、2012年第37屆多倫多電影節(jié)主展映單元及2012年第17屆蓋山國(guó)際電影節(jié) GALA大師單元;投資制作的電影《成都,我愛你》獲邀成為2009年第66屆威尼斯電影節(jié)閉幕 電影,的傳媒公司。十年來,中博傳媒率先在中國(guó)影視界確立國(guó)際化運(yùn)營(yíng)目標(biāo),立足中國(guó)本 ±,著力拓展亞洲電影市場(chǎng),發(fā)行、投資制作并入選第14屆蓋山國(guó)際電影節(jié)GALA大師單元及 第22屆東京國(guó)際電影節(jié)亞洲之風(fēng)單元;投資制作的電影《鬼子來了》獲2000年第53屆曼納電 影節(jié)評(píng)委會(huì)大獎(jiǎng);投資制作的韓國(guó)電影《哭泣的拳頭》獲2005年第58屆曼納電影節(jié)國(guó)際評(píng)論 家協(xié)會(huì)獎(jiǎng);中博傳媒是目前中國(guó)唯一Ξ次獲得法國(guó)曼納電影節(jié)大獎(jiǎng)的傳媒機(jī)構(gòu)。
[0049] 中博傳媒還投資發(fā)行了張藝謀電影《英雄》、《十面埋伏》、《滿城盡帶黃金甲》、《Ξ 槍拍案驚奇》、《山植樹之戀》,W及陳凱歌電影《無極》等眾多國(guó)內(nèi)大片;
[0050] 中博傳媒是中國(guó)第一家進(jìn)入韓國(guó)本±電影市場(chǎng)的傳媒企業(yè),多年來在韓國(guó)進(jìn)行影 視投資、制作與發(fā)行。投資制作發(fā)行的韓國(guó)電影《外出》、《哭泣的拳頭》、《食客》、《喜馬拉雅》 等,在韓國(guó)已累計(jì)超過10個(gè)億人民幣的票房收入,是韓國(guó)電影市場(chǎng)最大的華語(yǔ)電影發(fā)行商。 中博傳媒同時(shí)還聯(lián)合韓國(guó)Ξ大電視臺(tái)(SBS、邸S、MBC)共同投資制作發(fā)行了多部中韓合作電 視劇,開創(chuàng)了中韓合拍電視劇的先河。為中韓影視文化的交流貢獻(xiàn)自己的力量。
[0051] 2011年中博傳媒簽約韓國(guó)著名導(dǎo)演郭在容、許秦豪,成立韓國(guó)導(dǎo)演工作室,將韓國(guó) 等亞洲因素引入電影制作,突出中博傳媒亞洲電影的優(yōu)勢(shì)。自2011年起,每年將發(fā)行、投資、 制作一部投資過億的商業(yè)大片。
[0052] 立足中國(guó),福射亞洲及全球,中博傳媒致力成為亞洲最具競(jìng)爭(zhēng)力的傳媒機(jī)構(gòu)。
[0053] 步驟二:根據(jù)抽取百度百科中的文本信息,進(jìn)行分詞并做詞頻統(tǒng)計(jì):
[0054] 中博傳媒有限公司通常簡(jiǎn)稱中博傳媒是中國(guó)第一家成功獲得美國(guó)國(guó) 際數(shù)據(jù)集團(tuán)技術(shù)創(chuàng)業(yè)投資基金和新媒體基金鼎輝投資王功權(quán)先生運(yùn)時(shí)投資 等風(fēng)險(xiǎn)投資的影視公司成立時(shí)間簡(jiǎn)稱中博傳媒投資發(fā)行英雄十面埋伏成 就唯一 Ξ次獲得法國(guó)曼納電影節(jié)大獎(jiǎng)目錄中博傳媒是中國(guó)第一批取得影 視制作特許資質(zhì)專業(yè)從事影視投資制作與發(fā)行W及新媒體內(nèi)容制作傳播 與互動(dòng)了大量頗具影響力的影視作品發(fā)展簡(jiǎn)史編輯自成立W來公司投資 制作的電影危險(xiǎn)關(guān)系入選第屆曼納電影節(jié)導(dǎo)演雙周單元年第屆多倫多電 影節(jié)主展映單元及年第屆蓋山國(guó)際電影節(jié)大師單元投資制作的電影成都 我愛你獲邀成為年第屆威尼斯電影節(jié)閉幕電影的傳媒公司十年來中博傳媒 率先在中國(guó)影視界確立國(guó)際化運(yùn)營(yíng)目標(biāo)立足中國(guó)本±著力拓展亞洲電影 市場(chǎng)發(fā)行投資制作并入選第屆蓋山國(guó)際電影節(jié)大師單元及第屆東京國(guó)際電 影節(jié)亞洲之風(fēng)單元投資制作的電影鬼子來了獲年第屆曼納電影節(jié)評(píng)委會(huì) 大獎(jiǎng)投資制作的韓國(guó)電影哭泣的拳頭獲第屆曼納電影節(jié)國(guó)際評(píng)論家協(xié)會(huì)獎(jiǎng) 中博傳媒是目前中國(guó)唯一 Ξ次獲得法國(guó)曼納電影節(jié)大獎(jiǎng)的傳媒機(jī)構(gòu)中博傳 媒還投資發(fā)行了張藝謀電影英雄十面埋伏滿城盡帶黃金甲Ξ槍拍案驚奇山植 樹之戀W及陳凱歌電影無極等眾多國(guó)內(nèi)大片中博傳媒是中國(guó)第一家進(jìn)入韓 國(guó)本±電影市場(chǎng)的傳媒企業(yè)多年來在韓國(guó)進(jìn)行影視投資制作與發(fā)行投資 制作發(fā)行的韓國(guó)電影外出哭泣的拳頭食客喜馬拉雅在韓國(guó)已累計(jì)超過人 民幣的票房收入是韓國(guó)電影市場(chǎng)最大的華語(yǔ)電影發(fā)行商中博傳媒同時(shí)還 聯(lián)合韓國(guó)Ξ大電視臺(tái)共同投資制作發(fā)行了多部中韓合作電視劇開創(chuàng)了中韓 合拍電視劇的先河中博傳媒為中韓影視文化的交流貢獻(xiàn)自己的力量年中 博傳媒簽約韓國(guó)著名導(dǎo)演郭在容許秦豪成立韓國(guó)導(dǎo)演工作室將韓國(guó)等亞洲 因素引入電影制作突出中博傳媒亞洲電影的優(yōu)勢(shì)自年起每年將發(fā)行投資 制作一部投資過億的商業(yè)大片立足中國(guó)福射亞洲及全球中博傳媒致力成 為亞洲最具競(jìng)爭(zhēng)力的傳媒機(jī)構(gòu)
[0055] 其對(duì)應(yīng)分詞的詞頻統(tǒng)計(jì):
[0化6]
[0057]步驟Ξ:根據(jù)word2vec對(duì)分詞后的文本進(jìn)行詞向量的訓(xùn)練,其中維數(shù)設(shè)置為400, 窗口大小設(shè)置為8:
[005引訓(xùn)練后對(duì)應(yīng)的詞向量為(400維):
[0化9]
[0061] 步驟四:根據(jù)訓(xùn)練的詞向量W公司名為中屯、,獲取離中屯、距離最近的100個(gè)詞:
[0062] 中博傳媒媒體中國(guó)短片作品中博之夜導(dǎo)演發(fā)行蓋山傳媒影視市場(chǎng)中博傳媒有限 公司韓國(guó)國(guó)際公司協(xié)會(huì)俄羅斯海參歲頒發(fā)第一個(gè)主辦方及第新浪網(wǎng)多倫多臺(tái)北電影風(fēng)險(xiǎn) 投資十年交易……
[0063] 步驟五:基于步驟一 W及步驟四,對(duì)給定實(shí)體一一中博傳媒有限公司,計(jì)算給定實(shí) 體與文本中其他實(shí)體的基于詞頻的編輯距離;
[0064]
[0065] 其中最可能的簡(jiǎn)稱比重:0-100,其數(shù)值表示與中博傳媒關(guān)系最近的實(shí)體,即本文 要找到的實(shí)體,其關(guān)系強(qiáng)度依次遞減。
【主權(quán)項(xiàng)】
1. 一種基于編輯距離以及詞頻和詞向量的實(shí)體關(guān)系識(shí)別方法,該方法具體步驟如下: 步驟一:獲取文本數(shù)據(jù); 步驟二:采用分詞軟件進(jìn)行分詞,基于分詞的基礎(chǔ)上,對(duì)分詞后的文本進(jìn)行每個(gè)詞個(gè)數(shù) 的統(tǒng)計(jì),并記錄下來; 步驟三:采用Google的word2vec模型,調(diào)整詞向量的維數(shù)、窗口大小,進(jìn)行詞向量的訓(xùn) 練,窗口大小即在一句話中給定實(shí)體詞的前后幾個(gè)詞,它是基于詞的上下文訓(xùn)練方法;經(jīng)過 word2vec訓(xùn)練后的每個(gè)詞向量為如下形式: Wm( Vml , Vm2 , Vm3 , Vm4 ,......, Vmn) 其中,w表示文本中的詞,m表示詞的序號(hào),v表示w的詞向量,1,2…n:表示詞向量的維 數(shù),可以根據(jù)需要,設(shè)置詞向量的維數(shù),即設(shè)置η的值; 步驟四:利用訓(xùn)練好的詞向量,對(duì)詞進(jìn)行聚合,即獲取給定實(shí)體詞,在詞向量上分別計(jì) 算到其它實(shí)體的距離,根據(jù)距離,進(jìn)而得到距離給定實(shí)體詞關(guān)系最近的實(shí)體, 先獲取離給定實(shí)體詞We最近的X個(gè)實(shí)體: ^^1^1£:?£(¥£1,¥£2,¥£3,¥£4, .... ,VEn) ^j^i^Wl:Wl(vil,V12,V13,V14, .... ,Vln) Xl = (VE1-V11),X2 = (VE2-V12),X3 = (VE3-V13),…,Xm= (VEn-Vln) ( 1 ) dis=\jxL2 + x22 + %2 + x42 + ··· + xj (2) 其中,XI表示詞向量在第一維的分量差,dis表示W(wǎng)e與Wi在詞向量上的距離,依次迭代計(jì) 算公式(1)與公式(2),獲取最近的X個(gè)實(shí)體, ^#i^Wl:Wl(vil,Vl2,Vl3,Vl4, .... ,Vln) ^#i^W2:W2(v21,V22,V23,V24, .... ,V2n) ^#i^W3:W2(v31,V32,V33,V34, .... ,V3n) ^#i^Wx:Wx(Vxl,Vx2,Vx3,Vx4, .... ,Vxn) 步驟五:對(duì)步驟四中獲得的實(shí)體進(jìn)行編輯距離的計(jì)算,結(jié)合步驟一中得到的詞頻,進(jìn)而 得到給定實(shí)體詞的別名或簡(jiǎn)稱,其編輯距離主要公式如下: i = 0 or j = 0 = ) +1+ 'xi. = y) + l,d\tij-i\ H- + l) A 豐 y) 其中d[i-i,j]+l代表給定實(shí)體詞插入一個(gè)字符,d[i,j-i]+l代表給定實(shí)體詞刪除一個(gè)詞,然 后當(dāng)Xi = yj時(shí),不需要代價(jià),所以和上一步d[i-i,j-i]代價(jià)相同,否則+1,接著d[i,j]是以上三者 中最小的一項(xiàng);基于編輯距離,在步驟四的基礎(chǔ)上,計(jì)算給定實(shí)體詞到其它實(shí)體的d[i,j]值, 結(jié)合步驟一獲取每個(gè)實(shí)體詞的個(gè)數(shù); 經(jīng)加權(quán)平均得到G(X),即:獲取給定實(shí)體詞的前η個(gè)最可能的簡(jiǎn)稱,通過比重可以看出 其關(guān)系強(qiáng)度,便可得到給定實(shí)體詞的別名或簡(jiǎn)稱: G(X) = (sort(f(disxi/xicount),f(disX2/x2C〇unt),f(dis X3/x3C〇unt)......f(disxn/ Xncount))) sort:表示排序,從小到大排序; disxl:表示給定實(shí)體詞變換到實(shí)體X1的編輯距離; XmCOUnt:表示實(shí)體Xm在文中所出現(xiàn)的次數(shù); f (disxi/xicount):表示給定實(shí)體詞對(duì)實(shí)體XI的比重,換句話,就是說實(shí)體XI,是給定實(shí) 體詞簡(jiǎn)稱的可能性大小,值越小表示可能性越大。
【文檔編號(hào)】G06F17/27GK106066856SQ201610349298
【公開日】2016年11月2日
【申請(qǐng)日】2016年5月24日 公開號(hào)201610349298.6, CN 106066856 A, CN 106066856A, CN 201610349298, CN-A-106066856, CN106066856 A, CN106066856A, CN201610349298, CN201610349298.6
【發(fā)明人】段大高, 趙寧, 韓忠明
【申請(qǐng)人】北京工商大學(xué)
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
肥西县| 乌拉特前旗| 新竹县| 团风县| 法库县| 保德县| 茶陵县| 赤城县| 新建县| 临桂县| 湾仔区| 岳西县| 师宗县| 石嘴山市| 马公市| 博野县| 中山市| 沈丘县| 井研县| 高唐县| 宜阳县| 湄潭县| 河间市| 蕲春县| 岑溪市| 新宁县| 和政县| 保定市| 呼伦贝尔市| 宣武区| 榕江县| 皮山县| 三亚市| 辽阳市| 成安县| 淳化县| 瑞昌市| 博兴县| 漳平市| 临清市| 长阳|