欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

用于數(shù)據(jù)標(biāo)注的模型生成、數(shù)據(jù)標(biāo)注方法和裝置的制造方法

文檔序號(hào):9375544閱讀:597來(lái)源:國(guó)知局
用于數(shù)據(jù)標(biāo)注的模型生成、數(shù)據(jù)標(biāo)注方法和裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及數(shù)據(jù)處理技術(shù)領(lǐng)域,尤其涉及一種用于數(shù)據(jù)標(biāo)注的模型生成、數(shù)據(jù)標(biāo) 注方法和裝置。
【背景技術(shù)】
[0002] 目前普遍的數(shù)據(jù)標(biāo)注方法使用條件隨機(jī)場(chǎng)(Conditional Random Field,CRF)做 數(shù)據(jù)標(biāo)注,其標(biāo)記(tag)列表為所有可能的候選標(biāo)記,在候選標(biāo)記集的元素?cái)?shù)量較多的時(shí) 候,會(huì)嚴(yán)重拖慢CRF訓(xùn)練和解碼的速度。比如,在語(yǔ)音系統(tǒng)中,對(duì)漢字注音的時(shí)候,由于漢 字的拼音共有1000多種,則采用傳統(tǒng)的CRF方式,對(duì)應(yīng)每個(gè)漢字的候選標(biāo)記集內(nèi)的元素為 1000多個(gè),在此情況下,模型訓(xùn)練使用的內(nèi)存達(dá)到幾十G,即使對(duì)一條短句進(jìn)行注音時(shí),解 碼時(shí)間消耗以秒計(jì),嚴(yán)重影響CRF的訓(xùn)練和解碼速度。

【發(fā)明內(nèi)容】

[0003] 本發(fā)明旨在至少在一定程度上解決相關(guān)技術(shù)中的技術(shù)問(wèn)題之一。
[0004] 為此,本發(fā)明的一個(gè)目的在于提出一種用于數(shù)據(jù)標(biāo)注的模型生成方法,該方法可 以提高模型生成速度,并降低模型的數(shù)據(jù)量,從而為快速解碼提供基礎(chǔ)。
[0005] 本發(fā)明的另一個(gè)目的在于提出一種數(shù)據(jù)標(biāo)注方法,該方法可以提高解碼速度。
[0006] 本發(fā)明的另一個(gè)目的在于提出一種用于數(shù)據(jù)標(biāo)注的模型生成裝置。
[0007] 本發(fā)明的另一個(gè)目的在于提出一種數(shù)據(jù)標(biāo)注裝置。
[0008] 為達(dá)到上述目的,本發(fā)明第一方面實(shí)施例提出的用于數(shù)據(jù)標(biāo)注的模型生成方法, 包括:獲取訓(xùn)練語(yǔ)料,并對(duì)應(yīng)所述訓(xùn)練語(yǔ)料中的觀察值建立限制性候選標(biāo)記集;選擇特征 模板,所述特征模板使得特征函數(shù)在觀察值處的非零系數(shù)的個(gè)數(shù)與所述觀察值對(duì)應(yīng)的限制 性候選標(biāo)記集內(nèi)的元素的個(gè)數(shù)相同;根據(jù)所述限制性候選標(biāo)記集和所述特征模板,構(gòu)建格 子;根據(jù)所述限制性候選標(biāo)記集和所述格子,生成用于數(shù)據(jù)標(biāo)記的模型。
[0009] 本發(fā)明第一方面實(shí)施例提出的用于數(shù)據(jù)標(biāo)注的模型生成方法,通過(guò)建立限制性候 選標(biāo)記集,可以限定候選標(biāo)記的個(gè)數(shù),以及,選擇滿足上述要求的模板,可以限定非零系數(shù) 的個(gè)數(shù),這些都可以降低運(yùn)算量,從而可以提高模型生成速度,并降低模型的數(shù)據(jù)量,從而 為快速解碼提供基礎(chǔ)。
[0010] 為達(dá)到上述目的,本發(fā)明第二方面實(shí)施例提出的數(shù)據(jù)標(biāo)注方法,包括:獲取預(yù)先保 存的模型,所述模型采用如本發(fā)明第一方面實(shí)施例任一項(xiàng)所述的方法生成;獲取待標(biāo)注的 觀察序列;根據(jù)所述模型,對(duì)所述待標(biāo)注的觀察序列進(jìn)行標(biāo)注。
[0011] 本發(fā)明第二方面實(shí)施例提出的數(shù)據(jù)標(biāo)注方法,通過(guò)采用上述的模型進(jìn)行標(biāo)注,基 于該模型可以實(shí)現(xiàn)快速解碼。
[0012] 為達(dá)到上述目的,本發(fā)明第三方面實(shí)施例提出的用于數(shù)據(jù)標(biāo)注的模型生成裝置, 包括:獲取模塊,用于獲取訓(xùn)練語(yǔ)料,并對(duì)應(yīng)所述訓(xùn)練語(yǔ)料中的觀察值建立限制性候選標(biāo)記 集;選擇模塊,用于選擇特征模板,所述特征模板使得特征函數(shù)在觀察值處的非零系數(shù)的個(gè) 數(shù)與所述觀察值對(duì)應(yīng)的限制性候選標(biāo)記集內(nèi)的元素的個(gè)數(shù)相同;構(gòu)建模塊,用于根據(jù)所述 限制性候選標(biāo)記集和所述特征模板,構(gòu)建格子;生成模塊,用于根據(jù)所述限制性候選標(biāo)記集 和所述格子,生成用于數(shù)據(jù)標(biāo)記的模型。
[0013] 本發(fā)明第三方面實(shí)施例提出的用于數(shù)據(jù)標(biāo)注的模型生成裝置,通過(guò)建立限制性候 選標(biāo)記集,可以限定候選標(biāo)記的個(gè)數(shù),以及,選擇滿足上述要求的模板,可以限定非零系數(shù) 的個(gè)數(shù),這些都可以降低運(yùn)算量,從而可以提高模型生成速度,并降低模型的數(shù)據(jù)量,從而 為快速解碼提供基礎(chǔ)。
[0014] 為達(dá)到上述目的,本發(fā)明第四方面實(shí)施例提出的數(shù)據(jù)標(biāo)注裝置,包括:第一獲取模 塊,用于獲取預(yù)先保存的模型,所述模型采用如本發(fā)明第一方面實(shí)施例任一項(xiàng)所述的方法 生成;第二獲取模塊,用于獲取待標(biāo)注的觀察序列;標(biāo)注模塊,用于根據(jù)所述模型,對(duì)所述 待標(biāo)注的觀察序列進(jìn)行標(biāo)注。
[0015] 本發(fā)明第四方面實(shí)施例提出的數(shù)據(jù)標(biāo)注裝置,通過(guò)采用上述的模型進(jìn)行標(biāo)注,基 于該模型可以實(shí)現(xiàn)快速解碼。
[0016] 本發(fā)明附加的方面和優(yōu)點(diǎn)將在下面的描述中部分給出,部分將從下面的描述中變 得明顯,或通過(guò)本發(fā)明的實(shí)踐了解到。
【附圖說(shuō)明】
[0017] 本發(fā)明上述的和/或附加的方面和優(yōu)點(diǎn)從下面結(jié)合附圖對(duì)實(shí)施例的描述中將變 得明顯和容易理解,其中:
[0018] 圖1是本發(fā)明一實(shí)施例提出的用于數(shù)據(jù)標(biāo)注的模型生成方法的流程示意圖;
[0019] 圖2是本發(fā)明實(shí)施例中構(gòu)建格子的流程示意圖;
[0020] 圖3是本發(fā)明實(shí)施例中構(gòu)建的格子的組成示意圖;
[0021] 圖4是本發(fā)明實(shí)施例中根據(jù)限制性候選標(biāo)記集和格子生成模型的流程示意圖;
[0022] 圖5是本發(fā)明另一實(shí)施例提出的數(shù)據(jù)標(biāo)注方法的流程示意圖;
[0023] 圖6是本發(fā)明實(shí)施例中根據(jù)模型進(jìn)行標(biāo)注的流程示意圖;
[0024] 圖7是本發(fā)明另一實(shí)施例提出的用于數(shù)據(jù)標(biāo)注的模型生成裝置的結(jié)構(gòu)示意圖;
[0025] 圖8是本發(fā)明另一實(shí)施例提出的數(shù)據(jù)標(biāo)注裝置的結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0026] 下面詳細(xì)描述本發(fā)明的實(shí)施例,所述實(shí)施例的示例在附圖中示出,其中自始至終 相同或類似的標(biāo)號(hào)表示相同或類似的模塊或具有相同或類似功能的模塊。下面通過(guò)參考 附圖描述的實(shí)施例是示例性的,僅用于解釋本發(fā)明,而不能理解為對(duì)本發(fā)明的限制。相反, 本發(fā)明的實(shí)施例包括落入所附加權(quán)利要求書(shū)的精神和內(nèi)涵范圍內(nèi)的所有變化、修改和等同 物。
[0027] 圖1是本發(fā)明一實(shí)施例提出的用于數(shù)據(jù)標(biāo)注的模型生成方法的流程示意圖,該方 法可以應(yīng)用在數(shù)據(jù)標(biāo)注的訓(xùn)練階段,該方法包括:
[0028] Sll :獲取訓(xùn)練語(yǔ)料,并對(duì)應(yīng)所述訓(xùn)練語(yǔ)料中的觀察值建立限制性候選標(biāo)記集。
[0029] 其中,可以在已有的資源中,收集已完成標(biāo)注的句子,作為訓(xùn)練語(yǔ)料。
[0030] 本實(shí)施例的方法可以應(yīng)用在候選標(biāo)記集的元素較多而單個(gè)數(shù)據(jù)的候選標(biāo)記個(gè)數(shù) 較少的情況下,該情況例如為漢字注音,本發(fā)明實(shí)施例將以漢字注音為例,例如,在語(yǔ)音系 統(tǒng)中,對(duì)漢字注音的場(chǎng)景。
[0031] 假設(shè)采用CRF方法進(jìn)行預(yù)處理后,得到的訓(xùn)練語(yǔ)料如下:
[0032] 我 wo3
[0033] 們 men5
[0034] 睡 shui4
[0035] 著 zhao2
[0036] 了 le5
[0037] 其中,wo3表示wo發(fā)3聲,men5表示men發(fā)輕聲,其余類似。
[0038] 其中,"我們睡著了"可以稱為觀察序列,觀察序列中的每個(gè)漢字稱為觀察值,相應(yīng) 的拼音組成的序列可以稱為標(biāo)記序列。
[0039] 限制性候選標(biāo)記集是指元素個(gè)數(shù)小于閾值的集合。限制性候選標(biāo)記集內(nèi)包括一個(gè) 或多個(gè)元素,每個(gè)元素是一個(gè)標(biāo)記(tag)。以漢字注音為例時(shí),訓(xùn)練語(yǔ)料中的每個(gè)觀察值具 體是指每個(gè)漢字,每個(gè)標(biāo)記是指漢字的拼音。
[0040] 在建立限制性候選標(biāo)記集時(shí),可以統(tǒng)計(jì)訓(xùn)練語(yǔ)料中漢字的拼音,將所有可能的拼 音統(tǒng)計(jì)起來(lái),并可以通過(guò)查詢漢字字典,查漏補(bǔ)缺,提高限制性候選標(biāo)記集的準(zhǔn)確度。
[0041] 傳統(tǒng)的CRF算法中,采用的是不加限制的候選標(biāo)記集,例如,對(duì)應(yīng)一個(gè)漢字,傳統(tǒng) 的CRF算法中,該漢字對(duì)應(yīng)的候選標(biāo)記集內(nèi)的元素是1000多個(gè)。
[0042] 而本實(shí)施例中,將對(duì)候選標(biāo)記集進(jìn)行限制,稱為限制性候選標(biāo)記集,對(duì)應(yīng)一個(gè)漢 字,限制性候選標(biāo)記集內(nèi)的元素只是該漢字已有的拼音,從而可以大幅度減少候選標(biāo)記集 內(nèi)的元素個(gè)數(shù)。例如,gbk編碼規(guī)范中的2萬(wàn)多個(gè)漢字中的多音字只有不到2千個(gè),90%以 上的漢字的候選拼音(限制性候選標(biāo)記集內(nèi)的元素)只有一個(gè),而在這2千個(gè)多音字中,即 使加上變聲和輕聲規(guī)則,單個(gè)漢字的候選拼音(限制性候選標(biāo)記集內(nèi)的元素)也不會(huì)超過(guò) 10個(gè)。
[0043] 因此,采用限制性候選標(biāo)記集后,該限制性候選標(biāo)記集內(nèi)的元素不會(huì)超過(guò)10個(gè), 與傳統(tǒng)的1000多個(gè)元素相比,大幅度減少了候選集合內(nèi)元素的個(gè)數(shù),從而降低模型訓(xùn)練以 及解碼流程的時(shí)間開(kāi)銷。
[0044] 以"我們睡著了"這個(gè)觀察序列為例,建立的限制性候選標(biāo)記集如下:
[0045] 漢字候選個(gè)數(shù)候選列表 我 1 _ 們 .2. men2: men5 睡 I shui4 .著. 4 zhao2 zhaol zheS zhuo:§ 了 I IeS liao3
[0046] S12 :選擇特征模板,所述特征模板使得特征函數(shù)在觀察值處的非零系數(shù)的個(gè)數(shù)
當(dāng)前第1頁(yè)1 2 3 4 5 
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
新沂市| 迁安市| 乐东| 定日县| 凤城市| 客服| 汤阴县| 龙岩市| 雅安市| 五河县| 湘阴县| 中江县| 永平县| 叙永县| 临漳县| 临邑县| 东丰县| 吉木萨尔县| 远安县| 平阴县| 鸡泽县| 金秀| 杭锦后旗| 顺平县| 连南| 莱阳市| 阜阳市| 常德市| 太仓市| 旬阳县| 中方县| 门源| 太原市| 伽师县| 伊春市| 芮城县| 曲阳县| 洪江市| 青龙| 五家渠市| 千阳县|