欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

口語化語句提取的方法及裝置與流程

文檔序號(hào):11654461閱讀:356來源:國(guó)知局
口語化語句提取的方法及裝置與流程
本發(fā)明實(shí)施例涉及信息
技術(shù)領(lǐng)域
,尤其涉及一種口語化語句提取的方法及裝置。
背景技術(shù)
:隨著科技的進(jìn)步,計(jì)算機(jī)存儲(chǔ)容量大的特點(diǎn)被運(yùn)用在了語言的存儲(chǔ)上,由此語料庫得以發(fā)展。口語語料庫也是以電子計(jì)算機(jī)為載體承載語言知識(shí)的基礎(chǔ)資源,完整的口語語料庫用于語言模型構(gòu)建、詞典編纂以及文本分類等,但是在現(xiàn)有技術(shù)中基于口語語料庫的資源少之又少,即使有,也是用戶逐個(gè)詞去提取的口語化語句構(gòu)建的口語語料庫。用戶自定義口語語料庫的方式費(fèi)時(shí)費(fèi)力,并且?guī)в袀€(gè)人因素,缺乏權(quán)威性,導(dǎo)致成體系的口語語料庫的缺失不利于完善整個(gè)語料庫體系。技術(shù)實(shí)現(xiàn)要素:本發(fā)明實(shí)施例提供一種口語化語句提取的方法及裝置,能夠避免用戶自定義口語語料庫的費(fèi)時(shí)費(fèi)力方式,以提高口語化語句提取的效率和信度。第一方面,本發(fā)明實(shí)施例提供了一種口語化語句提取的方法,包括:分別統(tǒng)計(jì)電影語料庫與混合語料庫中詞語的詞頻,并對(duì)所述電影語料庫與混合語料庫中的詞語根據(jù)所述詞頻進(jìn)行排序;根據(jù)所述詞語的詞頻和排序的信息計(jì)算所述詞語在所述電影語料庫和混合語料庫中的差異度,并根據(jù)所述差異度確認(rèn)口語語料庫;基于所述口語語料庫提取所述混合語料庫中的口語化語句。第二方面,本發(fā)明實(shí)施例還提供了一種口語化語句提取的裝置,包括:詞頻統(tǒng)計(jì)模塊,用于分別統(tǒng)計(jì)電影語料庫與混合語料庫中詞語的詞頻,并對(duì)所述電影語料庫與混合語料庫中的詞語根據(jù)所述詞頻進(jìn)行排序;口語語料庫確認(rèn)模塊,用于根據(jù)所述詞語的詞頻和排序的信息計(jì)算所述詞語在所述電影語料庫和混合語料庫中的差異度,并根據(jù)所述差異度確認(rèn)口語語料庫;口語化語句提取模塊,用于基于所述口語語料庫提取所述混合語料庫中的口語化語句。本發(fā)明實(shí)施例提供了一種口語化語句提取的方法及裝置,通過分別統(tǒng)計(jì)電影語料庫與混合語料庫中詞語的詞頻與排序的信息確認(rèn)口語語料庫,再使用口語語料庫提取混合語料庫中的口語化語句,解決了現(xiàn)有技術(shù)中用戶自定義口語語料庫費(fèi)時(shí)費(fèi)力的問題,有效提高口語化語句提取的效率,完善了整個(gè)語料庫體系。附圖說明圖1a是本發(fā)明實(shí)施例一中的一種口語化語句提取的流程圖;圖1b是本發(fā)明實(shí)施例一中的一種口語化語句提取過程的示意圖;圖2a是本發(fā)明實(shí)施例二中的一種口語化語句提取的流程圖;圖2b是本發(fā)明實(shí)施例二中的一種口語化語句提取的流程圖;圖3是本發(fā)明實(shí)施例三中的一種口語化語句提取裝置的結(jié)構(gòu)圖;圖4是本發(fā)明實(shí)施例四中的一種口語化語句提取裝置的結(jié)構(gòu)圖。具體實(shí)施方式下面結(jié)合附圖和實(shí)施例對(duì)本發(fā)明作進(jìn)一步的詳細(xì)說明??梢岳斫獾氖牵颂幩枋龅木唧w實(shí)施例僅僅用于解釋本發(fā)明,而非對(duì)本發(fā)明的限定。另外還需要說明的是,為了便于描述,附圖中僅示出了與本發(fā)明相關(guān)的部分而非全部結(jié)構(gòu)。實(shí)施例一圖1a為本發(fā)明實(shí)施例一提供的一種口語化語句提取方法的流程圖,本實(shí)施例可適用于各種口語化語句提取的情況,該方法可以由本發(fā)明實(shí)施例提供的口語化語句提取裝置來執(zhí)行,該裝置可采用軟件和/或硬件的方式實(shí)現(xiàn),該裝置可集成在任何提供口語化語句提取功能的設(shè)備中,例如可以是電腦,如圖1a所示,具體包括:s110、分別統(tǒng)計(jì)電影語料庫與混合語料庫中詞語的詞頻,并對(duì)所述電影語料庫與混合語料庫中的詞語根據(jù)所述詞頻進(jìn)行排序。具體的,電影語料庫與混合語料庫均從互聯(lián)網(wǎng)上獲取。其中,由于在電影語料庫源自電影中的對(duì)白,具體可以是字幕文件,其中記錄的都是人與人之間的對(duì)話,因此可以認(rèn)為電影語料庫大多數(shù)為口語語料,又由于電影語料庫中不僅有日常對(duì)話內(nèi)容,還有時(shí)間與對(duì)話者姓名,因此有必要先對(duì)電影語料庫進(jìn)行處理,只保留日常對(duì)話內(nèi)容;混合語料庫為一個(gè)既有書面語也有口頭語的混合的語料庫。詞頻指的是某一個(gè)給定的詞語在該文件中出現(xiàn)的次數(shù),分別統(tǒng)計(jì)電影語料庫與混合語料庫中詞語的詞頻。首先,將下載的電影語料庫與混合語料庫分別保存在各自的文檔中,該文檔可以為word格式的文檔,也可以為txt格式的文檔。然后,采用分詞工具與詞庫分別對(duì)電影語料庫與混合語料庫文檔中的語句進(jìn)行分詞,即將語句中包含的所有詞語劃分出來保存為txt格式的文檔,如表一與表二所示,表一為分詞后的電影語料庫中的部分語料,表二為分詞后的混合語料庫中的部分語料。表一六個(gè)月前在法庭耗上一整天的感覺這是捕捉外星人和基因變種人的好處之一成功起訴的機(jī)會(huì)少之又少車門已經(jīng)開了什么車門沒有鎖真奇怪我確定我鎖了一定是靈異事件表二最后,分別統(tǒng)計(jì)電影語料庫與混合語料庫中劃分出來的詞語的詞頻,并且根據(jù)詞頻進(jìn)行從高到低的排序,保存為excel格式的文檔,如表三所示,表三為口語化語句提取的部分詞頻排序信息表。由表三可知,詞語的詞頻越高,說明該詞語在文檔中出現(xiàn)的次數(shù)越多。例如,統(tǒng)計(jì)詞語“的”的詞頻為文檔中字?jǐn)?shù)最多,那么詞語“的”的詞頻排序?yàn)榈谝?。表三s120、根據(jù)所述詞語的詞頻和排序的信息計(jì)算所述詞語在所述電影語料庫和混合語料庫中的差異度,并根據(jù)所述差異度確認(rèn)口語語料庫。具體的,獲取電影語料庫和混合語料庫中詞頻的排序在預(yù)設(shè)范圍內(nèi)的多個(gè)備選詞語。其中,預(yù)設(shè)范圍可以為用戶設(shè)定的動(dòng)態(tài)值,如排序在前20%、30%和40%等,選取符合在預(yù)設(shè)范圍內(nèi)的多個(gè)備選詞語,計(jì)算備選詞語在電影語料庫和混合語料庫中的差異度。更為具體的,可以分別提取電影語料庫與混合語料庫中符合排序在預(yù)設(shè)范圍內(nèi)的詞語取合集,作為備選詞語;也可以將分別提取電影語料庫與混合語料庫中符合排序在預(yù)設(shè)范圍內(nèi)的詞語取交集,作為備選詞語。其中,差異度計(jì)算公式如下所示:d=sm/smmax-sf/sfmax+(pf-pm)其中,d為差異度;sm為混合語料庫中當(dāng)前詞語序號(hào);smmax為混合語料庫中詞語最大序號(hào);sf為電影語料庫中當(dāng)前詞語序號(hào);sfmax為電影語料庫中詞語序號(hào)最大序號(hào);pf為電影語料庫中當(dāng)前詞語詞頻百分比;pm為混合語料庫中當(dāng)前詞語詞頻百分比;其中,混合語料庫中當(dāng)前詞語序號(hào)為根據(jù)詞頻排序后,備選詞語在混合語料庫中的當(dāng)前詞語序號(hào);混合語料庫中詞語最大序號(hào),也可以說為混合語料庫中排序后的總序號(hào)數(shù)。同理,電影語料庫中當(dāng)前詞語序號(hào)為根據(jù)詞頻排序后,該備選詞語在電影語料庫中的當(dāng)前詞語序號(hào);電影語料庫中詞語最大序號(hào),也可以說為電影語料庫中排序后的總序號(hào)數(shù)。由于有的詞語會(huì)出現(xiàn)詞頻差很大,但是序號(hào)差很小的情況,因此有必要在差異度公式中加入備選詞語在電影語料庫中當(dāng)前詞語詞頻百分比與在混合語料庫中當(dāng)前詞語詞頻百分比的差異,以提高公式的精確度,并且計(jì)算出結(jié)果的備選詞語的差異度越大,說明該備選詞語為口語語料的概率越大。其中,電影語料庫中當(dāng)前詞語詞頻百分比,為該備選詞在電影語料庫中出現(xiàn)的次數(shù)占電影語料庫中總詞數(shù)的比例;混合語料庫中當(dāng)前詞語詞頻百分比,為該備選詞在混合語料庫中出現(xiàn)的次數(shù)占混合語料庫中總詞數(shù)的比例。最后,將差異度滿足預(yù)設(shè)閾值的詞語作為所述口語語料庫。其中,預(yù)設(shè)閾值可以為用戶設(shè)定的動(dòng)態(tài)值,如20%、30%和40%等。如果預(yù)設(shè)閾值設(shè)定為20%,那么將上述公式計(jì)算出的差異度,按照從高到低排序,提取20%的詞語作為口語語料庫。例如,如表三所示,假設(shè)電影語料庫與混合語料庫中詞語最大序號(hào)均為100。提取出詞語“我”分別在電影語料庫與混合語料庫的信息,如表四所示。表四電影語料庫混合語料庫當(dāng)前詞語序號(hào)24當(dāng)前詞語詞頻百分比4.5615981.028217將表四的數(shù)據(jù)帶入上述公式,計(jì)算詞語“我”的差異度,具體為:差異度=(4/100-2/100)+(4.561598-1.028217)=3.553381因此,得到詞語“我”的差異度為3.553381。同理,以相同的方法計(jì)算每個(gè)備選詞語的差異度,再將差異度滿足預(yù)設(shè)閾值的詞語作為所述口語語料庫,如表五所示,表五為口語化語句部分提取的口語語料庫。表五口語語料庫呵呵價(jià)優(yōu)不成問題后來樣子問這問那哎那好歡迎是不是另外,建立詞向量訓(xùn)練模型,將差異度滿足預(yù)設(shè)閾值的詞語輸入詞向量訓(xùn)練模型得到擴(kuò)展詞語,擴(kuò)充口語語料庫,如圖1b所示。其中,詞向量訓(xùn)練模型通過word2vect軟件實(shí)現(xiàn),在訓(xùn)練時(shí)參數(shù)設(shè)置如下:./word2vec-trainresult_cropus.txt-outputvectors.bin-cbow0-size50-window5-negative0-hs1-sample1e-3-threads4-binary1-min_count3,參數(shù)的具體含義如下:train為訓(xùn)練的文件;cbow為采用跳空詞袋模型;size為詞向量采用的維度;window為上下文窗口長(zhǎng)度;negative為是否采用負(fù)采樣方法,0表示不使用,1表示使用;hs為是否使用hs方法,0表示不使用,1表示使用;samplele-3為表示采樣的閾值,如果一個(gè)詞在訓(xùn)練樣本中出現(xiàn)的頻率越大,那么就越會(huì)被采樣;thread為開啟線程數(shù);binary為輸出是否為二進(jìn)制文件,0表示不使用,1表示使用;min_count為表示設(shè)置最低頻率,默認(rèn)為5,如果一個(gè)詞語在文檔中出現(xiàn)的次數(shù)小于該閾值,那么該詞就會(huì)被舍棄。然后,詞向量訓(xùn)練模型通過./distancevectors.bin命令對(duì)差異度滿足預(yù)設(shè)閾值的詞語產(chǎn)生擴(kuò)展詞語,其中每一個(gè)詞語取前10個(gè)擴(kuò)展詞語并將差異度滿足預(yù)設(shè)閾值的詞語共同作為口語語料庫。s130、基于所述口語語料庫提取所述混合語料庫中的口語化語句。具體的,根據(jù)當(dāng)前語句中出現(xiàn)所述口語語料庫中的所述詞語的個(gè)數(shù)以及當(dāng)前語句中詞語的總數(shù),采用如下公式計(jì)算混合語料庫中當(dāng)前語句的口語化率:k=n/l其中,k為口語化率,n為當(dāng)前語句中出現(xiàn)所述口語語料庫中的所述詞語的個(gè)數(shù),l為當(dāng)前語句中詞語的總數(shù)。將口語化率滿足預(yù)設(shè)閾值的當(dāng)前語句作為口語化語句進(jìn)行提取。其中,預(yù)設(shè)閾值可以為用戶設(shè)定的動(dòng)態(tài)值,也可以為系統(tǒng)默認(rèn)的固定值,如0.5。如果將口語化率滿足的預(yù)設(shè)閾值設(shè)定為系統(tǒng)默認(rèn)的固定值,那么將口語化率大于0.5的當(dāng)前語句作為口語化語句進(jìn)行提取。并且,基于口語語料庫對(duì)混合語料庫中包含的每個(gè)語句進(jìn)行口語化率的計(jì)算,將口語化率滿足預(yù)設(shè)閾值的語句提取出來,即為口語化語句,如表六所示。表六口語化語句哪些屬于還原食物呢第一時(shí)間聚焦浙江重大新聞事件竭誠為您服務(wù)每天都會(huì)更新啊沒有帳號(hào)幫失去婚姻的女性找回愛情在我聽來突然覺得自己很可悲四川地震你知道嗎找到老同學(xué)結(jié)識(shí)新朋友為什么別人比你賺得多我愣了幾秒才反應(yīng)過來示例性的,基于所述口語語料庫提取所述混合語料庫中的口語化語句,并將口語化率滿足0.5的當(dāng)前語句作為口語化語句進(jìn)行提取。當(dāng)判斷混合語料庫中的語句“哪些屬于還原食物呢”是否為口語化語句時(shí),先對(duì)該句進(jìn)行分詞操作,結(jié)果為“哪些屬于還原食物呢”。由于“哪些”、“屬于”、“食物”和“呢”為口語語料庫中的詞語,因此n的取值為4,又由于當(dāng)前語句中詞語的總數(shù)為5,因此l的取值為5?;诳谡Z化率公式計(jì)算口語化率為:k=4/5=0.8由于根據(jù)口語化率公式計(jì)算出的口語化率為0.8,大于預(yù)設(shè)閾值0.5,因此,將混合語料庫中的語句“哪些屬于還原食物呢”進(jìn)行提取,作為口語化語句。本實(shí)施例通過分別統(tǒng)計(jì)電影語料庫與混合語料庫中詞語的詞頻與排序的信息確認(rèn)口語語料庫,再使用口語語料庫提取混合語料庫中的口語化語句,解決了現(xiàn)有技術(shù)中用戶自定義口語語料庫費(fèi)時(shí)費(fèi)力的問題,有效提高口語化語句提取的效率,能夠提取出較為全面的口語語料庫,完善了整個(gè)語料庫體系。實(shí)施例二圖2a為本發(fā)明實(shí)施例二提供的一種口語化語句提取方法的流程圖,本實(shí)施例在上述實(shí)施例的基礎(chǔ)上進(jìn)行優(yōu)化,提供了優(yōu)化的分別統(tǒng)計(jì)電影語料庫與混合語料庫中詞語的詞頻,并對(duì)所述電影語料庫與混合語料庫中的詞語根據(jù)所述詞頻進(jìn)行排序的處理方法,具體是:根據(jù)參考詞庫和jieba分詞組件分別對(duì)所述電影語料庫與混合語料庫中的語句進(jìn)行分詞操作,得到所述電影語料庫與混合語料庫中的詞語;分別統(tǒng)計(jì)所述電影語料庫與混合語料庫中的詞語的詞頻;分別對(duì)所述電影語料庫與混合語料庫中的詞語根據(jù)所述詞語的詞頻由高到低進(jìn)行排序。相應(yīng)的,本實(shí)施例的方法包括:s210、根據(jù)參考詞庫和jieba分詞組件分別對(duì)所述電影語料庫與混合語料庫中的語句進(jìn)行分詞操作,得到所述電影語料庫與混合語料庫中的詞語。其中,詞庫為用戶自定義的詞庫,一般為詞典;jieba分詞組件為一個(gè)分詞工具。具體的,用戶可以使用pycharm平臺(tái)編寫程序,對(duì)電影語料庫與混合語料庫中的語句進(jìn)行分詞操作。通過輸入代碼jieba.load_userdict(file_name)來進(jìn)行詞庫的加載,其中,file_name為自定義詞典的路徑。通過輸入代碼:file_object=open(read_path)try:all_the_text=file_object.read()finally:file_object.close()將read_path路徑的文件進(jìn)行讀取,形成all_the_text對(duì)象,然后使用下列函數(shù)進(jìn)行精確模式分詞:cut_txt=j(luò)ieba.cut(all_the_text,cut_all=false)其中,all_the_text代表需要分詞的整個(gè)文本,cut_txt代表切分后的整個(gè)文本,cut_all=false表示精確分詞模式,精確分詞模式即表示根據(jù)詞典和特殊算法比較精確地切分整個(gè)文本文件,但是不是進(jìn)行全模式的切分,全模式的切分即將所有可能的切分方式均表示出來,例如:全模式的切分方式如:我/來到/北京/清華/清華大學(xué)/華大/大學(xué)精確分詞模式的切分方式如:我/來到/北京/清華大學(xué)最后,通過輸入下列代碼將分詞后的電影語料庫與混合語料庫中的語句保存為相應(yīng)路徑的文件存檔,即將切分后的文本cut_txt保存到save_path中。file_object=open(save_path,'w')file_object.write(cut_txt)file_object.close()s220、分別統(tǒng)計(jì)所述電影語料庫與混合語料庫中的詞語的詞頻。s230、分別對(duì)所述電影語料庫與混合語料庫中的詞語根據(jù)所述詞語的詞頻由高到低進(jìn)行排序。s240、根據(jù)所述詞語的詞頻和排序的信息計(jì)算所述詞語在所述電影語料庫和混合語料庫中的差異度,并根據(jù)所述差異度確認(rèn)口語語料庫。s250、基于所述口語語料庫提取所述混合語料庫中的口語化語句。為了計(jì)算同一個(gè)詞語分別在電影語料庫和混合語料庫中的差異度,需要計(jì)算電影語料庫與混合語料庫中的每個(gè)詞語的詞頻,并且將計(jì)算后的所有詞語按照詞頻從高到低的順序進(jìn)行排序。通過對(duì)詞語分別在電影語料庫和混合語料庫中的差異度確定口語語料庫,最后使用口語語料庫提取混合語料庫中的口語化語句,具體過程如圖2b所示。由圖2b可知,電影字幕語料即電影語料庫中的詞語;混合語料即混合語料庫中詞語;詞袋即口語語料庫。本實(shí)施例通過結(jié)合參考詞庫和jieba分詞組件分別對(duì)電影語料庫與混合語料庫中的語句進(jìn)行分詞操作,得到電影語料庫與混合語料庫中的詞語確定口語語料庫,由于jieba分詞組件的智能化與使用簡(jiǎn)便,能處理上百億的數(shù)據(jù)庫資料,使得口語化語句的提取更加快速與便捷,提高了口語化語句的提取效率。實(shí)施例三圖3為本發(fā)明實(shí)施例三提供的一種口語化語句提取裝置的結(jié)構(gòu)示意圖,本實(shí)施例可適用于各種口語化語句提取的情況,該方法可以由本發(fā)明實(shí)施例提供的口語化語句提取裝置來執(zhí)行,該裝置可采用軟件和/或硬件的方式實(shí)現(xiàn),該裝置可集成在任何提供口語化語句提取功能的設(shè)備中,例如可以是電腦,如圖3所示,具體包括:詞頻統(tǒng)計(jì)模塊31、口語語料庫確認(rèn)模塊32和口語化語句提取模塊33。詞頻統(tǒng)計(jì)模塊31,用于分別統(tǒng)計(jì)電影語料庫與混合語料庫中詞語的詞頻,并對(duì)所述電影語料庫與混合語料庫中的詞語根據(jù)所述詞頻進(jìn)行排序;口語語料庫確認(rèn)模塊32,用于根據(jù)所述詞語的詞頻和排序的信息計(jì)算所述詞語在所述電影語料庫和混合語料庫中的差異度,并根據(jù)所述差異度確認(rèn)口語語料庫;口語化語句提取模塊33,用于基于所述口語語料庫提取所述混合語料庫中的口語化語句。本實(shí)施例所述口語化語句提取裝置用于執(zhí)行上述各實(shí)施例所述的口語化語句提取方法,其技術(shù)原理和產(chǎn)生的技術(shù)效果類似,這里不再贅述。實(shí)施例四圖4所示為本發(fā)明實(shí)施例四提供的一種口語化語句提取裝置的結(jié)構(gòu)示意圖。如圖4所示:在上述實(shí)施例的基礎(chǔ)上,所述詞頻統(tǒng)計(jì)模塊具體用于:根據(jù)參考詞庫和jieba分詞組件分別對(duì)所述電影語料庫與混合語料庫中的語句進(jìn)行分詞操作,得到所述電影語料庫與混合語料庫中的詞語;分別統(tǒng)計(jì)所述電影語料庫與混合語料庫中的詞語的詞頻;分別對(duì)所述電影語料庫與混合語料庫中的詞語根據(jù)所述詞語的詞頻由高到低進(jìn)行排序。在上述實(shí)施例的基礎(chǔ)上,所述口語語料庫確認(rèn)模塊具體用于:獲取所述電影語料庫和混合語料庫中詞頻的排序在預(yù)設(shè)范圍內(nèi)的多個(gè)備選詞語;根據(jù)當(dāng)前詞語序號(hào)、詞語最大序號(hào)以及當(dāng)前詞語詞頻百分比,計(jì)算所述備選詞語在所述電影語料庫和混合語料庫中的差異度,其中差異度的計(jì)算公式如下:d=sm/smmax-sf/sfmax+(pf-pm)其中,d為差異度;sm為混合語料庫中當(dāng)前詞語序號(hào);smmax為混合語料庫中詞語最大序號(hào);sf為電影語料庫中當(dāng)前詞語序號(hào);sfmax為電影語料庫中詞語序號(hào)最大序號(hào);pf為電影語料庫中當(dāng)前詞語詞頻百分比;pm為混合語料庫中當(dāng)前詞語詞頻百分比;將所述差異度滿足預(yù)設(shè)閾值的所述詞語作為所述口語語料庫。在上述實(shí)施例的基礎(chǔ)上,所述口語化語句提取模塊具體包括:口語化率計(jì)算單元41和口語化語句提取單元42??谡Z化率計(jì)算單元41,用于根據(jù)當(dāng)前語句中出現(xiàn)所述口語語料庫中的所述詞語的個(gè)數(shù)以及當(dāng)前語句中詞語的總數(shù),計(jì)算所述混合語料庫中當(dāng)前語句的口語化率,所述口語化率公式計(jì)算如下:k=n/l其中,k為口語化率,n為當(dāng)前語句中出現(xiàn)所述口語語料庫中的所述詞語的個(gè)數(shù),l為當(dāng)前語句中詞語的總數(shù);口語化語句提取單元42,用于將所述口語化率滿足預(yù)設(shè)閾值的所述當(dāng)前語句作為所述口語化語句進(jìn)行提取。在上述實(shí)施例的基礎(chǔ)上,所述口語化語句提取單元具體用于:將所述口語化率大于0.5的所述當(dāng)前語句作為所述口語化語句進(jìn)行提取。在上述實(shí)施例的基礎(chǔ)上,所述裝置還包括:口語語料庫擴(kuò)充模塊43??谡Z語料庫擴(kuò)充模塊43,用于建立詞向量訓(xùn)練模型,將所述口語語料庫中的所述詞語輸入所述詞向量訓(xùn)練模型得到擴(kuò)展詞語;并將滿足預(yù)設(shè)閾值的所述擴(kuò)展詞語添加到所述口語語料庫。本實(shí)施例所述口語化語句提取的裝置用于執(zhí)行上述各實(shí)施例所述的口語化語句提取的方法,其技術(shù)原理和產(chǎn)生的技術(shù)效果類似,這里不再贅述。注意,上述僅為本發(fā)明的較佳實(shí)施例及所運(yùn)用技術(shù)原理。本領(lǐng)域技術(shù)人員會(huì)理解,本發(fā)明不限于這里所述的特定實(shí)施例,對(duì)本領(lǐng)域技術(shù)人員來說能夠進(jìn)行各種明顯的變化、重新調(diào)整和替代而不會(huì)脫離本發(fā)明的保護(hù)范圍。因此,雖然通過以上實(shí)施例對(duì)本發(fā)明進(jìn)行了較為詳細(xì)的說明,但是本發(fā)明不僅僅限于以上實(shí)施例,在不脫離本發(fā)明構(gòu)思的情況下,還可以包括更多其他等效實(shí)施例,而本發(fā)明的范圍由所附的權(quán)利要求范圍決定。當(dāng)前第1頁12
當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
达州市| 孝义市| 会泽县| 兰溪市| 论坛| 玉树县| 抚顺市| 赣州市| 托克逊县| 镇巴县| 长垣县| 古田县| 鄂伦春自治旗| 漳平市| 洛宁县| 油尖旺区| 紫阳县| 商丘市| 望江县| 江门市| 普洱| 平阳县| 南漳县| 溆浦县| 乐业县| 伊宁县| 来宾市| 无锡市| 禹城市| 马关县| 永城市| 石屏县| 贵德县| 嘉兴市| 仁化县| 贞丰县| 闻喜县| 石渠县| 庆元县| 莎车县| 云梦县|