欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

單元詞替換方法、搜索方法及裝置的制造方法

文檔序號(hào):9375610閱讀:255來(lái)源:國(guó)知局
單元詞替換方法、搜索方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本申請(qǐng)涉及信息處理技術(shù)領(lǐng)域,尤其涉及一種單元詞替換方法、搜索方法及裝置。
【背景技術(shù)】
[0002] 在現(xiàn)有的搜索產(chǎn)品中,當(dāng)用戶提交查詢語(yǔ)句后,搜索引擎會(huì)將用戶提交的查詢語(yǔ) 句進(jìn)行預(yù)處理后再進(jìn)行檢索。在預(yù)處理過(guò)程中,用戶提交的查詢語(yǔ)句會(huì)被拆分成多個(gè)關(guān)鍵 詞,可以利用同義詞替換功能對(duì)這些關(guān)鍵詞進(jìn)行同義替換操作,生成新的搜索引擎底層可 讀的查詢語(yǔ)句。
[0003] 現(xiàn)有的同義詞替換功能大多都是對(duì)存在同義詞詞組的關(guān)鍵詞采用直接替換的方 式,對(duì)于一些不必要替換的情形不會(huì)加以區(qū)分,例如,用戶輸入查詢語(yǔ)句"中國(guó)銀行快捷支 付限額",經(jīng)過(guò)分詞得到關(guān)鍵詞"中國(guó)銀行"、"快捷"、"支付"和"限額"。在這個(gè)查詢語(yǔ)句中, "支付"的同義詞包括"付款",因而采用同義詞替換功能后,會(huì)得到新的查詢語(yǔ)句"中國(guó)銀行 快捷付款限額"。而在實(shí)際情形中,"快捷支付"是一個(gè)固定搭配的詞組,具有特定的含義,其 使用頻率比"快捷付款"高??梢钥闯觯@種采用直接匹配方式,由于缺乏了上下文的參照 信息,往往會(huì)造成不必要的同義替換,替換結(jié)果會(huì)帶來(lái)相關(guān)度較差的搜索結(jié)果,不能精確解 析用戶的搜索意圖,導(dǎo)致搜索結(jié)果的準(zhǔn)確性較差。

【發(fā)明內(nèi)容】

[0004] 本申請(qǐng)的目的是,提供一種單元詞替換方法、搜索方法及裝置,可減少不必要的同 義詞替換,能更精確地解析搜索意圖,提高搜索結(jié)果的準(zhǔn)確性。
[0005] 本申請(qǐng)?zhí)峁┝艘环N單元詞替換方法,所述方法包括:
[0006] 對(duì)輸入的查詢語(yǔ)句進(jìn)行分詞,得到所述查詢語(yǔ)句的第一單元詞;
[0007] 利用所述第一單元詞,從同義詞表中找出所述第一單元詞的同義詞集合;
[0008] 從二元詞組數(shù)據(jù)庫(kù)中,查詢得到所述第一單元詞與其上下文的單元詞組成的第 一二元詞組的第一緊密度、所述同義詞集合中的第二單元詞與所述第一單元詞的上下文的 單元詞組成的第二二元詞組的第二緊密度,其中,所述二元詞組數(shù)據(jù)庫(kù)中包括參考二元詞 組及所述參考二元詞組的緊密度;
[0009] 比較所述第一緊密度和所述第二緊密度,如果所述第二緊密度大于等于所述第一 緊密度且所述第二緊密度大于預(yù)設(shè)閾值,則將所述第二單元詞作為所述第一單元詞的替換 。
[0010] 又一方面,本申請(qǐng)還提供了一種基于單元詞替換的搜索方法,所述方法包括:
[0011] 對(duì)輸入的查詢語(yǔ)句進(jìn)行分詞,得到所述查詢語(yǔ)句的第一單元詞;
[0012] 利用所述第一單元詞,從同義詞表中找出所述第一單元詞的同義詞集合;
[0013] 從二元詞組數(shù)據(jù)庫(kù)中,查詢得到所述第一單元詞與其上下文的單元詞組成的第 一二元詞組的第一緊密度、所述同義詞集合中的第二單元詞與所述第一單元詞的上下文的 單元詞組成的第二二元詞組的第二緊密度,其中,所述二元詞組數(shù)據(jù)庫(kù)中包括參考二元詞 組及所述參考二元詞組的緊密度;
[0014] 比較所述第一緊密度和所述第二緊密度,如果所述第二緊密度大于等于所述第一 緊密度且所述第二緊密度大于預(yù)設(shè)閾值,則將所述第二單元詞作為所述第一單元詞的替換 詞;
[0015] 利用所述第一單元詞的替換詞,生成新的查詢語(yǔ)句進(jìn)行搜索,得到搜索結(jié)果。
[0016] 又一方面,本申請(qǐng)還提供了一種單元詞替換裝置,所述裝置包括:
[0017] 分詞單元,用于對(duì)輸入的查詢語(yǔ)句進(jìn)行分詞,得到所述查詢語(yǔ)句的第一單元詞;
[0018] 第一查詢單元,用于利用所述分詞單元得到的所述第一單元詞,從同義詞表中找 出所述第一單元詞的同義詞集合;
[0019] 第二查詢單元,用于從二元詞組數(shù)據(jù)庫(kù)中,查詢得到所述第一單元詞與其上下文 的單元詞組成的第一二元詞組的第一緊密度、所述第一查詢單元得到的所述同義詞集合中 的第二單元詞與所述第一單元詞的上下文的單元詞組成的第二二元詞組的第二緊密度,其 中,所述二元詞組數(shù)據(jù)庫(kù)中包括參考二元詞組及所述參考二元詞組的緊密度;
[0020] 處理單元,用于比較所述查詢單元得到的所述第一緊密度和所述第二緊密度,如 果所述第二緊密度大于等于所述第一緊密度且所述第二緊密度大于預(yù)設(shè)閾值,則將所述第 二單元詞作為所述第一單元詞的替換詞。
[0021] 又一方面,本申請(qǐng)還提供了一種基于單元詞替換的搜索裝置,所述裝置包括:
[0022] 分詞單元,用于對(duì)輸入的查詢語(yǔ)句進(jìn)行分詞,得到所述查詢語(yǔ)句的第一單元詞;
[0023] 第一查詢單元,用于利用所述分詞單元得到的所述第一單元詞,從同義詞表中找 出所述第一單元詞的同義詞集合;
[0024] 第二查詢單元,用于從二元詞組數(shù)據(jù)庫(kù)中,查詢得到所述第一單元詞與其上下文 的單元詞組成的第一二元詞組的第一緊密度、所述第一查詢單元得到的所述同義詞集合中 的第二單元詞與所述第一單元詞的上下文的單元詞組成的第二二元詞組的第二緊密度,其 中,所述二元詞組數(shù)據(jù)庫(kù)中包括參考二元詞組及所述參考二元詞組的緊密度;
[0025] 處理單元,用于比較所述查詢單元得到的所述第一緊密度和所述第二緊密度,如 果所述第二緊密度大于等于所述第一緊密度且所述第二緊密度大于預(yù)設(shè)閾值,則將所述第 二單元詞作為所述第一單元詞的替換詞;
[0026] 搜索單元,用于利用所述處理單元得到的所述第一單元詞的替換詞,生成新的查 詢語(yǔ)句進(jìn)行搜索,得到搜索結(jié)果。
[0027] 本申請(qǐng)?zhí)峁┑膯卧~替換方法、基于單元詞替換的搜索方法及裝置,根據(jù)二元詞 組的緊密度以及替換詞在查詢語(yǔ)句中的上下文信息,來(lái)進(jìn)行有選擇性的替換,考慮了上下 文的參照信息,可減少不必要的同義詞替換,能更精確地解析搜索意圖,提高搜索結(jié)果的準(zhǔn) 確性。
【附圖說(shuō)明】
[0028] 為了更清楚地說(shuō)明本申請(qǐng)實(shí)施例中的技術(shù)方案,下面將對(duì)實(shí)施例描述中所需要使 用的附圖作簡(jiǎn)單地介紹,顯而易見(jiàn)地,下面描述中的附圖僅僅是本申請(qǐng)的一些實(shí)施例,對(duì)于 本領(lǐng)域普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)性的前提下,還可以根據(jù)這些附圖獲得其 他的附圖。
[0029] 圖1為本申請(qǐng)實(shí)施例提供的單元詞替換方法流程圖;
[0030] 圖2為本申請(qǐng)實(shí)施例提供的基于單元詞替換的搜索方法流程圖;
[0031] 圖3為本申請(qǐng)實(shí)施例提供的單元詞替換裝置示意圖;
[0032] 圖4為本申請(qǐng)實(shí)施例提供的基于單元詞替換的搜索裝置示意圖。
【具體實(shí)施方式】
[0033] 為使得本申請(qǐng)的發(fā)明目的、特征、優(yōu)點(diǎn)能夠更加的明顯和易懂,下面將結(jié)合本申請(qǐng) 實(shí)施例中的附圖,對(duì)本申請(qǐng)實(shí)施例中的技術(shù)方案進(jìn)行描述,顯然,所描述的實(shí)施例僅僅是本 申請(qǐng)一部分實(shí)施例,而非全部實(shí)施例?;诒旧暾?qǐng)中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒(méi)有 做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本申請(qǐng)保護(hù)的范圍。
[0034] 本申請(qǐng)實(shí)施例提供的單元詞替換方法及裝置,適用于各類需要進(jìn)行同義詞替換的 場(chǎng)景,尤其是具有上下文作為參照信息的文本中同義詞替換的場(chǎng)景,例如,在搜索引擎的搜 索欄中輸入的查詢語(yǔ)句等等。
[0035] 本申請(qǐng)實(shí)施例提供的基于單元詞替換的搜索方法及裝置,適用于各類搜索引擎, 尤其是有采用同義詞替換進(jìn)行擴(kuò)展性搜索的搜索引擎,例如,用于公告搜索、商品搜索、云 客服(Clive)搜索等等的搜索引擎。
[0036] 圖1是本申請(qǐng)實(shí)施例提供的單元詞替換方法流程圖,如圖1所示,本申請(qǐng)實(shí)施例的 單元詞替換方法包括:
[0037] S101、對(duì)輸入的查詢語(yǔ)句進(jìn)行分詞,得到所述查詢語(yǔ)句的第一單元詞。
[0038] 本申請(qǐng)中所述的查詢語(yǔ)句是指用戶在進(jìn)行搜索時(shí),在網(wǎng)頁(yè)的搜索欄中輸入的關(guān)鍵 詞或語(yǔ)句。例如,在Clive搜索時(shí),用戶打開(kāi)商務(wù)網(wǎng)站的客服網(wǎng)頁(yè)進(jìn)行問(wèn)題的搜索,用戶在 網(wǎng)頁(yè)的搜索欄上輸入"中國(guó)銀行快捷支付限額是多少"、"如何更改支付寶密碼"等查詢語(yǔ) 句。又例如:在公告搜索時(shí),用戶在網(wǎng)頁(yè)的搜索欄上輸入例如"請(qǐng)問(wèn)新款的秋冬連衣裙今年 什么時(shí)間上架啊"等查詢語(yǔ)句。在商品搜索時(shí),用戶在網(wǎng)頁(yè)的搜索欄上輸入例如"夏裝連衣 裙褲"等查詢語(yǔ)句。
[0039] 對(duì)用戶輸入的查詢語(yǔ)句按照現(xiàn)有的分詞方法(例如,正向最大匹配法、逆向最大 匹配法等)進(jìn)行分詞,分成多個(gè)單元詞,即第一單元詞。例如,對(duì)于查詢語(yǔ)句"中國(guó)銀行快捷 支付限額",經(jīng)過(guò)分詞得到第一單元詞"中國(guó)銀行"、"快捷"、"支付"和"限額"。
[0040] 當(dāng)然,在對(duì)所述查詢語(yǔ)句進(jìn)行分詞之后還可以對(duì)分詞得到的單元詞進(jìn)行過(guò)濾,過(guò) 濾掉一些停用詞、數(shù)字、標(biāo)點(diǎn)等,過(guò)濾掉一些如"的"、"什么"、"多少"等等停用詞,提高后續(xù) 查詢的處理效率。其中,停用詞是一些常用的單元詞,如冠詞、介詞和代詞等,不能作為單 個(gè)單詞進(jìn)行檢索。
[0041] S102、利用所述第一單元詞,從同義詞表中找出所述第一單元詞的同義詞集合。
[0042] 例如,對(duì)于單元詞"支付",可以從同義詞表中找出"支付"同義詞包括"付款"、"付 錢"等,組成"支付"的同義詞集合。
[0043] S103、從二元詞組數(shù)據(jù)庫(kù)中,查詢得到所述第一單元詞與其上下文的單元詞組成 的第一二元詞組的第一緊密度、所述同義詞集合中的第二單元詞與所述第一單元詞的上下 文的單元詞組成的第二二元詞組的第二緊密度。
[0044] 其中,所述二元詞組數(shù)據(jù)庫(kù)中包括參考二元詞組及所述參考二元詞組的緊密度。
[0045] 一般來(lái)說(shuō),所述二元詞組數(shù)據(jù)庫(kù)是利用一定規(guī)模的語(yǔ)料庫(kù)預(yù)先建立的。該語(yǔ)料庫(kù) 可以是自然語(yǔ)言的基礎(chǔ)語(yǔ)料,也可以是人為規(guī)定的一定范圍或領(lǐng)域的語(yǔ)料,優(yōu)選的,該語(yǔ)料 庫(kù)與同義詞表的語(yǔ)料庫(kù)來(lái)源于同一份基礎(chǔ)語(yǔ)料
當(dāng)前第1頁(yè)1 2 3 4 
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
海丰县| 科技| 绥化市| 溆浦县| 图木舒克市| 清新县| 个旧市| 安多县| 卫辉市| 天祝| 五莲县| 克什克腾旗| 江津市| 武宁县| 南平市| 定西市| 安宁市| 襄城县| 东宁县| 翼城县| 长治市| 安义县| 额尔古纳市| 逊克县| 马鞍山市| 汝阳县| 大渡口区| 宁晋县| 海门市| 五河县| 信阳市| 夏邑县| 申扎县| 游戏| 台中县| 宁南县| 建德市| 康定县| 荥经县| 德保县| 米易县|