一種基于場景信息的實體含義識別方法和系統(tǒng)的制作方法
【技術領域】
[0001]本發(fā)明涉及信息技術,尤其涉及一種基于場景信息的實體含義識別方法和系統(tǒng)。
【背景技術】
[0002]在信息檢索中,首先要識別用戶輸入,并準確解釋用戶輸入的含義,根據用戶輸入的含義檢索用戶需要的內容。在準確解釋用戶輸入的含義時,用戶輸入中的實體(專用名詞,例如頤和園、交大、中山路)的含義識別尤為重要。例如交大,可能存在北京交通大學、上海交通大學、西安交通大學等。在深圳、哈爾濱等都存在中山路。因此,準確識別實體的含義對于信息檢索的準確性尤為重要。
【發(fā)明內容】
[0003]本發(fā)明解決的技術問題之一是提升實體含義識別的準確性。
[0004]根據本發(fā)明的一個方面的一個實施例,提供了一種基于場景信息的實體含義識別方法,包括:
[0005]識別用戶輸入,以產生輸入識別結果;
[0006]從輸入識別結果中識別出實體;
[0007]為識別出的實體獲取候選實體含義的集合;
[0008]基于獲取的場景信息,計算所述候選實體含義的集合中各候選實體含義的特征向量;
[0009]基于各候選實體含義的特征向量,計算各候選實體含義的分數(shù),根據計算出的分數(shù)從候選實體含義集合中選取候選實體含義作為實體含義識別結果。
[0010]根據本發(fā)明的一個實施例,所述用戶輸入包括語音輸入和/或文字輸入。
[0011]根據本發(fā)明的一個實施例,從輸入識別結果中識別出實體的步驟包括:
[0012]將輸入識別結果分詞;
[0013]為從輸入識別結果中分出的詞進行詞性標注;
[0014]將每一個字輸入分類器,判定每一個字是否是構成實體的字、以及構成實體的開頭、中間還是末尾;
[0015]根據分類器對每一個字的判定結果,判斷該詞是否是實體。
[0016]根據本發(fā)明的一個實施例,所述分類器是通過利用訓練語料作為輸入、并對分類結果進行反饋訓練出的。
[0017]根據本發(fā)明的一個實施例,為識別出的實體獲取候選實體含義的集合的步驟包括:針對識別出的實體,從實體含義庫查找與該實體匹配的候選實體含義。
[0018]根據本發(fā)明的一個實施例,獲取的場景信息包括用戶查詢歷史、查詢時間、用戶位置、周邊事件、周邊人物、應用使用情況中的一項或多項。
[0019]根據本發(fā)明的一個實施例,所述候選實體含義的集合中各候選實體含義的特征向量中的至少一部分特征基于用戶查詢歷史、查詢時間、用戶位置、周邊事件、周邊人物、應用使用情況中的一項或多項計算。
[0020]根據本發(fā)明的一個實施例,計算各候選實體含義的分數(shù)的步驟包括:
[0021]使用評分函數(shù)計算各候選實體含義的分數(shù)。
[0022]根據本發(fā)明的一個實施例,所述評分函數(shù)的系數(shù)是利用訓練語料作為輸入、并對實體含義識別結果進行反饋訓練出的。
[0023]根據本發(fā)明另一個方面的一個實施例,還提供了一種基于場景信息的實體含義識別系統(tǒng),包括:
[0024]輸入識別裝置,被配置為識別用戶輸入以產生輸入識別結果;
[0025]實體識別裝置,被配置為從輸入識別結果中識別出實體;
[0026]候選實體含義獲取裝置,被配置為為識別出的實體獲取候選實體含義的集合;
[0027]計算裝置,被配置為基于獲取的場景信息,計算所述候選實體含義的集合中各候選實體含義的特征向量;
[0028]實體含義識別裝置,被配置為基于各候選實體含義的特征向量,計算各候選實體含義的分數(shù),根據計算出的分數(shù)從候選實體含義集合中選取候選實體含義作為實體含義識別結果。
[0029]根據本發(fā)明的一個實施例,用戶輸入包括語音輸入和/或文字輸入。
[0030]根據本發(fā)明的一個實施例,實體識別裝置包括:
[0031]分詞單元,被配置為將輸入識別結果分詞,并為從輸入識別結果中分出的詞進行詞性標注;
[0032]實體判斷單元,被配置為將每一個字輸入分類器,判定每一個字是否是構成實體的字、以及構成實體的開頭、中間還是末尾,根據分類器對每一個字的判定結果,判斷該詞是否是實體。
[0033]根據本發(fā)明的一個實施例,所述分類器是通過利用訓練語料作為輸入、并對分類結果進行反饋訓練出的。
[0034]根據本發(fā)明的一個實施例,所述候選實體含義獲取裝置被配置為:
[0035]針對識別出的實體,從實體含義庫查找與該實體匹配的候選實體含義。
[0036]根據本發(fā)明的一個實施例,獲取的場景信息包括用戶查詢歷史、查詢時間、用戶位置、周邊事件、周邊人物、應用使用情況中的一項或多項。
[0037]根據本發(fā)明的一個實施例,所述候選實體含義的集合中各候選實體含義的特征向量中的至少一部分特征基于用戶查詢歷史、查詢時間、用戶位置、周邊事件、周邊人物、應用使用情況中的一項或多項計算。
[0038]根據本發(fā)明的一個實施例,所述實體含義識別裝置被配置為使用評分函數(shù)計算各候選實體含義的分數(shù)。
[0039]根據本發(fā)明的一個實施例,所述評分函數(shù)的系數(shù)是利用訓練語料作為輸入、并對實體含義識別結果進行反饋訓練出的。
[0040]與僅采用通用模型的現(xiàn)有技術相比,本發(fā)明的實施例所提供的技術方案,通過基于獲取的場景信息而不僅是通用模型來分析候選實體含義,根據不同的場景信息對候選實體含義進行針對性地分析,較大地提升了實體含義識別的準確性。
[0041]本領域普通技術人員將了解,雖然下面的詳細說明將參考圖示實施例、附圖進行,但本發(fā)明并不僅限于這些實施例。而是,本發(fā)明的范圍是廣泛的,且意在僅通過后附的權利要求限定本發(fā)明的范圍。
【附圖說明】
[0042]通過閱讀參照以下附圖所作的對非限制性實施例所作的詳細描述,本發(fā)明的其它特征、目的和優(yōu)點將會變得更明顯:
[0043]圖1示出根據本發(fā)明一個實施例的基于場景信息的實體含義識別方法的流程圖;
[0044]圖2示出了根據本發(fā)明一個實施例的基于場景信息的實體含義識別系統(tǒng)的示意性框圖;
[0045]圖3示出了根據本發(fā)明的一個實施例的實體識別裝置的示意性框圖;
[0046]附圖中相同或相似的附圖標記代表相同或相似的部件。
【具體實施方式】
[0047]下面結合附圖對本發(fā)明作進一步詳細描述。
[0048]圖1示出了根據本發(fā)明一個實施例的基于場景信息的實體含義識別方法的流程圖。根據圖1,所述實體含義識別方法包括:
[0049]步驟S101,識別用戶輸入,以產生輸入識別結果。
[0050]可選地,所述用戶輸入包括諸如語音輸入、文字輸入等各種輸入方式,文字輸入可包括諸如字形輸入和拼音輸入。當用戶輸入為文字輸入時,輸入識別結果即輸入的文字;當用戶輸入為語音輸入時,可以基于聲學模型識別出音節(jié),通過查詢字典中音節(jié)與文本的可能映射關系,利用語言模型進行語音解碼,識別出對應的文本作為輸入識別結果。語音解碼目前已有成熟技術。
[0051]以語音識別為例,用戶輸入為“woyaoqujiaoda”,輸入識別結果為“我要去交大”。
[0052]步驟S102,從輸入識別結果中識別出實體。
[0053]實體是輸入識別結果中的專用名詞,例如地點、人名等。
[0054]可選地,對輸入識別結果進行一系列的預處理,諸如編碼轉換、全角半角轉換等。預處理后,基于相應的規(guī)則、統(tǒng)計方法或機器學習方法從輸入識別結果中識別出實體。
[0055]可選地,從輸入識別結果中識別出實體的步驟包括:
[0056]-將輸入識別結果分詞;
[0057]例如,將輸入識別結果“我要去交大”進行分詞,得到“我/要/去/交大”,分詞的方法是已有技術,在此不作限定,包括諸如基于字符串匹配的分詞方法、基于理解的分詞方法、基于統(tǒng)計的分詞方法等。通過分詞,將輸入識別結果切分為一個一個的詞。
[0058]-為從輸入識別結果中分出的詞進行詞性標注;
[0059]例如,為上文中切分后的各個詞“我/要/去/交大”進行詞性標注,我-代詞,要-助動詞,去-動詞,交大-名詞。詞性標注的方法是已有技術。
[0060]通過分詞和詞性標注,可以提升實體識別的準確率。分詞后的名詞也可以作為訓練語料,為構建實體識別的模型服務