專利名稱:一種領(lǐng)域特征詞確定方法和裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及信息識別領(lǐng)域,尤其涉及一種領(lǐng)域特征詞確定方法和裝置。
背景技術(shù):
領(lǐng)域特征詞是能夠代表領(lǐng)域信息的關(guān)鍵詞。領(lǐng)域詞識別是構(gòu)建知識庫的基礎(chǔ)。領(lǐng) 域詞識別需要對領(lǐng)域進行判定,而對領(lǐng)域進行判斷通常是通過統(tǒng)計該領(lǐng)域經(jīng)常出現(xiàn)的一些 特征詞來進行的。因此,領(lǐng)域特征詞的獲取對于領(lǐng)域詞的識別非常重要。目前,領(lǐng)域特征詞一般都是專家通過手工獲取,局限性比較大,效率也比較低。
發(fā)明內(nèi)容
有鑒于此,本發(fā)明實施例的目的是提供一種領(lǐng)域特征詞確定方法和裝置,從而快 速高效地獲取領(lǐng)域特征詞。為實現(xiàn)上述目的,本發(fā)明實施例提供了如下技術(shù)方案一種領(lǐng)域特征詞確定方法,包括分別選取預(yù)設(shè)數(shù)量的第一領(lǐng)域和第二領(lǐng)域兩個領(lǐng)域的領(lǐng)域詞,利用搜索引擎對每 個領(lǐng)域詞進行搜索,根據(jù)搜索結(jié)果獲得待確定領(lǐng)域特征詞集合;分別結(jié)合第一領(lǐng)域和第二領(lǐng)域的搜索結(jié)果計算待確定領(lǐng)域特征詞集合中的每個 詞語在第一領(lǐng)域中的第一權(quán)值和在第二領(lǐng)域的第二權(quán)值。分別按照所述第一權(quán)值和第二權(quán)值對所述詞語進行排序,統(tǒng)計待確定領(lǐng)域特征詞 集合中同一個詞語在兩個領(lǐng)域的權(quán)值位置信息,并根據(jù)所述位置信息計算每個詞語在這兩 個領(lǐng)域的差異度;將所述每個詞語的差異度與預(yù)先獲取的第一領(lǐng)域與第二領(lǐng)域的差異度閾值進行 比較,根據(jù)比較結(jié)果得到第一領(lǐng)域或者第二領(lǐng)域的領(lǐng)域特征詞。通過如下方法預(yù)先獲取的差異度閾值分別選取預(yù)設(shè)數(shù)量的第一領(lǐng)域和第二領(lǐng)域兩個領(lǐng)域的領(lǐng)域詞,利用搜索引擎對每 個領(lǐng)域詞進行搜索,根據(jù)搜索結(jié)果獲得待確定領(lǐng)域特征詞集合;從待確定領(lǐng)域特征詞集合中為第一領(lǐng)域和第二領(lǐng)域各選一定數(shù)量的參考領(lǐng)域特 征詞,所述參考領(lǐng)域特征詞分別從預(yù)先設(shè)置的第一領(lǐng)域和第二領(lǐng)域參考領(lǐng)域特征詞集合中 選取;分別結(jié)合第一領(lǐng)域和第二領(lǐng)域的搜索結(jié)果計算每個參考領(lǐng)域特征詞的權(quán)值,并按 照權(quán)值對參考領(lǐng)域特征詞進行排序;根據(jù)同一個參考領(lǐng)域特征詞在兩個領(lǐng)域的權(quán)值所處的不同位置計算每個參考領(lǐng) 域特征詞的位置差異度;根據(jù)參考領(lǐng)域特征詞的差異度確定第一領(lǐng)域和第二領(lǐng)域的差異度閾值。所述利用搜索引擎對每個領(lǐng)域詞進行搜索,根據(jù)搜索結(jié)果獲得待確定領(lǐng)域特征詞 集合包括
利用搜索引擎對每個領(lǐng)域詞進行搜索,獲取搜索結(jié)果,根據(jù)搜索結(jié)果得到待分析 的頁面;利用抽取程序,抽取出每個待分析頁面的正文部分;對每個待分析頁面的正文進行分詞,統(tǒng)計分詞后得到的詞語,形成待確定領(lǐng)域特 征詞集合。將所述差異度與預(yù)先獲取的差異度閾值進行比較,從差異度閾值之上的詞語中得 到領(lǐng)域特征詞包括將所述差異度與預(yù)先獲取的差異度閾值進行比較,選取差異度在差異度閾值以上 的待選領(lǐng)域特征詞;結(jié)合所述待選領(lǐng)域特征詞的在第一領(lǐng)域和第二領(lǐng)域的權(quán)值位置信息,從待選領(lǐng)域 特征詞中確定第一領(lǐng)域或第二領(lǐng)域的領(lǐng)域特征詞。所述權(quán)值位置信息為所述按照待確定領(lǐng)域特征詞在第一領(lǐng)域或者第二領(lǐng)域的權(quán) 值在相應(yīng)的領(lǐng)域進行排序后,所述待確定領(lǐng)域特征詞所處的位置。一種領(lǐng)域特征詞確定裝置,包括第一獲取單元,用于分別選取預(yù)設(shè)數(shù)量的第一領(lǐng)域和第二領(lǐng)域兩個領(lǐng)域的領(lǐng)域 詞,利用搜索引擎對每個領(lǐng)域詞進行搜索,根據(jù)搜索結(jié)果獲取待確定領(lǐng)域特征詞集合;第一計算單元,用于分別結(jié)合第一領(lǐng)域和第二領(lǐng)域的搜索結(jié)果計算待確定領(lǐng)域特 征詞集合中的每個詞語在第一領(lǐng)域中的第一權(quán)值和在第二領(lǐng)域的第二權(quán)值。第二計算單元,用于分別按照所述第一權(quán)值和第二權(quán)值對所述詞語進行排序,統(tǒng) 計待確定領(lǐng)域特征詞集合中同一個詞語在兩個領(lǐng)域的權(quán)值位置信息,并根據(jù)所述位置信息 計算每個詞語在這兩個領(lǐng)域的差異度;差異度閾值獲取單元,用于預(yù)先獲取第一領(lǐng)域與第二領(lǐng)域的差異度閾值;第二獲取單元,用于將所述每個詞語的差異度與預(yù)先獲取的第一領(lǐng)域與第二領(lǐng)域 的差異度閾值進行比較,根據(jù)比較結(jié)果得到第一領(lǐng)域或者第二領(lǐng)域的領(lǐng)域特征詞。所述差異度閾值獲取單元包括第一獲取子單元,用于分別選取預(yù)設(shè)數(shù)量的第一領(lǐng)域和第二領(lǐng)域兩個領(lǐng)域的領(lǐng)域 詞,利用搜索引擎對每個領(lǐng)域詞進行搜索,根據(jù)搜索結(jié)果獲取待確定領(lǐng)域特征詞集合;第一選取子單元,用于從待確定領(lǐng)域特征詞集合中為第一領(lǐng)域和第二領(lǐng)域各選一 定數(shù)量的參考領(lǐng)域特征詞,所述參考領(lǐng)域特征詞分別從預(yù)先設(shè)置的第一領(lǐng)域和第二領(lǐng)域參 考領(lǐng)域特征詞集合中選?。粰?quán)值計算子單元,用于分別結(jié)合第一領(lǐng)域和第二領(lǐng)域的搜索結(jié)果計算每個參考領(lǐng) 域特征詞的權(quán)值,并按照權(quán)值對參考領(lǐng)域特征詞進行排序;差異度計算子單元,用于根據(jù)同一個參考領(lǐng)域特征詞在兩個領(lǐng)域的權(quán)值所處的不 同位置計算每個參考領(lǐng)域特征詞的位置差異度;差異度閾值確定子單元,用于根據(jù)參考領(lǐng)域特征詞的差異度確定第一領(lǐng)域和第二 領(lǐng)域的差異度閾值。所述第一獲取單元包括第二選取子單元,用于分別選取預(yù)設(shè)數(shù)量的第一領(lǐng)域和第二領(lǐng)域兩個領(lǐng)域的領(lǐng)域 詞;
搜索子單元,用于利用搜索引擎對每個領(lǐng)域詞進行搜索,獲取搜索結(jié)果,根據(jù)搜索 結(jié)果得到待分析的頁面;抽取子單元,用于利用抽取程序,抽取出每個待分析頁面的正文部分;分詞子單元,用于對每個待分析頁面的正文進行分詞,統(tǒng)計分詞后得到的詞語,形 成待確定領(lǐng)域特征詞集合。所述第一獲取子單元包括選取模塊,用于分別選取預(yù)設(shè)數(shù)量的第一領(lǐng)域和第二領(lǐng)域兩個領(lǐng)域的領(lǐng)域詞;搜索模塊,用于利用搜索引擎對每個領(lǐng)域詞進行搜索,獲取搜索結(jié)果,根據(jù)搜索結(jié) 果得到待分析的頁面;抽取模塊,用于利用抽取程序,抽取出每個待分析頁面的正文部分;分詞模塊,用于對每個待分析頁面的正文進行分詞,統(tǒng)計分詞后得到的詞語,形成 待確定領(lǐng)域特征詞集合。所述第二獲取單元包括比較子單元,用于將所述差異度與預(yù)先獲取的差異度閾值進行比較,選取差異度 在差異度閾值以上的待選領(lǐng)域特征詞;第三選取子單元,結(jié)合所述待選領(lǐng)域特征詞的在第一領(lǐng)域和第二領(lǐng)域的權(quán)值位置 信息,從待選領(lǐng)域特征詞中確定第一領(lǐng)域或第二領(lǐng)域的領(lǐng)域特征詞??梢?,在本發(fā)明實施例中,預(yù)先通過參數(shù)確定階段獲取第一領(lǐng)域和第二領(lǐng)域的差 異度閾值,而后,利用搜索引擎分別對第一領(lǐng)域和第二領(lǐng)域的領(lǐng)域詞進行搜索,得到提取領(lǐng) 域特征詞的語料,從該語料中得到待確定領(lǐng)域特征詞,分別計算待確定領(lǐng)域特征詞在第一 領(lǐng)域和第二領(lǐng)域的權(quán)值,分別根據(jù)待確定領(lǐng)域特征詞的權(quán)值進行排序,并根據(jù)待確定領(lǐng)域 特征詞在兩個領(lǐng)域權(quán)值位置的不同計算每個待確定領(lǐng)域特征詞的差異度;將待確定領(lǐng)域特 征詞的差異度與第一領(lǐng)域和第二領(lǐng)域的差異度閾值進行比較,并結(jié)合每個待確定領(lǐng)域特征 詞在每個領(lǐng)域權(quán)值位置信息,即可確定第一領(lǐng)域或者第二領(lǐng)域的領(lǐng)域特征詞。本發(fā)明實施 例所提供的方法,基于搜索引擎,通過統(tǒng)計的方法實現(xiàn)了領(lǐng)域特征詞的自動提取,提高了獲 取領(lǐng)域特征詞的效率和真實性。
為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實施例或現(xiàn) 有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本 發(fā)明中記載的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動性的前提 下,還可以根據(jù)這些附圖獲得其他的附圖。圖1為本發(fā)明一實施例所提供的方法流程圖;圖2為本發(fā)明另一實施例所提供的方法的流程圖;圖3為本發(fā)明又一實施例所提供的方法的流程圖;圖4為本發(fā)明一實施例所提供的裝置的結(jié)構(gòu)示意圖;圖5為本發(fā)明一實施例所提供的裝置的中一單元的結(jié)構(gòu)示意圖;圖6為本發(fā)明一實施例所提供的裝置中又一單元的結(jié)構(gòu)示意圖;圖7為本發(fā)明又一實施例所提供的裝置中一單元的結(jié)構(gòu)示意圖。
具體實施例方式為了使本技術(shù)領(lǐng)域的人員更好地理解本發(fā)明中的技術(shù)方案,下面將結(jié)合本發(fā)明實 施例中的附圖,對本發(fā)明實施例中的技術(shù)方案進行清楚、完整地描述,顯然,所描述的實施 例僅僅是本發(fā)明一部分實施例,而不是全部的實施例?;诒景l(fā)明中的實施例,本領(lǐng)域普通 技術(shù)人員在沒有作出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都應(yīng)當(dāng)屬于本發(fā)明保護 的范圍。本發(fā)明實施例所提供的方法,主要利用同一詞語在不同類別文本中貢獻度的不同 來尋找能夠代表一領(lǐng)域的領(lǐng)域特征詞。參見圖1,本發(fā)明一實施例所提供的一種領(lǐng)域特征詞確定方法,包括S101、分別選取預(yù)設(shè)數(shù)量的第一領(lǐng)域和第二領(lǐng)域兩個領(lǐng)域的領(lǐng)域詞,利用搜索引 擎對每個領(lǐng)域詞進行搜索,根據(jù)搜索結(jié)果獲得待確定領(lǐng)域特征詞集合;具體地,利用搜索引擎對每個領(lǐng)域詞進行搜索,根據(jù)搜索結(jié)果獲得待確定領(lǐng)域特 征詞集合可以包括利用搜索引擎對每個領(lǐng)域詞進行搜索,獲取搜索結(jié)果,根據(jù)搜索結(jié)果得到待分析 的頁面;利用抽取程序,抽取出每個待分析頁面的正文部分;對每個待分析頁面的正文進行分詞,統(tǒng)計分詞后得到的詞語,形成待確定領(lǐng)域特 征詞集合。該待確定領(lǐng)域特征詞集合即將所有待分析頁面的正文部分分詞處理后,對得到的 所有的詞語進行統(tǒng)計,由分詞后的所有詞語組成的一個綜合詞表。S102、分別結(jié)合第一領(lǐng)域和第二領(lǐng)域的搜索結(jié)果計算待確定領(lǐng)域特征詞集合中的 每個詞語在第一領(lǐng)域中的第一權(quán)值和在第二領(lǐng)域的第二權(quán)值。無論一個待確定領(lǐng)域特征詞最初來源于第一領(lǐng)域還是來源于第二領(lǐng)域,在計算每 個待確定領(lǐng)域特征詞時,需要計算每個詞語在兩個領(lǐng)域的權(quán)值。S103、分別按照所述第一權(quán)值和第二權(quán)值對所述詞語進行排序,統(tǒng)計待確定領(lǐng)域 特征詞集合中同一個詞語在兩個領(lǐng)域的權(quán)值位置信息,并根據(jù)所述位置信息計算每個詞語 在這兩個領(lǐng)域的差異度;所述權(quán)值位置信息為所述按照待確定領(lǐng)域特征詞在第一領(lǐng)域或者第二領(lǐng)域的權(quán) 值在相應(yīng)的領(lǐng)域進行排序后,所述待確定領(lǐng)域特征詞所處的位置。實際應(yīng)用中,可以分別用A、B兩個權(quán)值表分別記錄每個詞語在兩個領(lǐng)域的權(quán)值。 例如用權(quán)值表A來記錄待確定領(lǐng)域特征詞在第一領(lǐng)域的權(quán)值,用權(quán)值表B來記錄待確定領(lǐng) 域特征詞在第二領(lǐng)域的權(quán)值。按照權(quán)值的大小分別對權(quán)值表A和權(quán)值表B中的詞語進行排 序,每個詞語在權(quán)值表中的位置即為該詞語的權(quán)值位置信息。根據(jù)每個詞語的權(quán)值大小進行排序時,可以從大到小排列,將權(quán)值大的詞語排在 前面,權(quán)值小的詞語排在后面;當(dāng)然也可以從小到大排列,將權(quán)值小的詞語排在前面,權(quán)值 大的詞語排在后面,本發(fā)明對此不做限定。S104、將所述每個詞語的差異度與預(yù)先獲取的第一領(lǐng)域與第二領(lǐng)域的差異度閾值 進行比較,根據(jù)比較結(jié)果得到第一領(lǐng)域或者第二領(lǐng)域特征詞。
—般情況下,同一個待確定領(lǐng)域特征詞,其在第一領(lǐng)域和第二領(lǐng)域的差異度越大, 越有可能是某一個領(lǐng)域的領(lǐng)域特征詞。具體是哪一個領(lǐng)域的領(lǐng)域特征詞,還需要結(jié)合其待 確定領(lǐng)域特征詞在第一領(lǐng)域或者第二領(lǐng)域的權(quán)值位置信息來判定。例如,如果一個待確定 領(lǐng)域特征詞在第一領(lǐng)域的權(quán)值很大,在權(quán)值排序表的位置很靠前(該權(quán)值排序表按照權(quán)值 從大到小排序),并且其在兩個領(lǐng)域的權(quán)值位置差異度很大,超過了差異度閾值的話,那么 這個待確定領(lǐng)域詞就很有可能是第一領(lǐng)域的領(lǐng)域特征詞。本發(fā)明實施例所提供的方法包括兩個階段,第一階段為參數(shù)確定階段;第二個階 段為領(lǐng)域特征詞確定階段。在參數(shù)確定階段,主要是要確定用來進行對比的第一領(lǐng)域和第二領(lǐng)域的差異度閾 值。差異度閾值是本發(fā)明實施例所提供的方法中用來判定同一個詞能夠作為第一領(lǐng)域和第 二領(lǐng)域的領(lǐng)域特征詞的參考標(biāo)準(zhǔn)。下面結(jié)合圖2,以景點名和菜名為例,詳細介紹第一領(lǐng)域和第二領(lǐng)域的差異度閾值 的確定方法。S201、選取景點名和菜名兩個領(lǐng)域的領(lǐng)域詞各100個,利用搜索引擎獲取其對應(yīng) 的搜索結(jié)果,根據(jù)搜索結(jié)果得到待分析的頁面共200個;本發(fā)明實施例中,第一領(lǐng)域為景點名,第二領(lǐng)域為菜名。所選取的景點名的領(lǐng)域詞 可以是一些景點的名稱,例如“頤和園”、“圓明園”、“長城”等等。所選取的菜名的領(lǐng)域詞 可以是一些菜品的名稱,例如“回鍋肉”、“香菇油菜”、“魚香肉絲”等等。當(dāng)確定了第一領(lǐng)域和第二領(lǐng)域的領(lǐng)域詞之后,將這些領(lǐng)域詞作為搜索詞,通過搜 索引擎進行搜索,例如,可以利用搜索引擎搜索“魚香肉絲”,得到與“魚香肉絲”對應(yīng)的待分 析頁面。本發(fā)明實施例中,共得到200個待分析的頁面,分別與200個領(lǐng)域詞對應(yīng)。S202、利用抽取程序,抽取出每個待分析頁面的正文部分。S203、對每個待分析頁面的正文進行分詞,統(tǒng)計分詞后得到的詞語,形成一個綜合 詞表。S204、從詞表中為景點名和菜名各選10個參考領(lǐng)域特征詞。該綜合詞表即待確定領(lǐng)域特征詞集合。在參數(shù)確定階段,該綜合詞表的作用是用 來與預(yù)設(shè)的參考領(lǐng)域特征詞集合進行對照,從參考領(lǐng)域特征詞集合中選取出現(xiàn)在綜合詞表 中的參考領(lǐng)域特征詞。所述參考領(lǐng)域特征詞是為了確定第一領(lǐng)域和第二領(lǐng)域的差異度閾值預(yù)先設(shè)置的。 參考領(lǐng)域特征詞可以是每個領(lǐng)域非常典型的領(lǐng)域特征詞。仍然以景點名和菜名為例。對于 景點名來說,該領(lǐng)域的典型的領(lǐng)域特征詞可以是“門票”、“位于”、“始建于”等等。對于菜名 來說,該領(lǐng)域的典型領(lǐng)域特征詞可以是“原料”、“美食”、“菜譜”等等。這些典型的領(lǐng)域特征 詞一般與領(lǐng)域詞伴隨出現(xiàn),出現(xiàn)的頻率極高。為了能夠確定第一領(lǐng)域和第二領(lǐng)域的差異度,預(yù)先針對每個領(lǐng)域設(shè)置了參考領(lǐng)域 特征詞集合。參考領(lǐng)域特征詞集合中的領(lǐng)域特征詞都是非常典型的能夠體現(xiàn)領(lǐng)域特征的 詞,一般都無需經(jīng)過進一步的判定就能夠確定它一般伴隨出現(xiàn)的領(lǐng)域。本發(fā)明實施例中,可以分別結(jié)合景點名和菜名的參考領(lǐng)域特征詞集合,對照詞表, 分別為景點名和菜名選取10個參考領(lǐng)域特征詞。S205、分別結(jié)合景點名和菜名的待分析頁面正文計算每個參考領(lǐng)域特征詞的權(quán)值,并按照權(quán)值對參考領(lǐng)域特征詞進行排序。本發(fā)明實施例中,共選出20個參考領(lǐng)域特征詞,其中,10個屬于景點名領(lǐng)域,10個 屬于菜名領(lǐng)域。對每一個參考領(lǐng)域特征詞,無論它是屬于景點名領(lǐng)域,還是屬于菜名領(lǐng)域, 都分別結(jié)合景點名和菜名計算每個參考領(lǐng)域特征詞在兩個領(lǐng)域的權(quán)值。例如,對于屬于景 點名領(lǐng)域的“門票”這一參考領(lǐng)域特征詞,結(jié)合景點名領(lǐng)域的待分析頁面計算出其在景點名 領(lǐng)域的權(quán)值為0. 79 ;同樣對于“門票”這一參考領(lǐng)域特征詞,結(jié)合菜名領(lǐng)域的待分析頁面計 算出其在菜名領(lǐng)域的權(quán)值為0. 08。計算出每個參考領(lǐng)域特征詞在兩個領(lǐng)域的權(quán)值后,在每個領(lǐng)域,按照權(quán)值為這20 個參考領(lǐng)域特征詞進行排序。S206、根據(jù)同一個參考領(lǐng)域特征詞在兩個領(lǐng)域的權(quán)值所處的不同位置計算每個參 考領(lǐng)域特征詞的位置差異度。仍然以這20個參考領(lǐng)域特征詞為例,如“門票”這一參考領(lǐng)域特征詞,以其在景點 名領(lǐng)域的權(quán)值進行排序,排在第3位;而以其在菜名領(lǐng)域的權(quán)值進行排序,排在第18位,位 置差異度就是要體現(xiàn)出同一個詞語在不同領(lǐng)域所處的位置的差異的參數(shù)。計算位置差異度時,可以通過同一個詞語在兩個領(lǐng)域的位置之差與詞語總數(shù)的商 來計算,例如(18-3)/20 = 0.75來表示。實際應(yīng)用中,差異度的算還可以通過其他的方式 計算,并能體現(xiàn)出這種差異即可。S207、根據(jù)參考領(lǐng)域特征詞的差異度確定差異度閾值。對于本發(fā)明實施例中的20參考領(lǐng)域特征詞,計算出每個參考領(lǐng)域特征詞的差異 度之后,對這20個參考領(lǐng)域特征詞的差異度進行統(tǒng)計,如果有80% (即16個)的參考領(lǐng)域 特征詞的差異度的是在0.5以上,則可以將差異度閾值確定為0.5。當(dāng)然,兩個領(lǐng)域的差異 度閾值實際上可以根據(jù)實際情況來確定,例如在另一實施例中,當(dāng)然也可以根據(jù)有70%的 參考特征領(lǐng)域詞的差異度是在0. 6以上,而將差異度閾值確定為0. 6,本發(fā)明實施例所提供 的方法不限定差異度閾值的具體值,只要能夠體現(xiàn)出兩個領(lǐng)域的差異即可。進一步地,在確定了第一領(lǐng)域和第二領(lǐng)域的差異度閾值之后,還可以根據(jù)這些參 考領(lǐng)域特征詞在兩個領(lǐng)域中的權(quán)值位置,確定相對位置閾值,比如,在景點名領(lǐng)域內(nèi),將綜 合詞表中的所有詞語按照權(quán)值從大到小進行排序,景點名領(lǐng)域中選取的10個參考領(lǐng)域特 征詞都排在前15位,則可以選取15作為位置閾值。那么,如果一個詞語,在景點名和菜名領(lǐng) 域的差異度大于這兩個領(lǐng)域的差異度閾值,并且在景點名領(lǐng)域內(nèi)按照權(quán)值排序,也位于前 15位,那么就可以確定該詞語為景點名領(lǐng)域的領(lǐng)域特征詞。至此完成了第一階段的工作,確 定了第一領(lǐng)域和第二領(lǐng)域的差異度閾值,下面結(jié)合圖3,說明如何利用差異度閾值確定屬于 第一領(lǐng)域或者第二領(lǐng)域的領(lǐng)域特征詞。S301、分別選取預(yù)設(shè)數(shù)量的第一領(lǐng)域和第二領(lǐng)域兩個領(lǐng)域的領(lǐng)域詞,利用搜索引 擎獲取其對應(yīng)的搜索結(jié)果,根據(jù)搜索結(jié)果得到待分析的頁面。步驟S301與步驟S201類似,實際上是通過搜索引擎對第一領(lǐng)域(如景點名領(lǐng)域) 和第二領(lǐng)域(如菜名領(lǐng)域)的領(lǐng)域詞進行搜索,得到獲取領(lǐng)域特征詞的語料待分析頁面。優(yōu)選地,在第一領(lǐng)域和第二領(lǐng)域預(yù)設(shè)的領(lǐng)域詞預(yù)設(shè)相同數(shù)量的領(lǐng)域詞。S302、利用抽取程序,抽取出每個待分析頁面的正文部分。S303、對每個待分析頁面的正文進行分詞,統(tǒng)計分詞后得到的詞語,形成一個綜合詞表。該綜合詞表即待確定領(lǐng)域特征詞集合。最終獲得的領(lǐng)域特征詞均來自綜合詞表。S304、分別結(jié)合第一領(lǐng)域和第二領(lǐng)域的待分析頁面正文計算綜合詞表中的每個詞 語在第一領(lǐng)域中的第一權(quán)值和在第二領(lǐng)域的第二權(quán)值。S305、分別按照綜合詞表中每個詞語的第一權(quán)值和第二權(quán)值對所述詞語進行排序。S306、統(tǒng)計綜合詞表中同一個詞語在兩個領(lǐng)域的權(quán)值位置信息,并根據(jù)所述位置 信息計算每個詞語在這兩個領(lǐng)域的差異度。S307、將所述差異度與預(yù)先獲取的差異度閾值進行比較,從差異度閾值之上的詞 語中得到領(lǐng)域特征詞。在得到綜合詞表中每個詞語在第一領(lǐng)域和第二領(lǐng)域的差異度之后,選取參數(shù)確定 階段得到的差異度閾值(例如,參數(shù)確定階段,確定的差異度閾值為0.5)以上的詞,并按照 每個詞在兩個權(quán)值列表中的權(quán)值大小排序,結(jié)合位置閾值,得到領(lǐng)域特征詞。比如在綜合 詞表中,差異度在0. 5以上的詞總共有25個,其中,有7個排在景點名領(lǐng)域的權(quán)值列表的前 15 (位置閾值)個,則選取這7個作為景點名領(lǐng)域的關(guān)鍵詞。本發(fā)明實施例所提供的方法不限定具體的權(quán)值計算方法和差異度計算方法,但是 需要說明的是,確定領(lǐng)域特征值階段所使用的權(quán)值計算方法和差異度計算方法需要與確定 差異度閾值時所使用的權(quán)值計算方法以及差異度計算方法相同,只有這樣才能保證根據(jù)預(yù) 先確定的差異度閾值來選出的領(lǐng)域特征詞是有效的。本發(fā)明實施例所提供的方法,預(yù)先通過參數(shù)確定階段獲取第一領(lǐng)域和第二領(lǐng)域的 差異度閾值,而后,利用搜索引擎分別對第一領(lǐng)域和第二領(lǐng)域的領(lǐng)域詞進行搜索,得到提取 領(lǐng)域特征詞的語料,從該語料中得到待確定領(lǐng)域特征詞,分別計算待確定領(lǐng)域特征詞在第 一領(lǐng)域和第二領(lǐng)域的權(quán)值,分別根據(jù)待確定領(lǐng)域特征詞的權(quán)值進行排序,并根據(jù)待確定領(lǐng) 域特征詞在兩個領(lǐng)域權(quán)值位置的不同計算每個待確定領(lǐng)域特征詞的差異度;將待確定領(lǐng)域 特征詞的差異度與第一領(lǐng)域和第二領(lǐng)域的差異度閾值進行比較,并結(jié)合每個待確定領(lǐng)域特 征詞在每個領(lǐng)域權(quán)值位置信息,即可確定第一領(lǐng)域或者第二領(lǐng)域的領(lǐng)域特征詞。本發(fā)明實 施例所提供的方法,通過基于搜索引擎,通過統(tǒng)計的方法實現(xiàn)了領(lǐng)域特征詞的自動提取,提 高了獲取領(lǐng)域特征詞的效率和真實性。參見圖4,本發(fā)明一實施例還提供一種領(lǐng)域特征詞確定裝置,包括第一獲取單元401,用于分別選取預(yù)設(shè)數(shù)量的第一領(lǐng)域和第二領(lǐng)域兩個領(lǐng)域的領(lǐng) 域詞,利用搜索引擎對每個領(lǐng)域詞進行搜索,根據(jù)搜索結(jié)果獲取待確定領(lǐng)域特征詞集合;第一計算單元402,用于分別結(jié)合第一領(lǐng)域和第二領(lǐng)域的搜索結(jié)果計算待確定領(lǐng) 域特征詞集合中的每個詞語在第一領(lǐng)域中的第一權(quán)值和在第二領(lǐng)域的第二權(quán)值。第二計算單元403,用于分別按照所述第一權(quán)值和第二權(quán)值對所述詞語進行排序, 統(tǒng)計待確定領(lǐng)域特征詞集合中同一個詞語在兩個領(lǐng)域的權(quán)值位置信息,并根據(jù)所述位置信 息計算每個詞語在這兩個領(lǐng)域的差異度;差異度閾值獲取單元404,用于預(yù)先獲取第一領(lǐng)域與第二領(lǐng)域的差異度閾值;第二獲取單元405,用于將所述每個詞語的差異度與預(yù)先獲取的第一領(lǐng)域與第二 領(lǐng)域的差異度閾值進行比較,根據(jù)比較結(jié)果得到第一領(lǐng)域或者第二領(lǐng)域的領(lǐng)域特征詞。
11
進一步地,參見圖5,所述差異度閾值獲取單元404包括第一獲取子單元501,用于分別選取預(yù)設(shè)數(shù)量的第一領(lǐng)域和第二領(lǐng)域兩個領(lǐng)域 的領(lǐng)域詞,利用搜索引擎對每個領(lǐng)域詞進行搜索,根據(jù)搜索結(jié)果獲取待確定領(lǐng)域特征詞集 合;第一選取子單元502,用于從待確定領(lǐng)域特征詞集合中為第一領(lǐng)域和第二領(lǐng)域各 選一定數(shù)量的參考領(lǐng)域特征詞,所述參考領(lǐng)域特征詞分別從預(yù)先設(shè)置的第一領(lǐng)域和第二領(lǐng) 域參考領(lǐng)域特征詞集合中選取;權(quán)值計算子單元503,用于分別結(jié)合第一領(lǐng)域和第二領(lǐng)域的搜索結(jié)果計算每個參 考領(lǐng)域特征詞的權(quán)值,并按照權(quán)值對參考領(lǐng)域特征詞進行排序;差異度計算子單元504,用于根據(jù)同一個參考領(lǐng)域特征詞在兩個領(lǐng)域的權(quán)值所處 的不同位置計算每個參考領(lǐng)域特征詞的位置差異度;差異度閾值確定子單元505,用于根據(jù)參考領(lǐng)域特征詞的差異度確定第一領(lǐng)域和 第二領(lǐng)域的差異度閾值。進一步地,所述第一獲取子單元501包括選取模塊,用于分別選取預(yù)設(shè)數(shù)量的第一領(lǐng)域和第二領(lǐng)域兩個領(lǐng)域的領(lǐng)域詞;搜索模塊,用于利用搜索引擎對每個領(lǐng)域詞進行搜索,獲取搜索結(jié)果,根據(jù)搜索結(jié) 果得到待分析的頁面;抽取模塊,用于利用抽取程序,抽取出每個待分析頁面的正文部分;分詞模塊,用于對每個待分析頁面的正文進行分詞,統(tǒng)計分詞后得到的詞語,形成 待確定領(lǐng)域特征詞集合。參見圖6,在本發(fā)明另一實施例中,圖4所示的所述第一獲取單元401可以包括第二選取子單元601,用于分別選取預(yù)設(shè)數(shù)量的第一領(lǐng)域和第二領(lǐng)域兩個領(lǐng)域的 領(lǐng)域詞;搜索子單元602,用于利用搜索引擎對每個領(lǐng)域詞進行搜索,獲取搜索結(jié)果,根據(jù) 搜索結(jié)果得到待分析的頁面;抽取子單元603,用于利用抽取程序,抽取出每個待分析頁面的正文部分;分詞子單元604,用于對每個待分析頁面的正文進行分詞,統(tǒng)計分詞后得到的詞 語,形成待確定領(lǐng)域特征詞集合??蛇x地,參見圖7,所述第二獲取單元405包括比較子單元701,用于將所述差異度與預(yù)先獲取的差異度閾值進行比較,選取差異 度在差異度閾值以上的待選領(lǐng)域特征詞;第三選取子單元702,結(jié)合所述待選領(lǐng)域特征詞的在第一領(lǐng)域和第二領(lǐng)域的權(quán)值 位置信息,從待選領(lǐng)域特征詞中確定第一領(lǐng)域或第二領(lǐng)域的領(lǐng)域特征詞。本發(fā)明實施例所提供的裝置,預(yù)先通過參數(shù)確定階段獲取第一領(lǐng)域和第二領(lǐng)域的 差異度閾值,而后,利用搜索引擎分別對第一領(lǐng)域和第二領(lǐng)域的領(lǐng)域詞進行搜索,得到提取 領(lǐng)域特征詞的語料,從該語料中得到待確定領(lǐng)域特征詞,分別計算待確定領(lǐng)域特征詞在第 一領(lǐng)域和第二領(lǐng)域的權(quán)值,分別根據(jù)待確定領(lǐng)域特征詞的權(quán)值進行排序,并根據(jù)待確定領(lǐng) 域特征詞在兩個領(lǐng)域權(quán)值位置的不同計算每個待確定領(lǐng)域特征詞的差異度;將待確定領(lǐng)域 特征詞的差異度與第一領(lǐng)域和第二領(lǐng)域的差異度閾值進行比較,并結(jié)合每個待確定領(lǐng)域特征詞在每個領(lǐng)域權(quán)值位置信息,即可確定第一領(lǐng)域或者第二領(lǐng)域的領(lǐng)域特征詞。本發(fā)明實 施例所提供的裝置,基于搜索引擎實現(xiàn),通過統(tǒng)計的方法實現(xiàn)了領(lǐng)域特征詞的自動提取,提 高了獲取領(lǐng)域特征詞的效率和真實性。為了描述的方便,本發(fā)明實施例在描述裝置時以功能分為各種單元分別描述。當(dāng) 然,在實施本發(fā)明時可以把各單元的功能在同一個或多個軟件和/或硬件中實現(xiàn)。通過以上的實施方式的描述可知,本領(lǐng)域的技術(shù)人員可以清楚地了解到本發(fā)明可 借助軟件加必需的通用硬件平臺的方式來實現(xiàn)?;谶@樣的理解,本發(fā)明的技術(shù)方案本質(zhì) 上或者說對現(xiàn)有技術(shù)做出貢獻的部分可以以軟件產(chǎn)品的形式體現(xiàn)出來,該計算機軟件產(chǎn)品 可以存儲在存儲介質(zhì)中,如ROM/RAM、磁碟、光盤等,包括若干指令用以使得一臺計算機設(shè)備 (可以是個人計算機,服務(wù)器,或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行本發(fā)明各個實施例或者實施例的某些 部分所述的方法。本說明書中的各個實施例均采用遞進的方式描述,各個實施例之間相同相似的部 分互相參見即可,每個實施例重點說明的都是與其他實施例的不同之處。尤其,對于系統(tǒng)實 施例而言,由于其基本相似于方法實施例,所以描述的比較簡單,相關(guān)之處參見方法實施例 的部分說明即可。本發(fā)明可用于眾多通用或?qū)S玫挠嬎阆到y(tǒng)環(huán)境或配置中。例如個人計算機、服務(wù) 器計算機、手持設(shè)備或便攜式設(shè)備、平板型設(shè)備、多處理器系統(tǒng)、基于微處理器的系統(tǒng)、置頂 盒、可編程的消費電子設(shè)備、網(wǎng)絡(luò)PC、小型計算機、大型計算機、包括以上任何系統(tǒng)或設(shè)備的 分布式計算環(huán)境等等。本發(fā)明可以在由計算機執(zhí)行的計算機可執(zhí)行指令的一般上下文中描述,例如程序 模塊。一般地,程序模塊包括執(zhí)行特定任務(wù)或?qū)崿F(xiàn)特定抽象數(shù)據(jù)類型的例程、程序、對象、組 件、數(shù)據(jù)結(jié)構(gòu)等等。也可以在分布式計算環(huán)境中實踐本發(fā)明,在這些分布式計算環(huán)境中,由 通過通信網(wǎng)絡(luò)而被連接的遠程處理設(shè)備來執(zhí)行任務(wù)。在分布式計算環(huán)境中,程序模塊可以 位于包括存儲設(shè)備在內(nèi)的本地和遠程計算機存儲介質(zhì)中。雖然通過實施例描繪了本發(fā)明,本領(lǐng)域普通技術(shù)人員知道,本發(fā)明有許多變形和 變化而不脫離本發(fā)明的精神,希望所附的權(quán)利要求包括這些變形和變化而不脫離本發(fā)明的 精神。
權(quán)利要求
1.一種領(lǐng)域特征詞確定方法,其特征在于,包括分別選取預(yù)設(shè)數(shù)量的第一領(lǐng)域和第二領(lǐng)域兩個領(lǐng)域的領(lǐng)域詞,利用搜索引擎對每個領(lǐng) 域詞進行搜索,根據(jù)搜索結(jié)果獲得待確定領(lǐng)域特征詞集合;分別結(jié)合第一領(lǐng)域和第二領(lǐng)域的搜索結(jié)果計算待確定領(lǐng)域特征詞集合中的每個詞語 在第一領(lǐng)域中的第一權(quán)值和在第二領(lǐng)域的第二權(quán)值。分別按照所述第一權(quán)值和第二權(quán)值對所述詞語進行排序,統(tǒng)計待確定領(lǐng)域特征詞集合 中同一個詞語在兩個領(lǐng)域的權(quán)值位置信息,并根據(jù)所述位置信息計算每個詞語在這兩個領(lǐng) 域的差異度;將所述每個詞語的差異度與預(yù)先獲取的第一領(lǐng)域與第二領(lǐng)域的差異度閾值進行比較, 根據(jù)比較結(jié)果得到第一領(lǐng)域或者第二領(lǐng)域的領(lǐng)域特征詞。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,通過如下方法預(yù)先獲取的差異度閾值 分別選取預(yù)設(shè)數(shù)量的第一領(lǐng)域和第二領(lǐng)域兩個領(lǐng)域的領(lǐng)域詞,利用搜索引擎對每個領(lǐng)域詞進行搜索,根據(jù)搜索結(jié)果獲得待確定領(lǐng)域特征詞集合;從待確定領(lǐng)域特征詞集合中為第一領(lǐng)域和第二領(lǐng)域各選一定數(shù)量的參考領(lǐng)域特征 詞,所述參考領(lǐng)域特征詞分別從預(yù)先設(shè)置的第一領(lǐng)域和第二領(lǐng)域參考領(lǐng)域特征詞集合中選 ?。环謩e結(jié)合第一領(lǐng)域和第二領(lǐng)域的搜索結(jié)果計算每個參考領(lǐng)域特征詞的權(quán)值,并按照權(quán) 值對參考領(lǐng)域特征詞進行排序;根據(jù)同一個參考領(lǐng)域特征詞在兩個領(lǐng)域的權(quán)值所處的不同位置計算每個參考領(lǐng)域特 征詞的位置差異度;根據(jù)參考領(lǐng)域特征詞的差異度確定第一領(lǐng)域和第二領(lǐng)域的差異度閾值。
3.根據(jù)權(quán)利要求1或2所述的方法,其特征在于,所述利用搜索引擎對每個領(lǐng)域詞進行 搜索,根據(jù)搜索結(jié)果獲得待確定領(lǐng)域特征詞集合包括利用搜索引擎對每個領(lǐng)域詞進行搜索,獲取搜索結(jié)果,根據(jù)搜索結(jié)果得到待分析的頁利用抽取程序,抽取出每個待分析頁面的正文部分;對每個待分析頁面的正文進行分詞,統(tǒng)計分詞后得到的詞語,形成待確定領(lǐng)域特征詞皇A朱口 ο
4.根據(jù)權(quán)利要求1或2所述的方法,其特征在于,將所述差異度與預(yù)先獲取的差異度閾 值進行比較,從差異度閾值之上的詞語中得到領(lǐng)域特征詞包括將所述差異度與預(yù)先獲取的差異度閾值進行比較,選取差異度在差異度閾值以上的待 選領(lǐng)域特征詞;結(jié)合所述待選領(lǐng)域特征詞的在第一領(lǐng)域和第二領(lǐng)域的權(quán)值位置信息,從待選領(lǐng)域特征 詞中確定第一領(lǐng)域或第二領(lǐng)域的領(lǐng)域特征詞。
5.根據(jù)權(quán)利要求1 4任意一項所述的方法,其特征在于,所述權(quán)值位置信息為所述按 照待確定領(lǐng)域特征詞在第一領(lǐng)域或者第二領(lǐng)域的權(quán)值在相應(yīng)的領(lǐng)域進行排序后,所述待確 定領(lǐng)域特征詞所處的位置。
6.一種領(lǐng)域特征詞確定裝置,其特征在于,包括第一獲取單元,用于分別選取預(yù)設(shè)數(shù)量的第一領(lǐng)域和第二領(lǐng)域兩個領(lǐng)域的領(lǐng)域詞,利用搜索引擎對每個領(lǐng)域詞進行搜索,根據(jù)搜索結(jié)果獲取待確定領(lǐng)域特征詞集合;第一計算單元,用于分別結(jié)合第一領(lǐng)域和第二領(lǐng)域的搜索結(jié)果計算待確定領(lǐng)域特征詞 集合中的每個詞語在第一領(lǐng)域中的第一權(quán)值和在第二領(lǐng)域的第二權(quán)值;第二計算單元,用于分別按照所述第一權(quán)值和第二權(quán)值對所述詞語進行排序,統(tǒng)計待 確定領(lǐng)域特征詞集合中同一個詞語在兩個領(lǐng)域的權(quán)值位置信息,并根據(jù)所述位置信息計算 每個詞語在這兩個領(lǐng)域的差異度;差異度閾值獲取單元,用于預(yù)先獲取第一領(lǐng)域與第二領(lǐng)域的差異度閾值; 第二獲取單元,用于將所述每個詞語的差異度與預(yù)先獲取的第一領(lǐng)域與第二領(lǐng)域的差 異度閾值進行比較,根據(jù)比較結(jié)果得到第一領(lǐng)域或者第二領(lǐng)域的領(lǐng)域特征詞。
7.根據(jù)權(quán)利要求6所述的裝置,其特征在于,所述差異度閾值獲取單元包括第一獲取子單元,用于分別選取預(yù)設(shè)數(shù)量的第一領(lǐng)域和第二領(lǐng)域兩個領(lǐng)域的領(lǐng)域詞, 利用搜索引擎對每個領(lǐng)域詞進行搜索,根據(jù)搜索結(jié)果獲取待確定領(lǐng)域特征詞集合;第一選取子單元,用于從待確定領(lǐng)域特征詞集合中為第一領(lǐng)域和第二領(lǐng)域各選一定數(shù) 量的參考領(lǐng)域特征詞,所述參考領(lǐng)域特征詞分別從預(yù)先設(shè)置的第一領(lǐng)域和第二領(lǐng)域參考領(lǐng) 域特征詞集合中選??;權(quán)值計算子單元,用于分別結(jié)合第一領(lǐng)域和第二領(lǐng)域的搜索結(jié)果計算每個參考領(lǐng)域特 征詞的權(quán)值,并按照權(quán)值對參考領(lǐng)域特征詞進行排序;差異度計算子單元,用于根據(jù)同一個參考領(lǐng)域特征詞在兩個領(lǐng)域的權(quán)值所處的不同位 置計算每個參考領(lǐng)域特征詞的位置差異度;差異度閾值確定子單元,用于根據(jù)參考領(lǐng)域特征詞的差異度確定第一領(lǐng)域和第二領(lǐng)域 的差異度閾值。
8.根據(jù)權(quán)利要求6或7所述的裝置,其特征在于,所述第一獲取單元包括 第二選取子單元,用于分別選取預(yù)設(shè)數(shù)量的第一領(lǐng)域和第二領(lǐng)域兩個領(lǐng)域的領(lǐng)域詞; 搜索子單元,用于利用搜索引擎對每個領(lǐng)域詞進行搜索,獲取搜索結(jié)果,根據(jù)搜索結(jié)果得到待分析的頁面;抽取子單元,用于利用抽取程序,抽取出每個待分析頁面的正文部分; 分詞子單元,用于對每個待分析頁面的正文進行分詞,統(tǒng)計分詞后得到的詞語,形成待 確定領(lǐng)域特征詞集合。
9.根據(jù)權(quán)利要求7所述的裝置,其特征在于,所述第一獲取子單元包括選取模塊,用 于分別選取預(yù)設(shè)數(shù)量的第一領(lǐng)域和第二領(lǐng)域兩個領(lǐng)域的領(lǐng)域詞;搜索模塊,用于利用搜索引擎對每個領(lǐng)域詞進行搜索,獲取搜索結(jié)果,根據(jù)搜索結(jié)果得 到待分析的頁面;抽取模塊,用于利用抽取程序,抽取出每個待分析頁面的正文部分; 分詞模塊,用于對每個待分析頁面的正文進行分詞,統(tǒng)計分詞后得到的詞語,形成待確 定領(lǐng)域特征詞集合。
10.根據(jù)權(quán)利要求6或7所述的裝置,其特征在于,所述第二獲取單元包括比較子單元,用于將所述差異度與預(yù)先獲取的差異度閾值進行比較,選取差異度在差 異度閾值以上的待選領(lǐng)域特征詞;第三選取子單元,結(jié)合所述待選領(lǐng)域特征詞的在第一領(lǐng)域和第二領(lǐng)域的權(quán)值位置信息,從待選領(lǐng)域特征詞中確定第一領(lǐng)域或第二領(lǐng)域的領(lǐng)域特征詞。
全文摘要
本發(fā)明實施例公開了一種領(lǐng)域特征詞確定方法和裝置。本發(fā)明實施例所提供的方案,預(yù)先通過參數(shù)確定階段獲取第一領(lǐng)域和第二領(lǐng)域的差異度閾值,而后,利用搜索引擎得到提取領(lǐng)域特征詞的語料,從該語料中得到待確定領(lǐng)域特征詞,分別計算待確定領(lǐng)域特征詞在第一領(lǐng)域和第二領(lǐng)域的權(quán)值,分別根據(jù)權(quán)值進行排序,并根據(jù)權(quán)值位置的不同計算每個待確定領(lǐng)域特征詞的差異度;將待確定領(lǐng)域特征詞的差異度與差異度閾值進行比較,并結(jié)合權(quán)值位置信息,確定第一領(lǐng)域或者第二領(lǐng)域的領(lǐng)域特征詞。本發(fā)明實施例所提供的方法,基于搜索引擎,利用統(tǒng)計的方法實現(xiàn)了領(lǐng)域特征詞的自動提取,提高了獲取領(lǐng)域特征詞的效率和真實性。
文檔編號G06F17/30GK102135961SQ201010100319
公開日2011年7月27日 申請日期2010年1月22日 優(yōu)先權(quán)日2010年1月22日
發(fā)明者于亮, 張宇峰 申請人:北京金山數(shù)字娛樂科技有限公司, 北京金山軟件有限公司