可以包括至少一文章語句111、一屬性詞庫112、與一距離模型113。值得注意的是,在一些實施例中,文章的主觀意見管理裝置100可以更包括一網(wǎng)絡(luò)連接單元(圖1中未顯示),用以連接至一網(wǎng)絡(luò),如有線網(wǎng)絡(luò)、電信網(wǎng)絡(luò)、與無線網(wǎng)絡(luò)等。藉由網(wǎng)絡(luò)連接單元使文章的主觀意見管理裝置100可以具有一網(wǎng)絡(luò)接取能力,以連接至網(wǎng)絡(luò)以取得一網(wǎng)絡(luò)文章。在一些實施例中,文章語句111可以為網(wǎng)絡(luò)文章中的一語句。屬性詞庫112中可以記錄相應(yīng)至少一目標關(guān)鍵詞,如對象的欲評價的多個候選屬性詞。舉例來說,目標關(guān)鍵詞可以為一特定型號的手機,且相應(yīng)此特定型號的手機的屬性詞可以包括電池、外型、功能、速度等。值得注意的是,在一些實施例中,儲存單元110可以更包括一評價詞庫、一程度詞庫、與一否定詞庫。在一些實施例中,“知網(wǎng)”所發(fā)布的中文情感分析用詞語集中的情感詞子類別詞語集和評價詞子類別詞語集可以做為評價詞庫的來源,而程度詞子類別詞語集可以做為程度詞庫的來源。在一些實施例中,王正豪2010年于相關(guān)文獻中所歸納的否定詞可以做為否定詞庫的來源。必須說明的是,前述詞庫來源僅為本案的例子,本案并不限定于此。值得注意的是,在一些實施例中,意見詞組可以包括評價詞、程度詞與否定詞。其中,前述評價詞庫、程度詞庫、與否定詞庫可以用來搜尋文章語句中的意見詞組,相關(guān)細節(jié)將于后進行說明。距離模型113可以為由相關(guān)訓(xùn)練數(shù)據(jù)所訓(xùn)練出的文章語句中屬性詞與意見詞組,尤其是意見詞組中的評價詞間距離的分類模型。處理單元120用以執(zhí)行依據(jù)本案的文章的主觀意見管理方法,其細節(jié)將于后進行說明。
[0038]圖2顯示的為本發(fā)明一實施例的距離模型訓(xùn)練方法的流程圖。
[0039]首先,如步驟S210,取得多個文章語句。值得注意的是,在一些實施例中,可以以網(wǎng)絡(luò)爬蟲方式配合搜尋引擎來搜尋相應(yīng)目標關(guān)鍵詞的一定數(shù)量的網(wǎng)絡(luò)文章。其中,距離模型為相應(yīng)此目標關(guān)鍵詞領(lǐng)域的訓(xùn)練結(jié)果。同時,可以分析每一文章的相關(guān)關(guān)鍵信息,如文章本文、人氣指數(shù)、發(fā)文時間等等。取得網(wǎng)絡(luò)文章之后,可以將這些文章進行標示,以確定對文章作者本身進行意見評論的文章,以將新聞、廣告、轉(zhuǎn)錄等文章濾除。接著,將標示的文章進行語句層級的斷句,其中具有主觀意見評論的文章語句將會被取出。舉例來說,擷取出的文章語句可以包括“就一直讓我對智能手機的功能與實用性贊譽有加”、“還有下方的黑線部分就是一直被嫌棄的天線設(shè)計”、“運行速度更快”、“ iPhone4是”最好的智能手機、“電池很不經(jīng)用”等。如步驟S220,搜尋文章語句中的屬性詞與意見詞組。其中,屬性詞庫中的候選屬性詞可以比對文章語句,從而找出文章語句中的屬性詞及屬性詞于文章語句中的位置。此夕卜,依據(jù)評價詞庫、程度詞庫、與否定詞庫搜尋文章語句中的意見詞組及意見詞組于文章語句中的位置。其中,意見詞組可以包括評價詞、程度詞與否定詞。舉例來說,“功能”、“天線”、“速度”、“iPhone4”、“電池”可以為前述文章語句中的屬性詞?!百澴u有加”、“嫌棄”、“更快”、“最好”、“不經(jīng)用”可以為前述文章語句中的意見詞組。接著,如步驟S230,依據(jù)屬性詞于文章語句中的位置及意見詞組于文章語句中的位置計算至少一特征值,并如步驟S240,將特征值輸入距離模型以進行訓(xùn)練。必須說明的是,在一些實施例中,距離模型可以為一支持向量機(Support Vector Machine, SVM),且特征輸入至支持向量機之前可以先進行正規(guī)化轉(zhuǎn)換為特征值。值得注意的是,在一些實施例中,輸入至支持向量機的特征可以包括屬性詞與評價詞的距離,其中正規(guī)化后特征值的數(shù)值可以大于0。在一些實施例中,輸入至支持向量機的特征可以包括評價詞情感正反面,其中正規(guī)化后特征值的數(shù)值可以為1或-1。在一些實施例中,輸入至支持向量機的特征可以在屬性詞位置相對于評價詞的前后,其中正規(guī)化后特征值的數(shù)值可以為1或-1。在一些實施例中,輸入至支持向量機的特征可以有無程度詞,其中正規(guī)化后特征值的數(shù)值可以為1或-1。在一些實施例中,輸入至支持向量機的特征可以為程度詞分級,其中正規(guī)化后特征值的數(shù)值可以為0-6。在一些實施例中,輸入至支持向量機的特征可以在程度詞位置相對于評價詞的前后,其中正規(guī)化后特征值的數(shù)值可以為1、0或-1。在一些實施例中,輸入至支持向量機的特征可以為評價詞與否定詞的距離,其中正規(guī)化后特征值的數(shù)值可以大于等于0。在一些實施例中,輸入至支持向量機的特征可以有無否定詞,其中正規(guī)化后特征值的數(shù)值可以為1或-1。在一些實施例中,輸入至支持向量機的特征可以在否定詞位置相對于評價詞的前后,其中正規(guī)化后特征值的數(shù)值可以為1、0或-1。在一些實施例中,輸入至支持向量機的特征可以為否定詞與評價詞的距離,其中正規(guī)化后特征值的數(shù)值可以大于等于0。值得注意的是,在一些實施例中,支持向量機可以為產(chǎn)生距離模型的工具,其中,屬性詞與評價詞的距離可以作為分類卷標,其它特征可以做為索引,而特征所相應(yīng)的特征值作為數(shù)值,以輸入至支持向量機來進行訓(xùn)練以產(chǎn)生主觀意見語句的距離分類模式。必須說明的是,前述特征及其特征值皆為本案的例子,本案并不限定于此。任何足以依據(jù)文章語句中屬性詞與意見詞組產(chǎn)生的特征皆可應(yīng)用至本案中。
[0040]圖3顯示的為本發(fā)明一實施例的文章的主觀意見管理方法的流程圖。依據(jù)本發(fā)明實施例的文章的主觀意見管理方法適用于一電子裝置,如計算機。
[0041]首先,如步驟S310,取得一文章語句。值得注意的是,在一些實施例中,可以以網(wǎng)絡(luò)爬蟲方式取得一網(wǎng)絡(luò)文章,接著,將文章進行語句層級的斷句,以取出具有主觀意見評論的文章語句。如步驟S320,依據(jù)屬性詞庫搜尋文章語句中的一屬性詞。其中,屬性詞庫中的候選屬性詞可以比對文章語句,從而找出文章語句中的屬性詞及屬性詞于文章語句中的位置。如步驟S330,將屬性詞輸入距離模型,從而得到相應(yīng)屬性詞的一標準距離值。提醒的是,距離模型可以依據(jù)多個訓(xùn)練語句產(chǎn)生,其中每一訓(xùn)練語句至少包括一訓(xùn)練屬性詞與一訓(xùn)練意見詞組。其中,訓(xùn)練屬性詞與訓(xùn)練意見詞組間的一距離被作為至少一特征值以輸入距離模型。另外,在一些實施例中,特征可以包括評價詞情感正反面、屬性詞位置相對于評價詞的前后、有無程度詞、程度詞分級、程度詞位置相對于評價詞的前后、評價詞與否定詞之距離、有無否定詞、否定詞位置相對于評價詞的前后、與/或否定詞與評價詞的距離等。其中,屬性詞與評價詞的距離可以作為分類卷標,其它特征可以做為索引,而特征所相應(yīng)的特征值作為數(shù)值,以輸入至支持向量機來進行訓(xùn)練以產(chǎn)生主觀意見語句的距離分類模式。類似地,前述特征及其特征值皆為本案的例子,本案并不限定于此。任何足以依據(jù)文章語句中屬性詞與意見詞組產(chǎn)生的特征皆可應(yīng)用至本案中。如步驟S340,由文章語句取得一意見詞組。值得注意的是,在一些實施例中,可以依據(jù)評價詞庫、程度詞庫、與否定詞庫搜尋文章語句中的意見詞組及意見詞組于文章語句中的位置。注意的是,在一些實施例中,可以依據(jù)步驟S330得到的標準距離值來搜尋文章語句中的意見詞組,以增加搜尋的效率。圖4顯示的是本發(fā)明一實施例的意見詞組搜尋方法的流程圖。如步驟S410,依據(jù)屬性詞于文章語句中的位置及標準距離值決定由文章語句搜尋意見詞組的一搜尋起始位置。如步驟S420,依據(jù)此搜尋起始位置由文章語句中搜尋意見詞組。類似地,如前所述,可以依據(jù)評價詞庫、程度詞庫、與否定詞庫搜尋文章語句中的意見詞組。接著,如步驟S350,依據(jù)屬性詞于文章語句中的位置與意見詞組于文章語句中的位置計算屬性詞與意見詞組于文章語句中的一實際距離值。之后,如步驟S360,依據(jù)標準距離值與實際距離值判斷文章語句是否為一非主觀意見語句。注意的是,在一些實施例中,當(dāng)實際距離值大于或小于標準距離值時,可以判定此文章語句為一非主觀意見語句。值得注意的是,在一些實施例中,判斷文章語句是否為一非