欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種產品參數(shù)獲取系統(tǒng)和方法

文檔序號:6483956閱讀:127來源:國知局
專利名稱:一種產品參數(shù)獲取系統(tǒng)和方法
技術領域
本發(fā)明涉及一種產品參數(shù)獲取系統(tǒng)和方法,尤其是涉及一種面向 領域的產品評論中自動獲耳又產品各項參tt的系統(tǒng)和方法。
背景技術
目前,從產品評論中自動獲取產品參數(shù)已經有了一些研究,主要有兩種方法基于詞頻統(tǒng)計的方法和基于規(guī)則的方法?;谠~頻統(tǒng)計的方法,主要是通過統(tǒng)計評論中各個詞或短語出現(xiàn) 的頻率,將出現(xiàn)頻率較高的名詞或名詞短語作為備選的產品參數(shù),并 通過一些去噪規(guī)則去掉一些噪音?,F(xiàn)有的基于詞頻統(tǒng)計的方法,前才是 假設是出現(xiàn)頻率高的才可能是產品參數(shù),但是有些時候評論數(shù)據(jù)中可 能會存在出現(xiàn)頻率很低的產品參數(shù),這樣利用基于詞頻統(tǒng)計的方法就 獲取不到這些低頻的參數(shù)了。而且通過去噪規(guī)則處理以后,得到的產 品參數(shù)中仍然會存在大量的噪音。基于規(guī)則的方法,主要是通過事先手工的設定一些獲取規(guī)則,然 后將這些獲取規(guī)則應用到用戶提交的產品評論中,獲取滿足規(guī)則的詞 或短語,作為產品的參數(shù)?;谝?guī)則的方法比較簡單,最大的缺陷是 這些事先設定的規(guī)則不能跨領域使用,不同類的產品需要不同的獲耳又 規(guī)則?,F(xiàn)有的方法存在很大的應用缺陷,不是滿足不了跨領域的需求, 就是達不到較高的召回率。發(fā)明內容本發(fā)明是鑒于上述技術問題而產生的。本發(fā)明的一個目的是提出 一種一種產品參數(shù)獲取系統(tǒng)和方法。在一個方面中,根據(jù)本發(fā)明的產品參數(shù)獲取系統(tǒng)包括目標評論 詞頻統(tǒng)計單元,用于統(tǒng)計目標評"i侖中各個名詞或名詞詞組出現(xiàn)的頻率 并排序,并得到一個詞表;產品評^r詞頻統(tǒng)計單元,用于統(tǒng)計詞表中 的每個詞在不同領域內的產品評論的出現(xiàn)頻率并記錄,同時查看出現(xiàn)該詞的每個評論子句中出現(xiàn)形容詞的子句數(shù)目并記錄;相關度計算單 元,用于利用目標評論詞頻統(tǒng)計單元和產品評論詞頻統(tǒng)計單元的統(tǒng)計 結果來計算詞表中每個詞的相關度,并且將相關度大于某個設定值的 詞作為結果表中的產品參數(shù);表達模式抽取單元,用于抽取結果表中 的每個產品參數(shù)在目標產品評論中的表達模式并將其記錄成一個產品 參數(shù)表達模式表;以及匹配單元,用于通過在目標評論句子中匹配這 些表達模式來找到那些隱藏的出現(xiàn)頻率不高的產品參數(shù)詞。在這個方面中,其中利用以下公式來計算詞表中每個詞的相關度/at w,在這個方面中,其中表達模式抽取單元進一步包括檢查模塊, 用于對包含結果表中的某個詞的每條目標評論句子進行檢查;提取模 塊,用于提取從該詞開始到周圍最近的形容詞的這部分句子片段以作 為該詞在該句子中的表達才莫式。在這個方面中,其中匹配單元進一步包括查找模塊,用于在表 達模式表中從出現(xiàn)頻率最高的表達模式開始查找目標評論句子中與該 表達模式相匹配的評論;新參數(shù)詞獲取模塊,用于在查找到匹配評論 的情況下從匹配的評論中得到新的產品參數(shù)詞;以及新參數(shù)詞添加模塊,用于在結果表中不存在該新參數(shù)詞的情況下將該新參數(shù)詞加入到 結果參數(shù)表中。在另一個方面中,根據(jù)本發(fā)明的產品參數(shù)獲取方法包括A、統(tǒng)計B、 統(tǒng)計詞表中的每個詞在不同領域內的產品評論的出現(xiàn)頻率并記錄, 同時查看出現(xiàn)該詞的每個評論子句中出現(xiàn)形容詞的子句數(shù)目并記錄;C、 利用步驟A和B的統(tǒng)計結果來計算詞表中每個詞的相關度,并且 將相關度大于某個設定值的詞作為結果表中的產品參數(shù);D、抽取結果 表中的每個產品參數(shù)在目標產品評論中的表達模式并將其記錄成一個 產品參數(shù)表達模式表;E、通過在目標評論句子中匹配這些表達模式來 找到那些隱藏的出現(xiàn)頻率不高的產品參數(shù)詞。在這個方面中,其中利用以下公式來計算詞表中每個詞的相關度D04 (嗎=在這個方面中,其中步驟D進一步包括對包含結果表中的某個 詞的每條目標評論句子進行檢查;提取從該詞開始到周圍最近的形容 詞的這部分句子片段以作為該詞在該句子中的表達模式。在這個方面中,其中步驟E進一步包括在表達模式表中從出現(xiàn) 頻率最高的表達模式開始查找目標評論句子中與該表達模式相匹配的 評論;在查找到匹配評論的情況下從匹配的評論中得到新的產品參數(shù) 詞;以及在結果表中不存在該新參數(shù)詞的情況下將該新參數(shù)詞加入到 結果參數(shù)表中。通過本發(fā)明,可以有效的支持跨領域的產品參數(shù)詞獲取。通過借 助不同領域的產品評論數(shù)據(jù),并且能夠自動的獲取已有產品參數(shù)的表達模式,而不需要人為來設定該領域內的表達規(guī)則,可以有效的支持 跨領域的產品參數(shù)獲取,同時又保證了較高的效率。同時,本發(fā)明通過限制候選詞的相關度提高去噪的效率,使結果更加準確;并且通過 獲取已經得到的產品參數(shù)的表達模式,用這些模式可以獲取更多的隱 藏的產品參數(shù),提高了召回率。


結合隨后的附圖,從下面的詳細說明中可顯而易見的得出本發(fā)明 的上述及其他目的、特征及優(yōu)點。在附圖中 圖1給出了目標評論數(shù)據(jù)的一個示例; 圖2給出了表達模式表的一個示例; 圖3給出了根據(jù)本發(fā)明的產品參數(shù)獲取方法的流程圖; 圖4給出了根據(jù)本發(fā)明的產品參數(shù)獲取系統(tǒng)的方框圖; 圖5給出了根據(jù)本發(fā)明的表達模式抽取單元的詳細方框圖; 圖6給出了根據(jù)本發(fā)明的匹配單元的詳細方框圖; 圖7給出了能夠實施本發(fā)明的一個示例環(huán)境的示意圖。
具體實施方式
為了更全面地理解本發(fā)明及其優(yōu)點,下面結合附圖及具體實施例 對本發(fā)明做進一步詳細地說明。首先,本發(fā)明給定的是一系列具體產品的用戶評論信息,作為文 本格式存儲。圖1是目標評論數(shù)據(jù)的一個實例說明,其中下劃線標出的那些詞 就是要獲取的產品參數(shù)詞。對于任意給定的一個具體產品名稱而言, 該產品名稱對應一篇目標評論文本和若干不同領域的產品評論文本。接下來,參考圖3,對根據(jù)本發(fā)明的產品參數(shù)獲取方法進行說明。如圖3所示,根據(jù)本發(fā)明的產品參數(shù)獲取方法包括步驟A、 統(tǒng)計目標評-i侖中各個名詞或名詞詞組出現(xiàn)的頻率(即詞頻)并 排序,并得到一個詞表。這些名詞和名詞短語將作為候選的產品參數(shù) 進行后面的方法的篩選。通過這個步驟,可以將目標評論中所出現(xiàn)的 高頻的產品參數(shù)排在前面。在下文中,將詞表中的所有詞統(tǒng)稱為候選 詞。B、 對步驟A中得到的詞表中的每個詞,借助于不同領域內的產品 評論(這里的不同領域的產品評論是事先給定的輸入數(shù)據(jù))得到其出 現(xiàn)頻率并記錄,同時查看出現(xiàn)該詞的每個中出現(xiàn)形容詞的子句數(shù)目并 記錄。在這里,所謂"評論子句"是指某條完整評論的用標點分隔的 某個句子片段。如圖1中可以看出第一句評論"用完感覺不錯,好像 有潤色效果,味道也很清淡,推薦。",該句中"用完感覺不錯","好 像有潤色效果"等子句均為一條"評論子句"。C、 利用步驟A和B的統(tǒng)計結果,根據(jù)以下公式來得到詞表中每 個詞的相關度。將相關度大于某個設定值的詞作為結果表中的產品參數(shù) p 。 /F呵"http://at 1其中Wi是步驟B所得的詞表中的詞, "是Wi在目標產品評 論中出現(xiàn)的頻率, ,是Wi在不同領域產品評論中出現(xiàn)的頻率,^是目標產品評論的條數(shù),!f是不同領域產品評論的條數(shù),(,一是目標評 論中在詞^周圍存在形容詞的產品評論的條數(shù),f是當分母為0時的平 滑參數(shù)。式中乘號左邊的式子表示當前詞附在目標產品評論句子和不同領域的產品評論句子中各自出現(xiàn)的比例的比值,乘號右邊的式子表 示附在目標評論句子中周圍存在形容詞的句子所占的比例。這兩個比值是本發(fā)明給出的關于每個詞與產品參數(shù)的相關度。該相關度越大, 表明該詞越可能是產品參數(shù)。D、 抽取結果表中的每個產品參數(shù)在目標產品評論中的表達模式, 并將其記錄成一個產品參數(shù)表達模式表。具體地說,對于產品參數(shù)結果表(步驟C產生的結果表)中的某 個詞Wi而言,檢查包含該詞的每條目標評論句子,提取從該詞開始到 周圍最近的形容詞(包括形容詞)的這部分句子片段作為該詞在該句 子中的表達模式。表達模式是形如"W+XXXXX"或"XXXXX+W"這樣 的形式,"W,,表示一個泛指的產品參數(shù)詞,"XXXXX"是該產品參數(shù)詞 到最近的形容詞(包含該形容詞)的句子片段。例如 一條評論"泡沫相當豐富",假設由前面的步驟得知"泡 沫,,是產品參數(shù)詞,則其對應的表達模式是"W+相當豐富"。圖2給 出的是從圖1所給的實例中獲取的產品參數(shù)詞的表達模式實例。E、 通過在目標評論句子中匹配這些表達模式,找到那些隱藏的出 現(xiàn)頻率不高的產品參數(shù)詞。從圖2中可以看出表達模式表中每個表達 模式的樣式以及該表達模式出現(xiàn)的頻率。具體地說,對于表達模式表中的表達模式而言,從出現(xiàn)頻率最高 的表達模式開始,查找目標評論句子中是否存在與該表達模式相匹配 的評論,若存在匹配,則得到新的產品參數(shù)詞并查找結果參數(shù)表中是 否存在該新參數(shù)詞,若已經存在,則跳過;若不存在,則將該新參數(shù) 詞加入到結果參數(shù)表中。這樣通過處理所有的表達模式,將新產生的 參數(shù)詞加入到結果表中,形成最終的產品參數(shù)詞表。例如已知表達模式"『+相當豐富",而且若目標評論中存在一 條評論"氣泡相當豐富,,,則該模式能夠匹配這條評論,且得出"氣 泡"是一個新詞。此外,優(yōu)選地,根據(jù)本發(fā)明的方法還可在執(zhí)行步驟A之前執(zhí)行步驟利用現(xiàn)有詞性標注方法(為現(xiàn)有技術)對目標產品評論進行詞性標注,每個標注單元都對應一個詞性標記,如名詞,形容詞等,例如氣泡/n相當/d 豐富/a。接下來,參考圖4,對根據(jù)本發(fā)明的產品參數(shù)獲取系統(tǒng)進行說明。 如圖4所示,才艮據(jù)本發(fā)明的產品參數(shù)獲耳又系統(tǒng)包括目標評論詞頻統(tǒng)計單元、產品評i侖詞頻統(tǒng)計單元、相關度計算單元、表達一莫式抽耳又單元、以及匹配單元。目標評i侖詞頻統(tǒng)計單元用于統(tǒng)計目標評i侖中各個名詞或名詞詞組出現(xiàn)的頻率(即詞頻)并排序,并得到一個詞表。這些名詞和名詞短語將作為候選的產品參數(shù)進行后面的方法的篩選。由此,可以將目標評論中所出現(xiàn)的高頻的產品參數(shù)排在前面;產品評-淪詞頻統(tǒng)計單元用于統(tǒng)計詞表中的每個詞在不同領域內的 產品評論(這里的不同領域的產品評論是事先給定的輸入數(shù)據(jù))的出 現(xiàn)頻率并記錄,同時查看出現(xiàn)該詞的每個評論子句中出現(xiàn)形容詞的子 句數(shù)目并記錄。統(tǒng)計單元的統(tǒng)計結果來計算詞表中每個詞的相關度。將相關度大于某 個設定值的詞作為結果表中的產品參數(shù)。具體地說,根據(jù)以下公式來 計算每個詞的相關度<formula>formula see original document page 11</formula>表達模式抽取單元用于抽取結果表中的每個產品參數(shù)在目標產品 評論中的表達模式并將其記錄成一個產品參數(shù)表達模式表。具體地說,如圖5所示,該表達模式抽取單元進一步包括檢查模塊和提取模塊。檢查模塊用于對包含產品參數(shù)結果表中的某個詞Wi的每條目標 評論句子進行檢查。提取模塊用于提取從該詞開始到周圍最近的形容詞(包括形容詞) 的這部分句子片段作為該詞在該句子中的表達模式。表達模式是形如"W+XXXXX,,或"XXXXX+w"這樣的形式,"w"表示 一 個泛指的產品參 數(shù)詞,"xxxxx"是該產品參數(shù)詞到最近的形容詞(包含該形容詞)的句子片l殳。些隱藏的出現(xiàn)頻率不高的產品參數(shù)詞。具體地說,如圖6所示,該匹配單元進一步查找模塊、新參數(shù)詞 獲取模塊、以及新參數(shù)詞添加模塊。查找模塊用于在表達模式表中從出現(xiàn)頻率最高的表達模式開始查 找目標評論句子中與該表達才莫式相匹配的評論;新參數(shù)詞獲取^莫塊用于在查找到匹配評論的情況下從匹配的評論 中得到新的產品參數(shù)詞。新參數(shù)詞添加模塊用于在結果參數(shù)表中不存在該新參數(shù)詞的情況 下將該新參數(shù)詞加入到結果參數(shù)表中。此外,優(yōu)選地,根據(jù)本發(fā)明的系統(tǒng)還進一步包括詞性標注模塊, 該詞性標注模塊用于利用現(xiàn)有詞性標注方法對目標產品評論進行詞性 標注,每個標注單元都對應一個詞性標記,如名詞,形容詞等,例如 氣泡/n相當/d 豐富/a。下面參考圖7,對本發(fā)明的硬件結構示例進行說明。毫無疑問,圖 4-6所示的每個單元或模塊都可以用 一個專用硬件來構成,同時這些 塊同樣也可以用通用信息處理設備來實現(xiàn)。如圖7所示,該計算機包括CPU外網單元,其中該單元包含了 CPU、RAM、 ROM、以及輸入/輸出控制器,并且所有這些部件是透過主機控 制器而互連。該計算機還包括通信接口、存儲設備、軟盤驅動器、以 及圖形控制器。特別地,軟盤驅動器可對軟盤進行讀寫,圖形控制器 則驅動顯示器。CPU依照存儲在ROM、 BIOS、以及RAM中的程序來操作,并且 由此控制每一個部分。目標評論和產品評論可通過多種方式輸入設備 輸入,如光驅,鍵盤輸入或通過網絡傳輸。目標評論和產品評論隨后 會被讀入存儲設備。存儲設備還存儲供計算機使用的本發(fā)明的程序、 應用、OS等等的代碼和數(shù)據(jù)。此后,程序和數(shù)據(jù)將一皮加載到RAM中 以供CPIH吏用。從上述結構實例中可以看出,任何具有通用計算機功能的硬件都可 以用作本發(fā)明需要的硬件。應該指出的是,圖7僅示出了用于實施本 發(fā)明實施例的硬件結構。相應地,對其他各種結構來說,只要對其可 以應用本發(fā)明實施例,那么這些結構都是可4亍的。此外,每一個上述 例示組件未必是本發(fā)明的必要組件。另外,本發(fā)明還可以使用硬件、 軟件、或者軟硬件組合來實現(xiàn)。至此,已對本發(fā)明進行了描述。通過上述可知,本發(fā)明既提高了從 產品評論中自動獲取產品參數(shù)的準確度,又提高了獲取的召回率。本 發(fā)明正是通過限制候選詞的相關度提高去噪的效率,使結果更加準確, 并且通過獲取已經得到的產品參數(shù)的表達模式,用這些模式可以獲取 更多的隱藏的產品參數(shù),提高了召回率。此外,本發(fā)明有效的支持跨 領域的產品參數(shù)詞獲取。通過借助不同領域的產品評論數(shù)據(jù),并且能 夠自動的獲取已有產品參數(shù)的表達規(guī)則,而不需要人為的設定,可以 有效的支持跨領域的產品參數(shù)獲取,同時又保證了較高的效率。對于本領域的普通技術人員來說可顯而易見的得出其他優(yōu)點和修述的具體說明及示例性實施例。因此,在不脫離由隨后4又利要求及其 等價體所定義的 一般發(fā)明構思的精神和范圍的情況下,可對其做出各 種小務改。
權利要求
1、一種產品參數(shù)獲取系統(tǒng)包括目標評論詞頻統(tǒng)計單元,用于統(tǒng)計目標評論中各個名詞或名詞詞組出現(xiàn)的頻率并排序,并得到一個詞表;產品評論詞頻統(tǒng)計單元,用于統(tǒng)計詞表中的每個詞在不同領域內的產品評論的出現(xiàn)頻率并記錄,同時查看出現(xiàn)該詞的每個評論子句中出現(xiàn)形容詞的子句數(shù)目并記錄;相關度計算單元,用于利用目標評論詞頻統(tǒng)計單元和產品評論詞頻統(tǒng)計單元的統(tǒng)計結果來計算詞表中每個詞的相關度,并且將相關度大于某個設定值的詞作為結果表中的產品參數(shù);表達模式抽取單元,用于抽取結果表中的每個產品參數(shù)在目標產品評論中的表達模式并將其記錄成一個產品參數(shù)表達模式表;匹配單元,用于通過在目標評論句子中匹配這些表達模式來找到那些隱藏的出現(xiàn)頻率不高的產品參數(shù)詞。
2、 根據(jù)權利要求l的系統(tǒng),其中利用以下公式來計算詞表中每個詞 的相關度,=
3、 根據(jù)權利要求l的系統(tǒng),其中表達模式抽取單元進一步包括 檢查模塊,用于對包含結果表中的某個詞的每條目標評論句子進行才全查;提取模塊,用于提取從該詞開始到周圍最近的形容詞的這部分句 子片段以作為該詞在該句子中的表達模式。
4、 根據(jù)權利要求l的系統(tǒng),其中匹配單元進一步包括查找模塊,用于在表達模式表中從出現(xiàn)頻率最高的表達模式開始查找目標評論句子中與該表達模式相匹配的評論;新參數(shù)詞獲取模塊,用于在查找到匹配評論的情況下從匹配的評 論中得到新的產品參凄t詞;以及新參數(shù)詞添加模塊,用于在結果表中不存在該新參數(shù)詞的情況下 將該新參數(shù)詞加入到結果參數(shù)表中。
5 、 一種產品參數(shù)獲取方法包括A、統(tǒng)計目標評論中各個名詞或名詞詞組出現(xiàn)的頻率并排序,并得 到一個詞表;B 、統(tǒng)計詞表中的每個詞在不同領域內的產品評論的出現(xiàn)頻率并記 錄,同時查看出現(xiàn)該詞的每個評論子句中出現(xiàn)形容詞的子句數(shù)目并記錄;C、 利用步驟A和B的統(tǒng)計結果來計算詞表中每個詞的相關度, 并且將相關度大于某個設定值的詞作為結果表中的產品參數(shù);D、 抽取結果表中的每個產品參數(shù)在目標產品評論中的表達模式并將其記錄成一個產品參數(shù)表達模式表;E、 通過在目標評論句子中匹配這些表達模式來找到那些隱藏的出 現(xiàn)頻率不高的產品參數(shù)詞。
6、 根據(jù)權利要求5的方法,其中利用以下公式來計算詞表中每個詞 的相關度
7、 根據(jù)權利要求5的方法,其中步驟C進一步包括對包含結果表中的某個詞的每條目標評論句子進行檢查; 提取從該詞開始到周圍最近的形容詞的這部分句子片段以作為該詞在該句子中的表達模式。
8、 根據(jù)權利要求5的方法,其中步驟E進一步包括在表達模式表中從出現(xiàn)頻率最高的表達模式開始查找目標評論句子中與該表達模式相匹配的評論;在查找到匹配評論的情況下從匹配的評論中得到新的產品參數(shù)詞;以及參數(shù)表中。
全文摘要
一種產品參數(shù)獲取系統(tǒng)和方法,其中該系統(tǒng)包括目標評論詞頻統(tǒng)計單元,用于統(tǒng)計目標評論中各個名詞的詞頻并得到一個詞表;產品評論詞頻統(tǒng)計單元,用于統(tǒng)計每個詞在產品評論的詞頻,同時查看出現(xiàn)該詞的中出現(xiàn)形容詞的子句數(shù)目;相關度計算單元,用于計算詞表中每個詞的相關度;表達模式抽取單元,用于抽取每個產品參數(shù)在目標產品評論中的表達模式并將其記錄成表達模式表;以及匹配單元,用于通過在目標評論句子中匹配這些表達模式來找到那些出現(xiàn)頻率不高的產品參數(shù)詞。
文檔編號G06F17/30GK101576907SQ200910078790
公開日2009年11月11日 申請日期2009年3月3日 優(yōu)先權日2009年3月3日
發(fā)明者軍 何, 劉紅巖, 杜小勇, 慧 楊, 巍 魏 申請人:杜小勇
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
宝应县| 镶黄旗| 胶南市| 广东省| 随州市| 安岳县| 平凉市| 攀枝花市| 黔东| 伊川县| 白朗县| 兴文县| 故城县| 宝清县| 和林格尔县| 张掖市| 漯河市| 安仁县| 天祝| 泽普县| 万宁市| 牡丹江市| 碌曲县| 茌平县| 澎湖县| 姜堰市| 望奎县| 工布江达县| 盐津县| 华蓥市| 怀宁县| 洛川县| 桂平市| 牙克石市| 德州市| 黔江区| 吉林省| 札达县| 噶尔县| 铜陵市| 边坝县|