專利名稱:確定在文檔中所表達的情緒的系統(tǒng)和方法
技術(shù)領(lǐng)域:
所公開的實施例一般地涉及確定在文檔中所表達的情緒。。
背景技術(shù):
因特網(wǎng)包括關(guān)于各種主題的信息。該信息可能由特定領(lǐng)域的專家或者臨時用戶(例如,博主、評論員等等)撰寫。搜索引擎允許用戶識別包括關(guān)于用戶感興趣的主題的信息的文檔。然而,目前難以識別這些用戶所表達的關(guān)于特定主題(例如,特定賓館的房間質(zhì)量)的情緒。
圖I是示出根據(jù)一些實施例的網(wǎng)絡(luò)的框圖。圖2是示出根據(jù)一些實施例的情緒服務(wù)器的框圖。圖3是根據(jù)一些實施例的確定在文檔中所表達的情緒的方法的流程圖。圖4是根據(jù)一些實施例的提取關(guān)鍵詞列表的方法的流程圖。圖5是根據(jù)一些實施例的生成類別列表的方法的流程圖。圖6是根據(jù)一些實施例的生成類別列表的另一方法的流程圖。圖7是根據(jù)一些實施例的確定與句子的至少一個關(guān)鍵詞對應(yīng)的至少一個類別的另一方法的流程圖。圖8是根據(jù)一些實施例的確定類別的類別譜的方法的流程圖。圖9是根據(jù)一些實施例的從文檔集中選擇多個文檔的方法的流程圖。圖10是根據(jù)一些實施例的機器的框圖。在附圖中,相似參考標(biāo)號指代對應(yīng)的部分。
具體實施例方式以下描述包括體現(xiàn)示例性實施例的示例性系統(tǒng)、方法、技術(shù)、指令序列、以及計算機程序產(chǎn)品。在以下描述中,為了說明的目的,提出了很多具體細節(jié)以便提供對于本發(fā)明主題的各種實施例的理解。然而,對于本領(lǐng)域技術(shù)人員而言明顯的是本發(fā)明主題的實施例可以在沒有這些具體細節(jié)的情況下實踐??偟膩碚f,沒有詳細示出公知的指令實例、協(xié)議、結(jié)構(gòu)和技術(shù)。這里描述的實施例提供了確定在文檔中所表達的情緒的技術(shù)。圖I是示出根據(jù)一些實施例的網(wǎng)絡(luò)120的框圖。網(wǎng)絡(luò)120通??梢园軌?qū)⒂嬎愎?jié)點耦接到一起的任何類型的有線或無線通信通道。這包括但不限于局域網(wǎng)、廣域網(wǎng)、或網(wǎng)絡(luò)組合。在一些實施例中,網(wǎng)絡(luò)120包括因特網(wǎng)。在一些實施例中,服務(wù)器100耦接到網(wǎng)絡(luò)120。服務(wù)器100可以包括文檔102。文檔102可以是任何類型的文檔,包括但不限于web文檔(例如,超文本標(biāo)記語言(HTML)文檔、可擴展標(biāo)記語言(XML)文檔等)、文本文檔、電子數(shù)據(jù)表(spreadsheet)、報告書(presentation)、掃描文檔(例如,掃描文本等)、圖像等等。在一些實施例中,聚集器104耦接到網(wǎng)絡(luò)120。聚集器104可以包括文檔106。在 一些實施例中,聚集器104從服務(wù)器100獲得文檔102的至少一個子集。例如,聚集器104可以爬行(crawl)服務(wù)器100,并且從服務(wù)器100取回文檔102的至少一個子集。在一些實施例中,情緒服務(wù)器108耦接到網(wǎng)絡(luò)120。情緒服務(wù)器108被配置來確定在文檔中所表達的情緒,如這里所描述的。情緒服務(wù)器108所使用的文檔可以包括從服務(wù)器100 (例如,通過爬行服務(wù)器100)獲得的文檔、從聚集器104 (例如,通過從聚集器104購買文檔)獲得的文檔或者其組合。圖2是示出根據(jù)一些實施例的情緒服務(wù)器108的框圖。情緒服務(wù)器108包括情緒模塊202,被配置來確定在文檔中所表達的情緒;爬行模塊204 (可選的),被配置來爬行服務(wù)器100以獲得文檔102的至少一個子集;關(guān)鍵詞模塊206,被配置來從文檔中提取關(guān)鍵詞;過濾模塊208,被配置來過濾關(guān)鍵詞和文檔;以及分類模塊210,被配置來分類文檔、句子、和/或關(guān)鍵詞。注意,可以組合這些1 塊的功能。例如,情緒1 塊202可以包括關(guān)鍵詞模塊206和過濾模塊208的功能。下面關(guān)于圖3 - 9更詳細地描述這些模塊。確定在文檔中所表達的情緒圖3是根據(jù)一些實施例的確定在文檔中所表達的情緒的方法300的流程圖。情緒模塊202接收(302)來自多個文檔的文檔。例如,所述多個文檔可以包括文檔102的至少一個子集、文檔106的至少一個子集、或者其組合。下面關(guān)于圖9更詳細地描述選擇多個文檔的過程。然后,情緒模塊202識別(304)該文檔中的句子,該句子包括在來自關(guān)鍵詞列表的至少一個關(guān)鍵詞的預(yù)定距離內(nèi)的至少一個情緒簽名。所述至少一個情緒簽名對應(yīng)于該句子中的至少一個情緒的表達。在一些實施例中,所述至少一個情緒簽名包括至少一個詞(例如,形容詞),所述至少一個詞指示在該句子中存在所述至少一個情緒的表達。在一些實施例中,情緒簽名與傾向(polarity)相關(guān)聯(lián)。例如,所述傾向可以指示該情緒簽名反映正面的情緒、負(fù)面的情緒、或中性的情緒。注意,情緒模塊202可以識別大于或小于一個句子的語法單元。例如,情緒模塊202可以識別包括處于至少一個關(guān)鍵詞的預(yù)定距離內(nèi)的至少一個情緒簽名的段落或短語。在一些實施例中,從所述多個文檔中提取關(guān)鍵詞列表,并且使用相轉(zhuǎn)變公式(phase transition formula)過濾該關(guān)鍵詞列表。下面關(guān)于圖4更詳細地描述這些實施例。
在一些實施例中,所述至少一個情緒簽名被包括在情緒簽名列表中。情緒簽名列表可以被手動生成。分類模塊210然后確定(306)與該句子的至少一個關(guān)鍵詞對應(yīng)的至少一個類別。在一些實施例中,所述至少一個類別與產(chǎn)品、服務(wù)、或其組合相關(guān)聯(lián)。下面關(guān)于圖7和8更詳細地描述確定與句子的至少一個關(guān)鍵詞對應(yīng)的至少一個類別的過程。在一些實施例中,所述至少一個類別被包括在類別列表中,該類別列表是使用關(guān)鍵詞列表而生成的。下面關(guān)于圖5和6更詳細地描述這些實施例。情緒模塊202然后基于所述至少一個情緒簽名來確定(308)與所述至少一個類別對應(yīng)的至少一個情緒。在一些實施例中,所述至少一個情緒是與至少一個類別相關(guān)的觀點的表達。為了闡明關(guān)于圖3描述的過程,考慮包括示例句子“房間很臭,地毯很臟”的示例文檔。假設(shè)詞“臭”和“臟”是表達負(fù)面情緒(例如,負(fù)面傾向)的情緒簽名,詞“房間”和“地毯”是關(guān)鍵詞,并且預(yù)定距離為3。由于情緒簽名“臭”與關(guān)鍵詞“房間”相距兩個詞并且 情緒簽名“臟”與關(guān)鍵詞“地毯”相距兩個詞,因此情緒模塊202識別出(304)該示例句子。分類模塊210然后確定(306)與該句子的關(guān)鍵詞對應(yīng)的類別。在該示例中,分類模塊210可以確定“賓館房間”為該句子的關(guān)鍵詞的類別。情緒模塊202然后確定關(guān)于賓館房間(例如,所述類別)所表達的情緒是負(fù)面情緒。提取關(guān)鍵詞列表在一些實施例中,在識別(304)文檔中的包括在來自關(guān)鍵詞列表的至少一個關(guān)鍵詞的預(yù)定距離內(nèi)的至少一個情緒簽名的句子之前,關(guān)鍵詞模塊206從所述多個文檔中提取關(guān)鍵詞列表。圖4是根據(jù)一些實施例的提取關(guān)鍵詞列表的方法400的流程圖。關(guān)鍵詞模塊206從所述多個文檔中的每個文檔中提取(402)關(guān)鍵詞。對于每個關(guān)鍵詞,關(guān)鍵詞模塊206執(zhí)行以下操作。關(guān)鍵詞模塊206計算(404)該關(guān)鍵詞在所述多個文檔中的頻率f、以及包括該關(guān)鍵詞的文檔的數(shù)量N。接下來,關(guān)鍵詞模塊206使用(406)相轉(zhuǎn)變公式,基于該關(guān)鍵詞在所述多個文檔中的頻率以及包括該關(guān)鍵詞
的文檔的數(shù)量來計算關(guān)鍵詞的相關(guān)性。在一些實施例中,相轉(zhuǎn)變公式為|其中X > I。在
hr
一些實施例中,X為3。然后當(dāng)該關(guān)鍵詞的相關(guān)性超過預(yù)定閾值時,關(guān)鍵詞模塊206將該關(guān)鍵詞添加(408)到關(guān)鍵詞列表。生成類別列表在一些實施例中,在確定(306)與句子的至少一個關(guān)鍵詞對應(yīng)的至少一個類別之前,分類模塊210生成類別列表。圖5是根據(jù)一些實施例的生成類別列表的方法500的流程圖。分類模塊210識另Ij (502)所述多個文檔中包括來自關(guān)鍵詞列表的至少一個關(guān)鍵詞的文檔的第一集合。接下來,分類模塊210識別(504)在文檔的第一集合中至少預(yù)定數(shù)量的文檔中包括的關(guān)鍵詞的集合。分類模塊210然后將該關(guān)鍵詞的集合添加(506)到類別列表,其中,相應(yīng)的類別包括相應(yīng)的關(guān)鍵詞的集合。因此,在這些實施例中,分類模塊210通過識別在至少預(yù)定數(shù)量的文檔中出現(xiàn)的關(guān)鍵詞來確定類別。圖6是根據(jù)一些實施例的生成類別列表的方法600的流程圖。分類模塊210確定(602)關(guān)鍵詞列表中彼此相關(guān)的關(guān)鍵詞對,其中所述關(guān)鍵詞對是獨一無_■的(unique)關(guān)鍵詞對。接下來,分類模塊210識別關(guān)鍵詞對的集合,其中,每個集合包括對于該集合中的所有關(guān)鍵詞對公共的至少一個關(guān)鍵詞。分類模塊210然后迭代地組合(606)關(guān)鍵詞對的集合,直至達到預(yù)定的終止條件,其中,每個組合的集合包括對于該組合的集合中的所有關(guān)鍵詞對公共的至少一個關(guān)鍵詞。因此,在這些實施例中,分類模塊210確定彼此相關(guān)的關(guān)鍵詞的集合,并且迭代地組合所述對(或更大組的關(guān)鍵詞)以形成類別。例如,分類模塊210可以從關(guān)鍵詞列表中識別出以下關(guān)鍵詞對{巴黎,浪漫史}、{巴黎,愛之城}、{巴黎,法國}、{狗,比格犬}、{貓,暹羅貓}。分類模塊210然后可以確定{巴黎,浪漫史,愛之城,法國}為相關(guān)關(guān)鍵詞的集合(例如,類別),這是因為詞“巴黎”對于{巴黎,浪漫史}、{巴黎,愛之城}、{巴黎,法國}是公共的。注意,分類模塊210還可以確定{巴黎,浪漫史,愛之城}為相關(guān)關(guān)鍵詞的集合。與具體類別相關(guān)聯(lián)的關(guān)鍵詞的數(shù)量可以取決于若干因素,包括但不限于期望的具體性(specif icity)的量(例如,包括4個關(guān)鍵詞的類別比包括3個關(guān)鍵詞的類別更具體)、與特定類別相關(guān)聯(lián)的文檔的數(shù)量、以及與特定類別相關(guān)聯(lián)的句子的數(shù)量等等。在一些實施例中,通過對于類別所期望的具體性的級別,來確定預(yù)定的終止條件。越多的關(guān)鍵詞 被用來描述類別,該類別就越具體(例如,{巴黎,浪漫史,愛之城,法國}比{巴黎,浪漫史,愛之城}更具體)。確定與關(guān)鍵詞對應(yīng)的類別可以使用若干種技術(shù)來確定與關(guān)鍵詞對應(yīng)的類別。在一些實施例中,分類模塊210使用支持向量機來確定(306)與該句子的至少一個關(guān)鍵詞對應(yīng)的至少一個類別。在一些實施例中,分類模塊210使用神經(jīng)網(wǎng)絡(luò)來確定(306)與該句子的至少一個關(guān)鍵詞對應(yīng)的至少一個類別。圖7是根據(jù)一些實施例的確定與句子的至少一個關(guān)鍵詞對應(yīng)的至少一個類別的方法700的流程圖。分類模塊210獲得(702)多個類別譜,相應(yīng)的類別譜包括關(guān)鍵詞在與相應(yīng)類別對應(yīng)的關(guān)鍵詞列表中出現(xiàn)的頻率。接下來,分類模塊210基于所述至少一個關(guān)鍵詞確定該句子的類別譜。在一些實施例中,分類模塊210將該句子的類別譜標(biāo)準(zhǔn)化。分類模塊210然后計算(706)該句子的類別譜與所述多個類別譜中的每個類別譜的標(biāo)量積。分類模塊210然后將所述至少一個類別確定(708)為與超過預(yù)定閾值的至少一個標(biāo)量積對應(yīng)的類別。注意,類別譜可以由對{WordID(詞ID), Frequency (頻率)}來表示,其中,WordID的值對應(yīng)于唯一關(guān)鍵詞,F(xiàn)requency對應(yīng)于與該WordID對應(yīng)的關(guān)鍵詞的出現(xiàn)頻率。例如,關(guān)鍵詞“巴黎”可以具有WordID 8以及出現(xiàn)頻率1002。因此,類別譜包括對{8,1002}。還注意可以可視地表示類別譜。例如,在2D曲線圖上,X軸可以是WordID, y軸可以是Frequency。還注意兩個類別譜
的標(biāo)量積是每個WordID的關(guān)鍵詞的出現(xiàn)頻率的積之和(例如,-^equency2l)
),其中,i對應(yīng)于WordID, Frequencyli是對于第一類別的、與WordID i對應(yīng)的關(guān)鍵詞的出現(xiàn)頻率,F(xiàn)requency2i是對于第二類別的、與WordID i對應(yīng)的關(guān)鍵詞的出現(xiàn)頻率。在一些實施例中,在獲得多個類別譜之前,分類模塊210確定每個類別的類別譜。圖8是根據(jù)一些實施例的確定類別的類別譜的方法800的流程圖。分類模塊210獲得(802)與該類別對應(yīng)的文檔集。接下來,分類模塊210從該文檔集的每個文檔中提取(804)關(guān)鍵詞。分類模塊210然后使用相轉(zhuǎn)變公式過濾(806)關(guān)鍵詞,以產(chǎn)生過濾后的關(guān)鍵詞。接下來,分類模塊210確定(808)過濾后的關(guān)鍵詞在該文檔集中出現(xiàn)的頻率。在一些實施例中,將每個關(guān)鍵詞出現(xiàn)的頻率除以跨越所有類別而在整個集中看到的該關(guān)鍵詞的總計數(shù)。在一些實施例中,然后將閾值應(yīng)用于作為結(jié)果的類別譜。在這些實施例中,如果關(guān)鍵詞在一個類別內(nèi)的總計數(shù)除以跨越所有類別的總關(guān)鍵詞詞計數(shù)的幅值大于預(yù)定閾值,則可以通過公式或算法將該幅值重置為新值。在一些實施例中,然后將閾值應(yīng)用于作為結(jié)果的譜。在這些實施例中,如果在一個類別內(nèi)的關(guān)鍵詞計數(shù)除以跨越所有類別的該關(guān)鍵詞出現(xiàn)的總頁計數(shù)的幅值大于預(yù)定閾值,則可以通過公式或算法將該幅值重置為新值。該新值可以被設(shè)置為零,以便消除跨越所有類別而非常常用的公共詞。分類模塊210然后將過濾后的關(guān)鍵詞的出現(xiàn)頻率標(biāo)準(zhǔn)化(810),以便產(chǎn)生該類別的類別譜。在一些實施例中,標(biāo)準(zhǔn)化該類別譜,使得每個類別譜下的面積相同。這樣做降低了各類別之間的比較性偏向(comparative bias)。
詵擇f檔文檔102和/或文檔106可以包括包含很少值或不包含值的文檔。例如,文檔102和/或文檔106可以包括由機器生成以提高搜索引擎排名的文檔。由機器生成的文檔典型地不包括情緒的表達。經(jīng)常希望過濾掉這些類型的文檔。因此,在一些實施例中,在接收來自所述多個文檔中的文檔之前,過濾模塊208從文檔集中選擇所述多個文檔。圖9是根據(jù)一些實施例的從文檔集中選擇所述多個文檔的方法900的流程圖。對于文檔集中的每個文檔,過濾模塊208執(zhí)行以下操作。過濾模塊208從該文檔中提取(902) η-gram (η圖)。接下來,過濾模塊208基于所提取的n-gram確定該文檔的n-gram譜,其中n-gram譜作為n-gram大小的函數(shù)來指示n-gram的出現(xiàn)頻率。過濾模塊208然后確定該文檔的n-gram譜是否在預(yù)定閾值內(nèi)符合參考n-gram譜,其中通過預(yù)定方程式定義該參考n-gram譜。在一些實施例中,預(yù)定方程式為ex] · e+x,其中X是n-gram的大小,并且其中a、b和c是將所述預(yù)定方程式的峰值置于大小為2的n-gram和大小為3的n-gram之間的預(yù)定值。在一些實施例中,b的值介于I和2之間,c的值介于I和2之間。當(dāng)該文檔的n-gram譜在預(yù)定閾值內(nèi)符合參考n-gram譜時,過濾模塊208將該文檔添加(908)到所述多個文檔。當(dāng)該文檔的n-gram譜沒有在預(yù)定閾值內(nèi)符合參考n-gram譜時,過濾模塊208丟棄(910)該文檔。示例的計算機系統(tǒng)圖10以計算機系統(tǒng)1000的示例形式描繪了機器的框圖,在計算機系統(tǒng)1000中可以運行指令集,該指令集用于使該機器執(zhí)行這里討論的任何一種或多種方法。在替代實施例中,該機器操作為單機設(shè)備,或者可以連接(例如聯(lián)網(wǎng))到其它機器。在聯(lián)網(wǎng)部署下,該機器可以在服務(wù)器-客戶端網(wǎng)絡(luò)環(huán)境下的服務(wù)器或客戶端機器的能力下操作,或者可以作為在對等(或分布式)網(wǎng)絡(luò)環(huán)境下的對等機器操作。該機器能夠運行指令集(依序或以其它方式),所述指令集指定了要由該機器采取的動作。此外,盡管僅僅示出了單個機器,但是術(shù)語“機器”還應(yīng)當(dāng)被認(rèn)為是包括單獨地或者聯(lián)合地運行一個指令集(或多個指令集)以執(zhí)行這里討論的任何一個或多個方法的機器的任何組合。計算機系統(tǒng)1000的示例包括處理器1002(例如,中央處理單元(CPU)、圖形處理單元(GPU)或兩者)以及存儲器1004,處理器1002和存儲器1004經(jīng)由總線1008而彼此通信。存儲器1004包括易失性存儲設(shè)備(例如,DRAM、SRAM、DDR RAM或其它易失性固態(tài)存儲設(shè)備)、非易失性存儲設(shè)備(例如,磁盤存儲設(shè)備、光盤存儲設(shè)備、閃存設(shè)備、磁帶驅(qū)動器、或者其它非易失性固態(tài)存儲設(shè)備)、或者其組合。存儲器1004可以可選地包括一個或多個相對于計算機系統(tǒng)1000遠程定位的存儲設(shè)備。計算機系統(tǒng)1000還可以包括視頻顯示單元1006(例如,等離子顯示器、液晶顯示器(IXD)或陰極射線管(CRT))。計算機系統(tǒng)1000還包括輸入設(shè)備1010 (例如,鍵盤、鼠標(biāo)、軌跡球、觸摸屏顯示器等等)、輸出設(shè)備1012 (例如,揚聲器)、以及網(wǎng)絡(luò)接口設(shè)備1016。計算機系統(tǒng)1000的前述組件可以位于單個容器或箱體內(nèi)(例如,如圖10中的虛線所描繪的)。替代地,所述組件的子集可以位于該容器外部。例如,視頻顯示單元1006、輸入設(shè)備1010、和輸出設(shè)備1012可以存在于該容器外部,但是可以經(jīng)由在該容器外部可訪問的外部端口或連接器耦接到總線1008。存儲器1004包括機器可讀介質(zhì)1020,在該介質(zhì)上存儲一個或多個數(shù)據(jù)結(jié)構(gòu)和指令集1022 (例如,軟件),所述一個或多個數(shù)據(jù)結(jié)構(gòu)和指令集1022體現(xiàn)這里描述的任何一個或多個方法或功能、或者被這里描述的任何一個或多個方法或功能利用。一個或多個數(shù)據(jù) 結(jié)構(gòu)集可以存儲數(shù)據(jù)。注意,機器可讀介質(zhì)指代機器可讀的存儲介質(zhì)(例如,計算機可讀存儲介質(zhì))。在計算機系統(tǒng)1000運行數(shù)據(jù)結(jié)構(gòu)和指令1022期間,數(shù)據(jù)結(jié)構(gòu)和指令1022還可以全部或至少部分地駐留于存儲器1004和/或處理器1002內(nèi),其中存儲器1004和處理器1002也構(gòu)成機器可讀的有形介質(zhì)。利用多種公知傳輸協(xié)議中的任何一種(例如,超文本傳輸協(xié)議(HTTP)),還可以經(jīng)由網(wǎng)絡(luò)接口設(shè)備1016在網(wǎng)絡(luò)120上傳送或接收數(shù)據(jù)結(jié)構(gòu)和指令1022。網(wǎng)絡(luò)120通??梢园軌?qū)⒂嬎愎?jié)點(例如計算機系統(tǒng)1000)耦接到一起的任何類型的有線或無線通信信道。這包括但不限于局域網(wǎng)、廣域網(wǎng)、或網(wǎng)絡(luò)組合。在一些實施例中,網(wǎng)絡(luò)120包括因特網(wǎng)。這里將某些實施例描述為包括邏輯或多個組件、模塊或機構(gòu)。模塊可以構(gòu)成軟件模塊(例如,在機器可讀介質(zhì)上或者在傳輸信號中體現(xiàn)的代碼和/或指令)或者硬件模塊。硬件模塊是能夠執(zhí)行某些操作的有形單元,并且可以被以某種方式配置或布置。在示例實施例中,可以通過軟件(例如,應(yīng)用程序或應(yīng)用程序部分)將一個或多個計算機系統(tǒng)(例如,計算機系統(tǒng)1000)或者計算機系統(tǒng)的一個或多個硬件模塊(例如,處理器1002或處理器組)配置為操作以執(zhí)行如這里描述的某些操作的硬件模塊。在各種實施例中,硬件模塊可以機械地或電子地實現(xiàn)。例如,硬件模塊可以包括被永久地配置(例如,作為專用處理器,諸如現(xiàn)場可編程門陣列(FPGA)或特定應(yīng)用集成電路(ASIC))來執(zhí)行某些操作的專用電路或邏輯。硬件模塊還可以包括通過軟件臨時配置來執(zhí)行某些操作的可編程邏輯或電路(例如,如包含在通用處理器1002或其它可編程處理器內(nèi))。將理解,可以根據(jù)成本和時間考慮來驅(qū)動對于機械地實現(xiàn)硬件模塊、以專用和永久地配置的電路來實現(xiàn)硬件模塊、或者以臨時配置的電路(例如,通過軟件配置)來實現(xiàn)硬件模塊的決策。相應(yīng)地,術(shù)語“硬件模塊”應(yīng)被理解為包含有形的實體,即被物理地構(gòu)造、永久配置(例如,硬連線)或臨時配置(例如,被編程)以便某種方式操作和/或執(zhí)行這里描述的某些操作的實體。考慮其中硬件模塊是臨時配置的(例如,編程的)的實施例,在任何一個時刻不需要配置或?qū)嵗鲇布K中的每一個。例如,在硬件模塊包括使用軟件配置的通用處理器1002的情況下,通用處理器1002在不同時間可以被配置為相應(yīng)的不同硬件模塊。例如,軟件可以相應(yīng)地配置處理器1002,以在一個時刻構(gòu)成特定硬件模塊,而在不同的時刻構(gòu)成不同的硬件模塊。模塊可以向其它模塊提供信息并從其它模塊接收信息。例如,可以將所描述的模塊看作通信耦接的。在同時存在多個這樣的硬件模塊的情況下,可以通過將模塊連接起來的(例如,經(jīng)由適當(dāng)?shù)碾娐泛涂偩€的)信號傳輸來實現(xiàn)通信。在其中在不同時間配置或?qū)嵗鄠€模塊的實施例中,可以例如通過信息在所述多個模塊能夠訪問的存儲器結(jié)構(gòu)中的存儲和取出來實現(xiàn)這樣的模塊之間的通信。例如,一個模塊可以執(zhí)行操作并且將該操作的輸出存儲在其通信耦接的存儲設(shè)備中。然后,另一模塊可以在稍晚的時間訪問該存儲設(shè)備以便取出并處理所存儲的輸出。模塊還可以發(fā)起與輸入或輸出設(shè)備的通信,并且可以對資源(例如,信息集合)進行操作??梢酝ㄟ^被臨時配置(例如,通過在機器可讀介質(zhì)中存儲的軟件、代碼和/或指令)或永久配置以執(zhí)行相關(guān)操作的一個或多個處理器1002,至少部分地執(zhí)行這里描述的示例方 法的各種操作。無論被臨時配置還是被永久配置,這樣的處理器1002可以構(gòu)成操作以執(zhí)行一個或多個操作或功能的、處理器實現(xiàn)的(或計算機實現(xiàn)的)模塊。這里所提及的模塊在一些示例實施例中可以包括處理器實現(xiàn)的(或計算機實現(xiàn)的)模塊。此外,這里描述的方法可以至少部分是處理器實現(xiàn)的(或計算機實現(xiàn)的)和/或處理器可運行的(或計算機可運行的)。例如,可以由一個或多個處理器1002或處理器實現(xiàn)的(或計算機實現(xiàn)的)模塊執(zhí)行方法的至少一些操作。類似地,可以由在計算機可讀存儲介質(zhì)中存儲并由一個或多個處理器1002或處理器實現(xiàn)的(或計算機實現(xiàn)的)模塊運行的指令來管理方法的至少一些操作。某些操作的執(zhí)行可以分布在一個或多個處理器1002中,不是僅僅駐留于單個機器中,而是部署在多個機器上。在一些示例實施例中,處理器1002可以位于單個位置(例如,在家庭環(huán)境下、在辦公室環(huán)境中、或者作為服務(wù)器場(farm)),而在其它實施例中,處理器1002可以分布在多個位置上。盡管參考各種實現(xiàn)方式和利用方式描述了所述一個或多個實施例,然而將理解這些實施例是示例性的,并且所述一個或多個實施例的范圍不限于此??偟囟?,這里描述的實施例可以利用與這里定義的任何一個硬件系統(tǒng)或任何多個硬件系統(tǒng)一致的設(shè)施來實現(xiàn)。可以存在許多變型、修改、添加和改進??梢詾樵谶@里作為單個實例描述的組件、操作或結(jié)構(gòu)提供多種實例。最后,各種組件、操作和數(shù)據(jù)存儲之間的界限在某種程度上是任意的,并且在具體的示例配置的背景下說明具體操作。預(yù)見到其它功能分配,并且所述其它功能分配可以落入所述一個或多個實施例的范圍之內(nèi)??偟囟?,在示例性配置中被呈現(xiàn)為分離組件的結(jié)構(gòu)和功能可以被實現(xiàn)為組合結(jié)構(gòu)或組件。類似地,被呈現(xiàn)為單個組件的結(jié)構(gòu)和功能可以被實現(xiàn)為分離組件。這些和其它變型、修改、添加和改進落入所述一個或多個實施例的范圍之內(nèi)。示例件實施例下面的討論包括用于確定在文檔中所表達的情緒的非限制性示例實施例A.形成初始的種子詞列表(SeedWordList),以幫助識別相關(guān)的集文本(corpustext)。用于特定主題的種子關(guān)鍵詞列表是從包括但不限于主題詞匯表(glossary)的源以及從主題專家獲得的。
B.獲得來自該集中的文檔的源文本。例如,該集可以包括來自網(wǎng)站(例如,博客、評論網(wǎng)站等等)的文檔。將每個文檔中的詞與SeedWordList進行比較。如果文檔中與SeedffordList的成員匹配的詞的數(shù)量和/或比例滿足或超過預(yù)定閾值,則將該文檔添加到PassedDocumentList (通過文檔列表)。否則,丟棄該文檔。C.通過將來自SeedWordList的詞與(例如,使用標(biāo)準(zhǔn)關(guān)鍵詞提取和N-gram提取工具)從PassedDocumentList中的文檔提取關(guān)鍵詞和N-gram而產(chǎn)生的詞的列表進行組合,來擴展初始的SeedWordList。在將SeedWordList的結(jié)果與下面描述的計算所選擇的文檔的節(jié)點結(jié)構(gòu)的過程組合之前,進一步細化(refine)關(guān)鍵詞和N-gram。D.創(chuàng)建文檔的節(jié)點結(jié)構(gòu)以改進初始的關(guān)鍵詞和N-gram集。該過程涉及從詞中提取信息(例如,以文本格式)以創(chuàng)建多重分形(multi-fractal)數(shù)據(jù)結(jié)構(gòu)。多重分形數(shù)據(jù)結(jié)構(gòu)是一種展示尺度(scale)內(nèi)的尺度的數(shù)據(jù)結(jié)構(gòu)。一種尺度下的樣式可能稍稍不同于在另一尺度下看到的樣式。一旦提取了數(shù)據(jù)并且確定了其多重分形結(jié)構(gòu),則可以將數(shù)據(jù)結(jié)構(gòu)存儲在存儲器中,使得計算機可以訪問該數(shù)據(jù)結(jié)構(gòu)并利用該數(shù)據(jù)結(jié)構(gòu)來執(zhí)行計算。該數(shù)據(jù)結(jié) 成I.制作k個種子類別名稱詞的列表(SeedWordList)。2.將k個類別名稱詞中的每一個放置到爬行器中,以依據(jù)k個類別名稱詞中的每一個取回N(k)個網(wǎng)頁。3.取N(k)個頁面中的每一個,并且制作唯一詞的列表,并對它們在每個頁面上出現(xiàn)的次數(shù)(詞頻率)進行計數(shù)。注意,在該步驟中去除停止詞(stop word)(例如,“該”、“他”、“和”等)。此外,詞的數(shù)量可以被縮減為名詞和相鄰的形容詞。4.從N(k)個頁面中的每一個取M (例如10)個最頻繁的詞,并且向第一頁面的最頻繁的詞分配索引(例如,1、2、3、4、5、6、7、8、9和10),向第二頁面的最頻繁的詞分配索引(例如,11、13、…、21),依此類推,直至窮盡了來自第一類別的N(I)個頁面為止。允許通過單個索引來識別詞的序列(被稱為主題組)。對于第二類別名稱的N(2)個頁面進行重復(fù),并且一直繼續(xù)到窮盡了所有k個類別為止。5.計算對于所有k的N(k)個頁面的每一個的M之和,并且將該值命名為NWords。6.制作具有水平X軸和垂直y軸的圖。7.創(chuàng)建被稱作W的、填充了零的NWords乘NWords的矩陣。8.從第一網(wǎng)頁取詞數(shù)據(jù),并且使用以下方法計算詞鏈接系數(shù)a.對于所列出的最頻繁的詞中的每一個,創(chuàng)建被稱為詞鏈接的唯一的對(X,y),其中X與y是不同的詞。b.將詞鏈接與頁面鏈接系數(shù)組合,使得較高的詞鏈接和頁面鏈接系數(shù)對應(yīng)于比較低的詞鏈接和頁面鏈接系數(shù)的選擇評分更高的選擇評分。頁面鏈接系數(shù)得自于對進入網(wǎng)頁的頁面鏈接的鏈接結(jié)構(gòu)和內(nèi)容進行分析。選擇評分是用來從數(shù)據(jù)中挑選標(biāo)簽的值。如果頁面鏈接系數(shù)不可用,則應(yīng)將其設(shè)置為默認(rèn)值,諸如I. O。9.為了計算目的,進行以下操作a.存儲用于矩陣W的第X列和第y行中的(x,y) = (l,3),(1,4),. . . (1,M+1)中的詞鏈接系數(shù)的詞系數(shù)。X和y是來自上面定義的列表的詞索引。
b.對于(x, y) = (2, 3), ... (2,M+l),并且最終對于第(M)和第(M+1)的詞(x,y) = (M,M+l)重復(fù)該過程。對于第二類別的頁面,第一系數(shù)條目為(x,y) = (M+2,M+3)。每個系數(shù)條目表示從文檔中發(fā)現(xiàn)或彼此相關(guān)聯(lián)的兩個詞的連接性(connectivity)。c.除了以下情況之外,對于所有主題的所有頁面重復(fù)步驟9b :i.無論什么時候可以在在先的X詞索引中發(fā)現(xiàn)當(dāng)前詞,都以如下方式將所有系數(shù)與在在先的索引中發(fā)現(xiàn)的系數(shù)組合較大系數(shù)的組合趨向于大于較小系數(shù)的組合。例如,如果詞“狗”對應(yīng)于詞索引4,并且其具有Wl的(4,8)詞系數(shù),并且詞“狗”再次在另一頁面上以索引25出現(xiàn),并且具有W2的(25,8)詞系數(shù),則對于每個對應(yīng)的y,將用于索引25的所有連接性系數(shù)組合到用于索引4的X值。在此情況下,將是W(4,8)和W(25,8)組合,并且結(jié)果將被分配給新的W(4,8)。在完成了系數(shù)的傳遞和組合之后,W(25,8)被設(shè)置為小值,諸如O. O。該規(guī)則應(yīng)用于在第一實例之后出現(xiàn)的“狗”的所有其他實例。 ii.可以按照與對于X詞索引所進行的操作相同或相似的方式,將在y詞索引上發(fā)現(xiàn)的副本(duplicated)詞組合到原始的y詞索引中。如果它們未被組合,貝Ij可以看到作為主題的函數(shù)的每個詞的影響,這是因為每個主題存在于y索引的某個范圍內(nèi)。10.通過以如下方式依據(jù)詞各自的詞鏈接系數(shù)計算詞排序評分來對詞進行排序具有最多和最高詞鏈接系數(shù)的詞排序高于具有最少的低詞鏈接系數(shù)的詞。a.令R(i)為給定詞節(jié)點的排序。b.令W(i,j)為詞之間的連接性系數(shù)。c.對于每個i,計算以下R(i) =R(W(i,j)),相對于每個j的作為詞鏈接權(quán)重(其已經(jīng)包括頁面排序權(quán)重)的函數(shù)的排序。d.選擇標(biāo)簽或組的具有較大權(quán)重的詞。11.為了用圖形可視地分析數(shù)據(jù),進行以下操作a.在(x,y) = (l,3),(1,4),...,(1,M+1)坐標(biāo)上基于詞和頁面鏈接系數(shù)放置與評分成比例的點。對于(x,y) = (2,3),...,(2,M+1)并且最后對于第(M)和第(M+1)的詞(x,y) = (M,M+l)進行相同操作。對于第二類別的頁面,第一個點將是(x,y) = (M+2,M+3)。每個點表示從文檔中發(fā)現(xiàn)或彼此相關(guān)聯(lián)的兩個詞的連接性。X和y軸是來自上面定義的列表的詞索引。b.除了以下情況之外,對于所有主題的所有文檔重復(fù)部分Ila:i.無論什么時候可以在在先的索引中發(fā)現(xiàn)當(dāng)前詞,都在在先的索引中記錄所有點。例如,如果詞“狗”碰巧為詞索引4,并且再次以索引25出現(xiàn),則索引25的所有連接性點都被轉(zhuǎn)換為索引4的X值。在轉(zhuǎn)換了點之后,在圖上將該點從其原始位置移除。該規(guī)則應(yīng)用于在第一實例之后出現(xiàn)的“狗”的所有其他實例。ii.可以按照與對于X詞索引所進行的操作相同或相似的方式,將在y詞索引上發(fā)現(xiàn)的副本詞組合到原始的I詞索引中。如果它們未被組合,則可以看到作為主題的函數(shù)的每個詞的影響,這是因為每個主題存在于y索引的某個范圍中。c.尋找圖上的垂直條帶,最顯著的條帶對應(yīng)于作為標(biāo)簽詞或主題組而被選擇的詞的Wi索引。具有最多鏈接或點的Wi詞應(yīng)被選擇用于標(biāo)簽詞或主題組??梢詫@些詞應(yīng)用附加過濾以便進一步縮小該列表。E.將“標(biāo)簽詞”或“主題組”與SeedWordList組合,以創(chuàng)建WorkingWordList。
F.通過獲得其它文檔(例如,經(jīng)由爬行,從聚集器獲得文檔,等等)以及上面的步驟C和D以獲得預(yù)定數(shù)量(NumberOfAdditionalListExpansion)的更多附加文檔,來擴大WorkingffordLi st。G.重復(fù)步驟F直至所收獲的N-gram的增長率降低到令人滿意的速率為止。H.對于情緒分析引擎,創(chuàng)建與主題相關(guān)的話題(topic)、形容詞和適當(dāng)?shù)拿~的列表。例如,如果主題為“賓館”,則話題/關(guān)鍵詞可以包括門警、浴室、床、臥室、前臺、電視、房間服務(wù)、服務(wù)員服務(wù)、清潔度、電梯、餐廳、預(yù)約和結(jié)帳。形容詞可以包括及時的、友好的、緩慢的、粗魯?shù)?、干凈的、臟的、有幫助的、極好的、糟糕的、驚人的、令人困惑的、雜亂無章的、污移1的、無幫助的。適當(dāng)?shù)拿~可以包括Marriott、Hyatt、Four Seasons、Motel 6、Intercontinental> Quality Inn、Howard Johnson 等等。I.識別包括關(guān)鍵詞和形容詞兩者的句子以供將來分析。
J.通過查找關(guān)鍵詞和形容詞組之前和之后的適當(dāng)?shù)拿~,將關(guān)鍵詞和形容詞組與感興趣的主題(例如,連鎖賓館的名稱)相關(guān)聯(lián)。保存適當(dāng)?shù)拿~和關(guān)鍵詞/形容詞組以供將來分析和呈現(xiàn)。K.對于評論站點,獲得日期并且周期性地重新訪問該站點。該周期可以通過識別博客和/或評論條目的日期、計算博客條目之間的時間段、以及基于博客條目之間的時間段來確定多么頻繁地重新訪問該評論站點來確定??梢赃x擇恒定時間段(例如,最小時間段、平均時間段的三分之一,等等)。替代地,可以選擇取決于預(yù)定因素(例如,季節(jié)等)的可變時間段。例如,在賓館的情況下,在我們的假期(諸如7月4日)左右,可能張貼更多的條目,因此圍繞該時間可以減小爬行之間的周期。還可以基于本地事件(例如印第安納波利斯500)選擇可變時間段。例如,在賓館的情況下,圍繞該事件的時間,可以減小對于為印第安納波利斯500服務(wù)的賓館的爬行之間的周期。一旦確定了采樣時間段,就爬行該站點以得到新文本。L.可以按照來自每個網(wǎng)站的類別來作出時間相關(guān)性。M.對于主題獲得類別列表。通過查看主題網(wǎng)站上的標(biāo)題來獲得種子類別列表。識別詞在其它主題網(wǎng)站上的頻率。N.如下確定評論站點的重要性a.分析評論站點的進入鏈接和出去鏈接。i.檢查所鏈接的站點的合法性,以確保它們不是垃圾郵件(SPAM)鏈接。ii.分析詞在所鏈接的站點上的詞匯分布。iii.如果用于所鏈接的站點的詞匯譜不在參考詞匯譜的預(yù)定閾值內(nèi),則丟棄該鏈接。b.識別對于給定主題,站點上的博客條目或評論/評級相對于競爭站點上的時間戳增量的更新頻率。i.如果時間戳增量短,則意味著特定網(wǎng)站有許多人在社區(qū)中活躍地在定期的基礎(chǔ)上閱讀和更新該站點。具有最快的真實評論的站點被認(rèn)為是社區(qū)中最重要的站點。0.如下識別來自社區(qū)成員的建議a.創(chuàng)建識別推薦的樣式列表。例如,該樣式可以包括“我推薦”、“它們可以改進…”、“我告訴我所有朋友關(guān)于…”等等。
b.識別這些句子中的主題關(guān)鍵詞或N-gram。c. 一旦發(fā)現(xiàn)了關(guān)鍵詞樣式,就將這些句子存儲為對于每個主題的建議以供呈現(xiàn)。P.移動設(shè)備的用戶界面a.用于觀看各種產(chǎn)品和服務(wù)(例如賓館服務(wù))的消費者情緒的評級的用戶界面的設(shè)計必須被格式化以用于易用的瀏覽、數(shù)據(jù)輸入和評分的取回。采用X-Y圖形式的各種參數(shù)相對于時間的曲線圖、或者采用Pareto圖形式的經(jīng)過排序的問題需要被適配在智能電話的屏幕內(nèi)。應(yīng)當(dāng)通過手指在屏幕、迷你軌跡球、拇指操控桿上掃過或者通過觸發(fā)用戶按鍵來驅(qū)動用于瀏覽各種數(shù)據(jù)的水平或垂直滾動。數(shù)據(jù)可以是列表片段,其包含來自顯示情緒的博客的源敘述、時間相關(guān)的曲線圖和/或Pareto圖。出于解釋目的而參考特定實施例描述了上面的描述。然而,上面的示例性討論意圖不是窮盡的或者將實施例限制于所公開的精確形式。考慮到以上教導(dǎo),可以有許多修改 和變型。選擇并描述所述實施例以便更好地解釋原理及其實際應(yīng)用,以由此使得本領(lǐng)域其他技術(shù)人員能夠最佳地利用所述實施例以及帶有適合于所構(gòu)想的特定用途的各種修改的各種實施例。
權(quán)利要求
1.一種確定在文檔中所表達的情緒的計算機實現(xiàn)的方法,包括 接收來自多個文檔的文檔; 使用至少一個處理器,識別文檔中的、包括在來自關(guān)鍵詞列表的至少一個關(guān)鍵詞的預(yù)定距離內(nèi)的至少一個情緒簽名的句子,其中,關(guān)鍵詞列表是從所述多個文檔中提取的,并且使用相轉(zhuǎn)變公式對關(guān)鍵詞列表進行過濾,并且其中,所述至少一個情緒簽名對應(yīng)于該句子中的至少一個情緒的表達; 確定與該句子的所述至少一個關(guān)鍵詞對應(yīng)的至少一個類別,其中,所述至少一個類別被包括在類別列表中,該類別列表是使用關(guān)鍵詞列表而生成的;以及 基于所述至少一個情緒簽名來確定與所述至少一個類別對應(yīng)的至少一個情緒。
2.如權(quán)利要求I所述的計算機實現(xiàn)的方法,其中,在識別文檔中的、包括在所述至少一個關(guān)鍵詞的預(yù)定距離內(nèi)的至少一個情緒簽名的句子之前,該方法還包括通過以下操作來提取關(guān)鍵詞列表 從所述多個文檔中的每個文檔中提取關(guān)鍵詞; 對于每個關(guān)鍵詞, 計算該關(guān)鍵詞在所述多個文檔中的頻率f以及包括該關(guān)鍵詞的文檔的數(shù)量N ; 使用相轉(zhuǎn)變公式,基于該關(guān)鍵詞在所述多個文檔中的頻率以及包括該關(guān)鍵詞的文檔的數(shù)量來計算關(guān)鍵詞的相關(guān)性;以及 當(dāng)該關(guān)鍵詞的相關(guān)性超過預(yù)定閾值時,將該關(guān)鍵詞添加到關(guān)鍵詞列表。
3.如權(quán)利要求2所述的計算機實現(xiàn)的方法,其中,相轉(zhuǎn)變公式為f/Nx,其中X> I。
4.如權(quán)利要求3所述的計算機實現(xiàn)的方法,其中,X為3。
5.如權(quán)利要求I所述的計算機實現(xiàn)的方法,其中,在確定與句子的至少一個關(guān)鍵詞對應(yīng)的至少一個類別之前,該方法還包括通過以下操作來生成類別列表 識別所述多個文檔中包括來自關(guān)鍵詞列表的至少一個關(guān)鍵詞的文檔的第一集合; 識別在文檔的第一集合中至少預(yù)定數(shù)量的文檔中包括的關(guān)鍵詞的集合;以及 將該關(guān)鍵詞的集合添加到類別列表,其中,相應(yīng)的類別包括相應(yīng)的關(guān)鍵詞的集合。
6.如權(quán)利要求I所述的計算機實現(xiàn)的方法,其中,在確定與句子的至少一個關(guān)鍵詞對應(yīng)的至少一個類別之前,該方法還包括通過以下操作來生成類別列表 確定關(guān)鍵詞列表中彼此相關(guān)的關(guān)鍵詞對,其中所述關(guān)鍵詞對是獨一無~■的關(guān)鍵詞對;識別關(guān)鍵詞對的集合,其中,每個集合包括對于該集合中的所有關(guān)鍵詞對公共的至少一個關(guān)鍵詞;以及 迭代地組合關(guān)鍵詞對的集合,直至達到預(yù)定的終止條件為止,其中,每個組合的集合包括對于該組合的集合中的所有關(guān)鍵詞對公共的至少一個關(guān)鍵詞。
7.如權(quán)利要求I所述的計算機實現(xiàn)的方法,其中,確定與句子的至少一個關(guān)鍵詞對應(yīng)的至少一個類別包括使用支持向量機來確定與該句子的至少一個關(guān)鍵詞對應(yīng)的至少一個類別。
8.如權(quán)利要求I所述的計算機實現(xiàn)的方法,其中,確定與句子的至少一個關(guān)鍵詞對應(yīng)的至少一個類別包括使用神經(jīng)網(wǎng)絡(luò)來確定與該句子的至少一個關(guān)鍵詞對應(yīng)的至少一個類別
9.如權(quán)利要求I所述的計算機實現(xiàn)的方法,其中,確定與句子的至少一個關(guān)鍵詞對應(yīng)的至少一個類別包括 獲得多個類別譜,相應(yīng)的類別譜包括關(guān)鍵詞在與相應(yīng)類別對應(yīng)的關(guān)鍵詞列表中出現(xiàn)的頻率; 基于所述至少一個關(guān)鍵詞確定該句子的類別譜; 計算該句子的類別譜與所述多個類別譜中的每個類別譜的標(biāo)量積;以及 將所述至少一個類別確定為與超過預(yù)定閾值的至少一個標(biāo)量積對應(yīng)的類別。
10.如權(quán)利要求9所述的計算機實現(xiàn)的方法,其中,在獲得多個類別譜之前,該方法還包括對于每個類別,通過以下操作確定該類別的類別譜 獲得與該類別對應(yīng)的文檔集; 從該文檔集中的每個文檔提取關(guān)鍵詞; 使用相轉(zhuǎn)變公式過濾關(guān)鍵詞,以產(chǎn)生過濾后的關(guān)鍵詞; 確定過濾后的關(guān)鍵詞在該文檔集中出現(xiàn)的頻率;以及 將過濾后的關(guān)鍵詞的出現(xiàn)頻率標(biāo)準(zhǔn)化,以便產(chǎn)生該類別的類別譜。
11.如權(quán)利要求I所述的計算機實現(xiàn)的方法,其中,在接收來自所述多個文檔的文檔之前,該方法還包括通過以下操作從文檔集中選擇所述多個文檔 對于文檔集中的每個文檔, 從該文檔中提取n-gram ; 基于所提取的n-gram確定該文檔的n-gram譜,其中n-gram譜指示作為n-gram大小的函數(shù)的n-gram的出現(xiàn)頻率; 確定該文檔的n-gram譜是否在預(yù)定閾值內(nèi)符合參考n-gram譜,其中通過預(yù)定方程式定義該參考n-gram譜; 當(dāng)該文檔的n-gram譜在預(yù)定閾值內(nèi)符合參考n-gram譜時,將該文檔添加到所述多個文檔;以及 當(dāng)該文檔的n-gram譜沒有在預(yù)定閾值內(nèi)符合參考n-gram譜時,丟棄該文檔。
12.如權(quán)利要求11所述的計算機實現(xiàn)的方法,其中,所述預(yù)定方程式為cX_a其中X是n-gram的大小,并且其中a、b和c是將所述預(yù)定方程式的峰值置于大小為2的n-gram和大小為3的n-gram之間的預(yù)定值。
13.如權(quán)利要求I所述的計算機實現(xiàn)的方法,其中,所述至少一個情緒簽名包括至少一個詞,所述至少一個詞指示在該句子中存在至少一個情緒的表達。
14.如權(quán)利要求I所述的計算機實現(xiàn)的方法,其中,所述至少一個情緒是與至少一個類別相關(guān)的觀點的表達。
15.如權(quán)利要求I所述的計算機實現(xiàn)的方法,其中,所述至少一個類別與產(chǎn)品相關(guān)聯(lián)。
16.如權(quán)利要求I所述的計算機實現(xiàn)的方法,其中,所述至少一個類別與服務(wù)相關(guān)聯(lián)。
17.一種確定在文檔中所表達的情緒的系統(tǒng),包括 至少一個處理器; 存儲器;以及 在存儲器中存儲的至少一個程序,所述至少一個程序包括用于以下操作的指令 接收來自多個文檔的文檔; 識別文檔中的、包括在來自關(guān)鍵詞列表中的至少一個關(guān)鍵詞的預(yù)定距離內(nèi)的至少一個情緒簽名的句子,其中,關(guān)鍵詞列表是從所述多個文檔中提取的,并且使用相轉(zhuǎn)變公式對關(guān)鍵詞列表進行過濾,并且其中,所述至少一個情緒簽名對應(yīng)于該句子中至少一個情緒的表達; 確定與該句子的至少一個關(guān)鍵詞對應(yīng)的至少一個類別,其中,所述至少一個類別被包括在類別列表中,該類別列表是使用關(guān)鍵詞列表而生成的;以及 基于所述至少一個情緒簽名來確定與所述至少一個類別對應(yīng)的至少一個情緒。
18.如權(quán)利要求17所述的系統(tǒng),其中,還包括用于提取關(guān)鍵詞列表的指令,其中,用于從文檔中提取關(guān)鍵詞列表的指令包括用于以下操作的指令 從所述多個文檔的每個文檔中提取關(guān)鍵詞; 對于每個關(guān)鍵詞, 計算該關(guān)鍵詞在所述多個文檔中的頻率f以及包括該關(guān)鍵詞的文檔的數(shù)量N ; 使用相轉(zhuǎn)變公式,基于該關(guān)鍵詞在所述多個文檔中的頻率以及包括該關(guān)鍵詞的文檔的數(shù)量來計算關(guān)鍵詞的相關(guān)性;以及 當(dāng)該關(guān)鍵詞的相關(guān)性超過預(yù)定閾值時,將該關(guān)鍵詞添加到關(guān)鍵詞列表。
19.如權(quán)利要求18所述的系統(tǒng),其中,相轉(zhuǎn)變公式為其中X> I。
N
20.一種存儲有被配置為由計算機運行的至少一個程序的計算機可讀存儲介質(zhì),所述至少一個程序包括用于以下操作的指令 接收來自多個文檔的文檔; 識別文檔中的、包括在來自關(guān)鍵詞列表中的至少一個關(guān)鍵詞的預(yù)定距離內(nèi)的至少一個情緒簽名的句子,其中,關(guān)鍵詞列表是從所述多個文檔中提取的,并且使用相轉(zhuǎn)變公式對關(guān)鍵詞列表進行過濾,并且其中,所述至少一個情緒簽名對應(yīng)于該句子中至少一個情緒的表達; 確定與該句子的至少一個關(guān)鍵詞對應(yīng)的至少一個類別,其中,所述至少一個類別被包括在類別列表中,該類別列表是使用關(guān)鍵詞列表而生成的;以及 基于所述至少一個情緒簽名來確定與所述至少一個類別對應(yīng)的至少一個情緒。
全文摘要
公開了一種確定在文檔中所表達的情緒的系統(tǒng)、存儲指令的計算機可讀存儲介質(zhì)以及計算機實現(xiàn)的方法。從多個文檔接收文檔。識別該文檔中的、包括在來自關(guān)鍵詞列表的至少一個關(guān)鍵詞的預(yù)定距離內(nèi)的至少一個情緒簽名的句子,其中關(guān)鍵詞列表是從多個文檔中提取的,并且使用相轉(zhuǎn)變公式對關(guān)鍵詞列表進行過濾,并且其中所述至少一個情緒簽名對應(yīng)于該句子中至少一個情緒的表達。確定與該句子的至少一個關(guān)鍵詞對應(yīng)的至少一個類別,其中,至少一個類別被包括在類別列表中,該類別列表是使用關(guān)鍵詞列表生成的?;谥辽僖粋€情緒簽名來確定與至少一個類別對應(yīng)的至少一個情緒。
文檔編號G06K9/72GK102812475SQ201080064703
公開日2012年12月5日 申請日期2010年12月23日 優(yōu)先權(quán)日2009年12月24日
發(fā)明者M.杜昂-范 申請人:梅塔瓦納股份有限公司