專利名稱:從產(chǎn)品或服務(wù)評論中得出陳述的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及網(wǎng)絡(luò)技術(shù),尤其涉及網(wǎng)絡(luò)技術(shù)中基于評論的陳述提供。
背景技術(shù):
人們通常在因特網(wǎng)上尋找的一種類型的信息是對產(chǎn)品或服務(wù)的評論。存在某些網(wǎng)站,它們主要的功能是允許消費(fèi)者評論產(chǎn)品。在其他情況下,網(wǎng)站提供評論作為某些其他服務(wù)的一部分。例如,大型商業(yè)零售網(wǎng)站常常允許消費(fèi)者對站點(diǎn)上銷售的產(chǎn)品撰寫評論。便于小賣家銷售產(chǎn)品的站點(diǎn)(例如,eBay、Amazon市場等)常常允許用戶評論他們與特定賣家的體驗(yàn)。盡管某些站點(diǎn)雇傭?qū)I(yè)專家來進(jìn)行對產(chǎn)品和服務(wù)正式的、技術(shù)的評論,許多評論由普通消費(fèi)者來提供。盡管消費(fèi)者反饋可以是有價(jià)值的,但常常難以解釋。不同人們具有不同期望。由此,當(dāng)閱讀評論時(shí),常常難以知道評論中的單詞的意味什么。例如,評論電視機(jī)的兩個(gè)人都將電視機(jī)的圖像質(zhì)量描述為“好”,但“好”可能對這兩個(gè)人意味著不同的內(nèi)容。 此外,評論者常常被要求在一個(gè)或多個(gè)維度上對產(chǎn)品或服務(wù)進(jìn)行數(shù)字地評級(例如,“在一至五的比例上對這個(gè)電視機(jī)的圖像質(zhì)量評級”),但人們對如何分配數(shù)字常常意見不一致。 兩個(gè)人可能對電視機(jī)的圖像質(zhì)量有同樣印象,但一個(gè)人可能給圖像評級三,而另一人給圖像評級四。如果一人閱讀相同或相似產(chǎn)品的許多評級,這個(gè)人可能獲得產(chǎn)品空間以及各種產(chǎn)品如何彼此不同的全面畫面。但閱讀數(shù)量足夠大的評論以取得這一全面畫面是耗時(shí)的。
發(fā)明內(nèi)容
可以分析評論以確定產(chǎn)品的評論與關(guān)于產(chǎn)品的已知事實(shí)之間的關(guān)系。使用這一分析,可以對關(guān)于給定產(chǎn)品如何與共享相同事實(shí)特征的其他產(chǎn)品比較作出陳述。例如,假定電視機(jī)的敘述評論的喜愛性可以被數(shù)字地測量(例如,“良好(okay),, 的評論獲得一至十比例中的五,而“很差”獲得一)。一旦將這些數(shù)值分配給評論,則找出特定產(chǎn)品或產(chǎn)品類別的平均喜愛性評級是可能的。因此,假定存在三個(gè)品牌的電視機(jī)——A、 B、和C——價(jià)格范圍在$1400-1500,并且這些品牌中的任一個(gè)的評論的平均喜愛性是一至十比例中的四。進(jìn)一步假定對品牌A的評論的平均喜愛性是六。則作出品牌A在相同價(jià)格范圍中比其他品牌的電視機(jī)更受喜愛的陳述是可能的。消費(fèi)者在作出購買決定時(shí)對于這一陳述是很感興趣的,因?yàn)樗爬岁P(guān)于品牌A的電視機(jī)的評論說了什么,并且這些評論與相同價(jià)格范圍中的其他電視機(jī)的評論作比較??梢允褂么颂幟枋龅募夹g(shù)來生成這種陳述。為提供這一分析,分析文本評論以確定它們對產(chǎn)品表達(dá)的意見??梢园磾?shù)字評級的形式來提取信息。例如,可以分析評級以確定它們對電視機(jī)的圖像、聲音、以及構(gòu)造質(zhì)量這三個(gè)不同方面說了什么。通過尋找某些關(guān)鍵單詞和短語(例如,“圖像好/很好/極好 /差/很差/勉強(qiáng)可看”),在數(shù)字比例上評估評論者對電視機(jī)的各種方面說了什么是可能的。例如,如果評論將圖像描述為“好”,則評論可以被解釋為給圖像質(zhì)量評級六,而將圖像描述為“很好”的評論可能被解釋為給圖像質(zhì)量評級八。此外,可以對制造商的電視機(jī)規(guī)范執(zhí)行文本分析,這包含諸如推薦零售價(jià)、屏幕尺寸、屏幕分辨率等基本事實(shí)信息,并且事實(shí)的每一類型可以被分配一數(shù)字。這一分析的結(jié)果是變量集。就可以在統(tǒng)計(jì)上分析這些變量以確定變量之間的關(guān)系。例如,一個(gè)人可以分析46-英寸電視機(jī)的平均圖像質(zhì)量,或在 $1400-1500價(jià)格范圍中的電視機(jī)的平均聲音質(zhì)量。一旦兩個(gè)變量之間的關(guān)系已知,則作出關(guān)于特定產(chǎn)品如何比相同類別中其他產(chǎn)品成功的陳述。例如,一個(gè)人可以說,“品牌-A的46-英寸電視機(jī)比其他46-英寸電視機(jī)圖像質(zhì)量更高,但聲音質(zhì)量更低”,或“與相同價(jià)格的電視機(jī)相比,品牌-B的電視機(jī)具有高的聲音質(zhì)量”。在這種意義上,將產(chǎn)品或服務(wù)的特定類別(例如,電視機(jī)的特定型號)的評論與產(chǎn)品或服務(wù)的某個(gè)更一般類別或服務(wù)(例如,特定屏幕尺寸的所有電視機(jī))作比較的陳述可以用作現(xiàn)有評論集的一種自動生成的概述。在此處的描述中,產(chǎn)品被用作可被評論的東西的示例,盡管此處描述的技術(shù)可以應(yīng)用于可被評論的任何東西——例如,產(chǎn)品、服務(wù)等等。提供本發(fā)明內(nèi)容以便以簡化形式介紹將在以下的具體實(shí)施方式
中進(jìn)一步描述的一些概念。本概述并不旨在標(biāo)識出所要求保護(hù)的主題的關(guān)鍵特征或必要特征,也不旨在用于限定所要求保護(hù)的主題的范圍。
圖1是其中對產(chǎn)品或服務(wù)的評論可以基于其他信息來創(chuàng)建的組件集的示例的框圖。圖2是兩個(gè)變量之間的關(guān)系的示例以及可對那些變量執(zhí)行的示例統(tǒng)計(jì)分析的框圖。圖3是包含關(guān)于產(chǎn)品或服務(wù)的陳述的示例用戶界面的框圖。圖4是其中可分析評論以及其中可作出關(guān)于產(chǎn)品或服務(wù)的陳述的示例過程的流程圖。圖5是可結(jié)合實(shí)現(xiàn)此處所述的主題來使用的示例組件的框圖。
具體實(shí)施例方式當(dāng)人們想要調(diào)查產(chǎn)品或服務(wù)時(shí),他們常常查看消費(fèi)者評論。因特網(wǎng)使撰寫和閱讀評論變得非常容易。由此,可以在各種在線地方找到評論。例如,商業(yè)零售網(wǎng)站常常允許用戶對他們已經(jīng)購買的產(chǎn)品撰寫評論。這些網(wǎng)站常常與產(chǎn)品一起顯示消費(fèi)者評論,使得考慮購買相同產(chǎn)品的消費(fèi)者可以找出其他人怎么認(rèn)為該產(chǎn)品。在線市場(eBayjmazon市場等) 常常給予買家撰寫對賣家的評論的機(jī)會。盡管對各種各樣的產(chǎn)品和服務(wù)的消費(fèi)者評論是容易獲得的,但常常難以解釋這些評論。傳統(tǒng)上,產(chǎn)品和服務(wù)評論由專業(yè)專家來創(chuàng)建。消費(fèi)者雜志可以雇傭工程師團(tuán)隊(duì)來使產(chǎn)品通過嚴(yán)格的技術(shù)測試。汽車俱樂部可以雇傭有經(jīng)驗(yàn)的旅行者住在酒店并且對它們接收的服務(wù)評級。這些類型的評級是可靠的并且傳遞許多信息,因此它們使正被評論的產(chǎn)品或服務(wù)服從可以是明確公布的統(tǒng)一標(biāo)準(zhǔn)。作為對比,典型的消費(fèi)者僅對一些產(chǎn)品進(jìn)行評級,并且不同的消費(fèi)者在他們評論產(chǎn)品時(shí)可以具有非常不同的個(gè)人標(biāo)準(zhǔn)。例如,兩個(gè)不同消費(fèi)者對電視機(jī)的圖像質(zhì)量可以具有相同的主觀印象,但一個(gè)消費(fèi)者比另一個(gè)具有更高的期望。 由此,一個(gè)消費(fèi)者可能將圖像質(zhì)量描述為“一般”,而另一個(gè)可能將圖像質(zhì)量描述為“很好”。 此外,消費(fèi)者往往比專業(yè)專家遇到的產(chǎn)品少,因此一個(gè)特定消費(fèi)者認(rèn)為他所購買的電視機(jī)具有“極美妙的”聲音質(zhì)量的事實(shí)可能并不是特別有教益性的或可靠的,因?yàn)樵撓M(fèi)者可能對于一個(gè)人對電視機(jī)的期望的一般質(zhì)量等級并不知道很多。盡管個(gè)體消費(fèi)者評論可以提供難以解釋的信息,但檢查大量消費(fèi)者評論往往提供消費(fèi)者怎樣認(rèn)為一產(chǎn)品或服務(wù)的可靠畫面。一個(gè)消費(fèi)者認(rèn)為品牌-A的46-英寸電視機(jī)具有很好圖像的事實(shí)其本身并不提供很多信息。然而生,一千個(gè)消費(fèi)者給予品牌-A的46-英寸電視機(jī)從好到極好的評論暗示該電視機(jī)可以是高質(zhì)量的電視機(jī)。并且,如果存在另外一千個(gè)將品牌-B和品牌-C的46-英寸電視機(jī)評級為“差”的評論,則相比之下,對品牌-A的高質(zhì)量評級看上去更加令人印象深刻。換言之,當(dāng)評論是由應(yīng)用各種各樣的標(biāo)準(zhǔn)并且對他們正評級的這些類型的產(chǎn)品具有相對較少經(jīng)驗(yàn)的消費(fèi)者來提供時(shí),這些評論的可靠性來自兩個(gè)源大數(shù)量、以及消費(fèi)者的陳述可與其相比較的參考點(diǎn)??紤]大量的評論減小了一個(gè)人的印象將受失常的評論影響的機(jī)會。并且,將大量對品牌-A的產(chǎn)品的評論與大量相似產(chǎn)品的評論作比較使得相似產(chǎn)品能作為可相對于其來解釋對品牌-A的產(chǎn)品的評論的參考點(diǎn)。然而,大部分消費(fèi)者沒有時(shí)間細(xì)查大量的評論。由此,解釋消費(fèi)者評論的問題等于對大量信息的編組以及建模,這些信息中的很多被包含在自由形式、敘述性的文本評論中。 此處描述的主題提供了對評論進(jìn)行編組和解釋的方式。為了分析評論,挖掘了兩種類型的信息第一,關(guān)于被評論的產(chǎn)品或服務(wù)的基本事實(shí),以及第二,評論者對產(chǎn)品或服務(wù)的印象,如評論的敘述部分中表達(dá)的。首先,關(guān)于產(chǎn)品或服務(wù)的基本事實(shí)是從產(chǎn)品的制造商或服務(wù)的提供者所提供的信息中挖掘的。例如,如果公司A制造電視機(jī),它可能會提供關(guān)于電視機(jī)的每一模型的基礎(chǔ)信息——例如,推薦零售價(jià)、 屏幕尺寸、屏幕分辨率、顯示器技術(shù)(例如,等離子或液晶)、輸入端口的數(shù)量等等。作為另一示例,酒店公司可能將提供關(guān)于其酒店房間的基本信息——例如,酒店位置、不同類型的房間的價(jià)格范圍、房間大小、酒店中的餐廳數(shù)量等等。這一類型的信息可以使用諸如實(shí)體提取等文本分析技術(shù)來從在線或打印材料中挖掘。其次,挖掘評論本身以標(biāo)識評論者對他們在評論的產(chǎn)品或服務(wù)說了些什么。即,可以分析評論的敘述部分,以確定它在表達(dá)關(guān)于正評論的產(chǎn)品或服務(wù)的特點(diǎn)方面表現(xiàn)出什么意見。說“圖像質(zhì)量差”的電視機(jī)評論表達(dá)了評論者對產(chǎn)品或服務(wù)的意見,并且這一意見可以從評論的敘述部分來提取。這兩種類型的信息——關(guān)于產(chǎn)品的基本事實(shí)、對該產(chǎn)品的評論——按以下方式來使用。使用關(guān)于產(chǎn)品和服務(wù)的基本事實(shí)來創(chuàng)建可被有意義地比較的分類。例如,將兩個(gè)具有 IOSOp顯示器的46-英寸電視機(jī)作比較是有意義的。但將20-英寸標(biāo)清陰極射線電視機(jī)與 65-英寸的高清等離子電視機(jī)作比較的意義較小。在某些情況下,將相同尺寸和屏幕分辨率的任何兩個(gè)電視機(jī)作比較是有意義的,在其他情況下,將具有相似價(jià)格的電視機(jī)作比較是有意義的。類似地,將市中心區(qū)曼哈頓的兩個(gè)奢華酒店作比較是有意義的,但將西雅圖的小酒店與內(nèi)華達(dá)州溫尼馬卡(Wirmemucca)中的路邊汽車旅館作比較的意義較小。供應(yīng)什么類型的產(chǎn)品或服務(wù)可以從制造商或服務(wù)提供者所提供的基本信息中確定??梢允褂眠@一信息來創(chuàng)建產(chǎn)品或服務(wù)的分類,使得可以對這些分類中的產(chǎn)品或服務(wù)進(jìn)行有意義的比較。艮口,如果一個(gè)人想要比較相似價(jià)格的電視機(jī),則這個(gè)人可以使用制造商提供的推薦零售價(jià)信息來確定哪些電視機(jī)在相同價(jià)格分類中。挖掘評論本身以將關(guān)于產(chǎn)品的自由形式的敘述陳述轉(zhuǎn)換成度量集。例如,假定電視機(jī)的評級可歸結(jié)為對三個(gè)屬性的評級圖像質(zhì)量、聲音質(zhì)量、以及構(gòu)造質(zhì)量一個(gè)人可以檢查特定電視機(jī)的敘述評論以查看評論者對這三個(gè)屬性說了什么,并且可以將數(shù)字評級分配給每一屬性。由此,如果評論者說,“Minisonic 46-英寸1080p電視機(jī)具有驚人的圖像”, 一個(gè)人可能將這一陳述解釋為說給圖像質(zhì)量評級為一至十比例中的九。如果評論稍后說該電視機(jī)“具有非常單調(diào)的聲音”,則一個(gè)人可能將這一陳述解釋為說給聲音質(zhì)量評級為一至十比例中的三。存在用于執(zhí)行這種類型的文本分析的各種技術(shù)。在一個(gè)實(shí)施例中,分析器可以維護(hù)具有被分配的點(diǎn)值的描述性單詞和短語列表,并且查找與其他單詞鄰近的指示電視機(jī)的什么特征正被描述的這些單詞和短語。例如,如果單詞“單調(diào)”出現(xiàn)在“聲音”附近, 則可能這個(gè)人正在說聲音是單調(diào)的。如果單詞列表指示了“單調(diào)”與差聲音質(zhì)量相關(guān)聯(lián),則該評論對于聲音質(zhì)量表達(dá)的意見可以被分配低數(shù)值——例如,一至十比例中的三——(指示不喜愛評論)。一旦已經(jīng)從評論中挖掘了信息,則計(jì)算關(guān)于評論的統(tǒng)計(jì)是可能的。例如,一個(gè)人可以計(jì)算所有46-英寸電視機(jī)的平均圖像質(zhì)量,或所有$1400-1500價(jià)格范圍中的46-英寸電視機(jī)的平均聲音質(zhì)量?;蛘撸粋€(gè)人可以繪出圖像質(zhì)量與價(jià)格之間的關(guān)系。另外地,一旦已經(jīng)對有意義的電視機(jī)類別計(jì)算了這種類型的信息,則將特定電視機(jī)與該類別中的所有計(jì)算機(jī)作比較是可能的。由此,如果$1400-1500價(jià)格范圍中46-英寸電視機(jī)的平均圖像評級是四,但Minisonic 46-英寸等離子屏幕電視機(jī)的平均評級是七,則作出諸如“與具有其尺寸和價(jià)格的其他電視機(jī)相比,Minisonic 46-英寸等離子屏幕電視機(jī)具有高圖像質(zhì)量”的陳述是可能的。這一陳述將來自評論的大量信息集合在一起。這量化了人們大致對特定尺寸和價(jià)格的電視機(jī)說了什么,同時(shí)將人們對$1400-1500價(jià)格范圍中的一個(gè)特定46-英寸電視機(jī)說了什么與人們大致對該尺寸/大小的電視機(jī)的其他版本說了什么進(jìn)行區(qū)分。這種類型的陳述可以被消費(fèi)者看作比一個(gè)評論者的孤立觀點(diǎn)更有權(quán)威性。另外地,可以用比對產(chǎn)品的專業(yè)專家評論更少的錢來產(chǎn)生這種類型的陳述,由此使得用于提供這種類型的陳述的在線信息聚集服務(wù)在經(jīng)濟(jì)上可行。現(xiàn)在轉(zhuǎn)向附圖,圖1示出了其中可創(chuàng)建對產(chǎn)品或服務(wù)的評論的示例組件集。如上所述,評論可以包括諸如“品牌-A電視機(jī)對于其價(jià)格而言具有非常好的圖像”等陳述,并且由此這些陳述的基礎(chǔ)是對電視機(jī)的評論集以及關(guān)于特定電視機(jī)的價(jià)格的基本數(shù)據(jù)。由此, 圖1示出了文本評論102、以及提供者數(shù)據(jù)104。可以存在若干評論以及若干條提供者數(shù)據(jù), 然而,出于示例的簡單性,圖1僅示出了單個(gè)評論以及單條提供者數(shù)據(jù)。文本信息包含作出關(guān)于電視機(jī)的特定品牌(例如,Minisonic 46英寸IOSOp高清電視機(jī)(HDTV))的各種陳述的敘述106。例如,敘述106陳述了“圖像看上去很好”以及“聲音是驚人的”??梢詫@一敘述執(zhí)行文本分析,以便嘗試對其中包含的信息進(jìn)行量化。諸如提取器108等組件可以查找敘述106中的某些項(xiàng),并且可以嘗試解釋這些項(xiàng)。例如,提取器108可以檢測單詞“圖像”(框110)出現(xiàn)在靠近單詞“很好”(框112),并且可以確定這些單詞在敘述106中彼此緊鄰的出現(xiàn)指示了敘述106的撰寫者作出關(guān)于圖像質(zhì)量的肯定陳述。類似地,提取器108 可以檢測單詞“聲音”(框114)出現(xiàn)在靠近單詞“驚人的”(框116),并且可以因此檢測敘述106的撰寫者作出關(guān)于聲音質(zhì)量的肯定陳述。提取器108可以維持與肯定或否定陳述相關(guān)聯(lián)的單詞列表。該列表還可以量化特定單詞是如何地肯定或否定的幅度。例如,“很好”以及“驚人的”可以被認(rèn)為是指示非常高級別的滿意度的單詞,而“好”可能指示肯定的意見,但不像單詞“很好”以及“驚人的”那樣強(qiáng)烈地肯定。單詞“差”可能被解釋為適度否定意見,并且單詞“可怕”可能被解釋為強(qiáng)烈地否定意見??梢愿鶕?jù)——例如,給“可怕”分配一而給“很好”分配九,來將數(shù)值分配給這些陳述。文本分析的深度可以取決于關(guān)于評論中的單詞和短語意味什么的底層數(shù)據(jù)。例如,提取器108可能維持一數(shù)據(jù)庫,該數(shù)據(jù)庫包含像“很好”以及“差”之類的一般形容詞性表征,但還可以包括非常具體的短語。例如,敘述106的撰寫者已經(jīng)指示了電視機(jī)“散架”(框120),并且提取器108可能具有指示短語“散架”當(dāng)出現(xiàn)在電視機(jī)評論中時(shí)與非常差的構(gòu)造質(zhì)量相關(guān)聯(lián)的數(shù)據(jù)。提取器可以包括或以其他方式使用數(shù)字轉(zhuǎn)換器122。數(shù)字轉(zhuǎn)換器122通過將數(shù)字分配給在敘述106中已檢測到的意見來量化該意見。在圖1的示例中,數(shù)字轉(zhuǎn)換器122將數(shù)字分配給三個(gè)不同意見。就統(tǒng)計(jì)概念而言,每一意見可以被看作采取被分配給特定意見的數(shù)值的變量。在示出的示例中,存在三個(gè)意見變量124、126、以及128,它們表示圖像意見、 聲音意見、以及構(gòu)造質(zhì)量意見(被分別標(biāo)記為P、S、以及C)。這些變量可以表示在任何種類的數(shù)字比例上的意見,在圖1的示例中,使用了一至十的比例。由此,基于有關(guān)Minisonic 電視機(jī)的圖像和聲音的意見,如敘述106中描述的,數(shù)字轉(zhuǎn)換器122可能將值分配給變量, 諸如P = 9 (突出的圖像質(zhì)量),S = 8 (非常好的聲音質(zhì)量),以及C = 1 (特別差的構(gòu)造質(zhì)量)O可被分析的另一類型的信息是提供者數(shù)據(jù)104,可以分析它以便挖掘關(guān)于作為評論主題的產(chǎn)品和/或服務(wù)的基本事實(shí)。提供者數(shù)據(jù)104可以由產(chǎn)品或服務(wù)的提供者(例如, 產(chǎn)品的制造商)來供應(yīng)。在圖1的示例中,提供者數(shù)據(jù)104包含特定Minisonic-品牌電視機(jī)的制造商推薦零售價(jià)(“MSRP”)(即,$1499),并且還包含該電視機(jī)的屏幕尺寸(S卩,46 英寸)。提供者數(shù)據(jù)104可以包含各種其他類型的信息(例如,屏幕分辨率、輸入數(shù)量、功耗等等)。然而,出于示出的目的,在圖1中僅示出價(jià)格和屏幕尺寸。提供者數(shù)據(jù)104可以由提取器130來分析。提取器130可以與提取器108類似地工作,但可以被配置成提取將包含在產(chǎn)品數(shù)據(jù)表中的那類信息,而不是將包含在敘述評論中的那類信息。在此示例中,提取器130確定兩個(gè)變量132和124的值,這些值表示電視機(jī)的價(jià)格和對角屏幕尺寸,并且被分別標(biāo)記為R和D。由此,提取器130可能將變量設(shè)置為值 R = 1499和D = 46。在圖1的示例中,提取器130提取的值是數(shù)值,并且由此數(shù)字轉(zhuǎn)換器未示為與提取器130連接。然而,注意,提取器130可以提取非數(shù)值,并且可以使用數(shù)字轉(zhuǎn)換器來將這些值轉(zhuǎn)換成數(shù)字。例如,如果被評估的產(chǎn)品是汽車,則提供者數(shù)據(jù)104可以指示汽車的變速器是“自動”或“手動”。為了簡化對這一數(shù)據(jù)的統(tǒng)計(jì)分析,一個(gè)人可以定義變速器變量T,它采取值一(對于自動)或二(對于手動)。注意,圖1中的示例示出了有關(guān)特定產(chǎn)品的評論和數(shù)據(jù)。然而,圖1中示出的以及以上描述的相同技術(shù)可以與任何類型的產(chǎn)品或與服務(wù)一起使用。例如,旅行網(wǎng)站可以提供對航空公司以及汽車租賃服務(wù)的評論。在航空公司的情況下,提取器108可以檢查敘述評論以找出人們關(guān)于該航空公司準(zhǔn)點(diǎn)表現(xiàn)、飛行班組的親和度、飛行中的餐食質(zhì)量等的意見。 在該示例中,提供者數(shù)據(jù)104可以包含關(guān)于機(jī)票價(jià)格、不同機(jī)艙等級中的座位尺寸、頻飛者項(xiàng)目的條款等的信息,并且提取器130可以提取有關(guān)航空公司的這些特征的數(shù)據(jù)。一般而言,評論和提供者信息可以與任何類型的產(chǎn)品和/或服務(wù)相關(guān)。圖1中的場景的一個(gè)結(jié)果是將各值分配給變量集。統(tǒng)計(jì)分析設(shè)法找出不同變量之間的關(guān)系,并且鑒于這些關(guān)系來分析實(shí)際數(shù)據(jù)。圖2示出了兩個(gè)示例變量之間的關(guān)系的示例,以及可對那些變量執(zhí)行的示例統(tǒng)計(jì)分析。圖202繪出價(jià)格變量⑵相對于聲音意見變量⑶的值。圖202的示例示出了七個(gè)數(shù)據(jù)點(diǎn),它們可以是已經(jīng)跨各種不同類型的計(jì)算機(jī)所收集的。通常,可以存在成百上千個(gè)數(shù)據(jù)點(diǎn),但出于示出的簡便性,僅示出了七個(gè)數(shù)據(jù)點(diǎn)。每一數(shù)據(jù)點(diǎn)(用實(shí)心圓示出)表示特定電視機(jī)的特定評論。例如,數(shù)據(jù)點(diǎn)204指示了用戶評論了具有推薦零售價(jià)為$1000的電視機(jī)。這個(gè)人使用了某些單詞來表達(dá)他或他關(guān)于該電視機(jī)的聲音質(zhì)量的意見,并且已經(jīng)將一至十比例上的數(shù)值四(即,在平均聲音質(zhì)量以下)給予該意見。圖202上的數(shù)據(jù)點(diǎn)204的位置表示在提取器和/或數(shù)字轉(zhuǎn)換器已經(jīng)從底層數(shù)據(jù)中挖掘了這一信息之后的一對值(聲音意見、價(jià)格)。類似地,數(shù)據(jù)點(diǎn)206指示一個(gè)人評論了 $1200的電視機(jī),并且在該評論中所表達(dá)的關(guān)于聲音質(zhì)量的意見被分配一至十比例上的值一(即,非常差的聲音質(zhì)量)。由實(shí)心圈指示的其他數(shù)據(jù)點(diǎn)表示具有各種價(jià)格的各種電視機(jī)的聲音質(zhì)量意見。給定諸如圖202中示出的數(shù)據(jù)點(diǎn)等數(shù)據(jù)集,對這些數(shù)據(jù)執(zhí)行各種類型的統(tǒng)計(jì)分析是可能的。圖2中示出了一個(gè)這樣的示例,其中回歸線208被繪制成穿過數(shù)據(jù)?;貧w線表示S與P變量之間可能的線性關(guān)系,指示評論者關(guān)于電視機(jī)的聲音質(zhì)量的意見往往與電視機(jī)的價(jià)格成線性比例地增加。找出兩個(gè)變量之間的線性關(guān)系僅僅是可以執(zhí)行的一種類型的分析。作為另一示例,一個(gè)人可以創(chuàng)建將給定價(jià)格范圍(例如,$1000-1100)內(nèi)的所有電視機(jī)放在一個(gè)柱(bin)中的柱狀圖,并且指示該價(jià)格范圍中所有電視機(jī)的平均聲音意見?;蛘?,一個(gè)人可以計(jì)算每一品牌的計(jì)算機(jī)的平均聲音意見。實(shí)際上,回歸線208表示每一價(jià)格等級的平均聲音意見,如果數(shù)據(jù)示出了價(jià)格與聲音意見之間的線性關(guān)系則可以繪制這樣的線。然而,一般而言,可以對任何分類的產(chǎn)品或服務(wù)計(jì)算任何統(tǒng)計(jì)數(shù)據(jù)。當(dāng)然,找出變量之間的關(guān)系的思想并不限于電視機(jī)評論。例如,在航空公司評論的情況下,一個(gè)人可以計(jì)算關(guān)于所有橫渡太平洋航線上、在由特定航空公司操作的所有航線上、在機(jī)票價(jià)格在$1000-1500 價(jià)格范圍中的所有航線上等的飛行班組的親和度的平均意見。返回到圖2的示例,如上所述,示出了電視機(jī)價(jià)格與評論者對于該電視機(jī)的聲音質(zhì)量所表達(dá)的意見之間的線性關(guān)系。在圖202上,點(diǎn)210(用帶圈的X標(biāo)記)表示評論者已經(jīng)表達(dá)了對于特定品牌和電視機(jī)模型=Minisonic 46-英寸1080p HDTV的平均聲音意見。 如圖1中的示例,這個(gè)電視機(jī)具有推薦零售價(jià)$1499(圖202上的數(shù)據(jù)的210的水平位置所指示的)。此外,數(shù)據(jù)的210指示評論者對于電視機(jī)的聲音質(zhì)量所表達(dá)的平均意見與一至十比例上的九對應(yīng)(如由數(shù)據(jù)點(diǎn)210的垂直位置指示的)。由此,基于回歸線208,$1499電視機(jī)的平均聲音意見略小于七,但Minisonic的平均分?jǐn)?shù)是九。$1499電視機(jī)的平均聲音意見與Minisonic的平均評論之間的這一差別暗示了可作出的陳述=Minisonic電視機(jī)對于其價(jià)格而言具有尤其好的聲音質(zhì)量。(各種不同品牌的46-英寸1080p HDTV電視機(jī)在某種意義上是相同產(chǎn)品的不同版本,因此,它們可以與彼此進(jìn)行有意義的比較。)
基于諸如圖2中示出的一個(gè)分析等分析,可以作出關(guān)于產(chǎn)品或服務(wù)的陳述,并且可以將這些陳述提供給用戶。由此,圖3示出了包含關(guān)于產(chǎn)品或服務(wù)的陳述的示例用戶界面 300。用戶界面300可以是評論網(wǎng)站的網(wǎng)頁。在此示例中,被評論的產(chǎn)品是Minisonic 46-英寸1080p HDTV電視機(jī)。在該示例中,示出了用戶界面300、電視機(jī)的圖形302。另外地,有關(guān)電視機(jī)的各種陳述304、306、以及308被示為用戶界面300的一部分。例如,網(wǎng)站可以收集對電視機(jī)的評論并且提供用戶界面300,以便概括這些評論。有關(guān)Minisonic 46-英寸1080p HDTV電視機(jī),陳述304陳述了 “這個(gè)電視機(jī)對于其價(jià)格而言具有非常好的聲音”。該陳述可以基于圖2中示出的統(tǒng)計(jì)分析來作出,因?yàn)樵摲治鍪境隽讼鄬τ谙嗤瑑r(jià)格的電視機(jī)的平均或期望的意見用戶平均來說表達(dá)了非??隙ǖ?br>
JAL ο陳述306陳述了“這個(gè)電視機(jī)對于其價(jià)格而言具有某種程度上差的構(gòu)造質(zhì)量”。如圖1中描述的,至少一個(gè)評論者發(fā)現(xiàn)電視機(jī)非常快地散架,并且評論者的這一陳述通過信息提取器來確定,以指示該電視機(jī)具有低構(gòu)造質(zhì)量。如果若干用戶表達(dá)了 Minisonic電視機(jī)具有低構(gòu)造質(zhì)量,并且如果他們對Minisonic的平均評級比相同價(jià)格的電視機(jī)的平均評級低,則陳述306是對從評論中挖掘的信息的合理描述。陳述308陳述了“這個(gè)電視機(jī)對于其屏幕尺寸而言具有平均的圖像質(zhì)量”。如上所述,可以定義任何類型的分類的產(chǎn)品或服務(wù)。在陳述304和306中,電視機(jī)的價(jià)格定義了特定電視機(jī)與其作比較的分類。即,在陳述304和306中,Minisonic電視機(jī)正與相同價(jià)格的其他電視機(jī)作比較。然而,在陳述308中,Minisonic電視機(jī)正與共享特定物理特征(例如, 相同屏幕尺寸)的其他電視機(jī)作比較。例如,對于具有46-英寸屏幕尺寸的電視機(jī),平均圖像意見(在以上示例中的變量P)可以是六,并且Minisonic也可以具有平均圖像評級六。 在該情況下,陳述308正確地描述了相對于對46-英寸電視機(jī)的評論的對Minisonic的評論對于Minisonic的圖像質(zhì)量的平均意見與對于46-英寸電視機(jī)的平均意見總體上相同。圖4示出了其中可分析評論以及其中可作出關(guān)于產(chǎn)品或服務(wù)的陳述的示例過程。 在轉(zhuǎn)向圖4的描述之前,注意,參考圖1-3中所示的組件作為示例地描述了包含在圖4中的流程圖,盡管圖4的過程可以在任何系統(tǒng)中實(shí)現(xiàn),并且不限于圖1-3中示出的場景。另外地, 圖4中的流程圖示出了其中按特定順序來實(shí)現(xiàn)過程的各階段的一示例,如連接各框的線所示,但圖4中示出的各種階段可以按任何順序、或以任何組合或子組合來執(zhí)行。在圖4的過程中,存在要評估的一個(gè)或多個(gè)評論,以及存在提供者數(shù)據(jù)的一個(gè)或多個(gè)產(chǎn)品和/或服務(wù)。可以對每一評論執(zhí)行框402和404,并且可以對每一提供者數(shù)據(jù)片執(zhí)行框406和408。在402,可以對評論執(zhí)行文本分析。例如,可以評估評論的敘述部分以確定對于產(chǎn)品的屬性評論使用了哪些短語。分析尋找的特定類型的單詞和短語可以取決于產(chǎn)品。例如, 如果被評論的產(chǎn)品是電視機(jī),則一個(gè)人可以查找諸如“圖像”、“聲音”、“屏幕”、“機(jī)柜”等單詞,并且可以查找靠近這些單詞的特定形容詞或短語(例如,“極其清楚”、“朦朧”、“差”等
在404,基于文本分析來將數(shù)字分?jǐn)?shù)分配給一個(gè)或多個(gè)變量。例如,如果被評級的產(chǎn)品是電視機(jī),并且一個(gè)變量表示評論者對于圖像質(zhì)量的意見,則可以分配數(shù)字分?jǐn)?shù)以表示該意見。因此,如果用戶說,“這個(gè)電視機(jī)具有非常好的圖像”,則這一口頭表達(dá)的意見可以通過向圖像質(zhì)量變量分配一至十比例上的值七(其中,“非常好”可以是七,而“突出的” 可以是九或十)來表示。可以對要分析的每一評論執(zhí)行在402和404處執(zhí)行的動作。在406,對與要評估的每一產(chǎn)品或服務(wù)相關(guān)聯(lián)的提供者數(shù)據(jù)執(zhí)行文本分析。如以上結(jié)合圖1描述的,產(chǎn)品或服務(wù)的提供者可以提供表示各種基本數(shù)據(jù)項(xiàng)(例如,在電視機(jī)的案例中的價(jià)格和屏幕尺寸)的數(shù)據(jù)表,并且這些基本項(xiàng)可以從提供者的數(shù)據(jù)中挖掘。這一挖掘可以發(fā)生在406。某些所挖掘的數(shù)據(jù)可以是數(shù)字(例如,電視機(jī)的價(jià)格),但另一些數(shù)據(jù)可以是非數(shù)字的并且可以在408處被轉(zhuǎn)換成數(shù)字。例如,關(guān)于電視機(jī)的數(shù)據(jù)可以包括顯示器技術(shù)(例如,陰極射線、液晶、或等離子),并且這些不同的技術(shù)可以被分配諸如1、2和3 等數(shù)字以簡化對該數(shù)據(jù)的統(tǒng)計(jì)分析。在410,從評論中得出的一個(gè)(或多個(gè))變量與從提供者數(shù)據(jù)得出的一個(gè)(或多個(gè))變量之間的統(tǒng)計(jì)關(guān)系被標(biāo)識。圖2及其描述提供了可以在兩個(gè)變量之間確定的統(tǒng)計(jì)關(guān)系的示例。基于所發(fā)現(xiàn)的該統(tǒng)計(jì)關(guān)系,可以生成關(guān)于特定產(chǎn)品的陳述(在412)。如在先前示例中,如果對于$1499電視機(jī)的聲音質(zhì)量的平均意見是一至十比例上的七,但Minisonic 電視機(jī)的評級是九,則可以生成一陳述,說Minisonic電視機(jī)對于其價(jià)格而言具有非常好的聲音。在414,可以將這一陳述傳遞給用戶。例如,可以將該陳述并入用戶界面(諸如圖 3中所示的),并且可以將用戶界面?zhèn)鬟f給用戶的計(jì)算機(jī)以供在該計(jì)算機(jī)上顯示。圖5示出其中可部署此處所述的主題的各方面的示例環(huán)境。計(jì)算機(jī)500包括一個(gè)或多個(gè)處理器502和一個(gè)或多個(gè)數(shù)據(jù)備忘錄組件504。處理器502通常是微處理器,如那些在個(gè)人臺式機(jī)或膝上型計(jì)算機(jī)、服務(wù)器、手持式計(jì)算機(jī)或另一種計(jì)算設(shè)備中所找到的。數(shù)據(jù)備忘錄組件504是能夠短期或長期存儲數(shù)據(jù)的組件。數(shù)據(jù)備忘錄組件504的示例包括硬盤、可移動盤(包括光盤和磁盤)、易失性和非易失性隨機(jī)存取存儲器(RAM)、只讀存儲器(ROM)、閃存、磁帶等。數(shù)據(jù)備忘錄組件是計(jì)算機(jī)可讀存儲介質(zhì)的示例。計(jì)算機(jī)500可包括顯示器512或與其相關(guān)聯(lián),顯示器512可以是陰極射線管(CRT) 監(jiān)視器、液晶顯示(LCD)監(jiān)視器、或任何其他類型的監(jiān)視器。軟件可被存儲在數(shù)據(jù)備忘錄設(shè)備504中,且可在一個(gè)或多個(gè)處理器502上執(zhí)行。這種軟件的示例是評論分析軟件506,它可以實(shí)現(xiàn)上文中結(jié)合圖1-4所描述的部分或全部功能,但可以使用任何類型的軟件。軟件506可例如通過一個(gè)或多個(gè)組件來實(shí)現(xiàn),這些組件可以是分布式系統(tǒng)、單獨(dú)文件、單獨(dú)功能、單獨(dú)對象、單獨(dú)代碼行等中的組件。其中程序被存儲在硬盤上,加載到RAM中,并在計(jì)算機(jī)(例如個(gè)人計(jì)算機(jī)、服務(wù)器計(jì)算機(jī)、手持式計(jì)算機(jī)等) 的處理器上執(zhí)行的計(jì)算機(jī)代表了圖5所示的場景,但此處所述的主題不限于此示例。此處所述的主題可被實(shí)現(xiàn)為存儲在數(shù)據(jù)備忘錄組件504中的一個(gè)或多個(gè)中并在處理器502中的一個(gè)或多個(gè)上執(zhí)行的軟件。作為另一示例,本主題可以被實(shí)現(xiàn)為存儲在一個(gè)或多個(gè)計(jì)算機(jī)可讀存儲介質(zhì)上的指令。存儲介質(zhì)的示例是諸如光盤或磁盤之類的有形介質(zhì)。指令可以存在于非瞬態(tài)介質(zhì)。這些指令當(dāng)由計(jì)算機(jī)或其他機(jī)器執(zhí)行時(shí),可使得計(jì)算機(jī)或其他機(jī)器執(zhí)行方法的一個(gè)或多個(gè)動作。執(zhí)行動作的指令可被存儲在一個(gè)介質(zhì)上,或者可分散在多個(gè)介質(zhì)上,從而使得指令可共同出現(xiàn)在一個(gè)或多個(gè)計(jì)算機(jī)可讀存儲介質(zhì)上,而不管所有指令是否都在同一介質(zhì)上。
另外,此處所描述的任何動作(無論在圖中是否示出)可通過處理器(例如一個(gè)或多個(gè)處理器502)執(zhí)行來作為方法的一部分。因此,如果此處描述的是動作A、B和C,則可以執(zhí)行包括動作A、B和C的方法。此外,如果此處描述的是動作A、B和C,則可以執(zhí)行包括使用處理器來執(zhí)行動作A、B和C的方法。在一個(gè)示例環(huán)境中,計(jì)算機(jī)500可通過網(wǎng)絡(luò)508通信連接到一個(gè)或多個(gè)其他設(shè)備。 可在結(jié)構(gòu)上與計(jì)算機(jī)500類似的計(jì)算機(jī)510是可連接到計(jì)算機(jī)500的設(shè)備的示例,但也可以連接其他類型的設(shè)備。盡管用專門描述結(jié)構(gòu)特征和/或方法動作的語言描述了主題,但是應(yīng)當(dāng)理解,在后附權(quán)利要求書中限定的主題并不一定局限于上述特定的特征或動作。相反,上述具體特征和動作是作為實(shí)現(xiàn)權(quán)利要求的示例形式公開的。
權(quán)利要求
1.一種基于評論來提供陳述的方法,所述方法包括對產(chǎn)品(30 或服務(wù)的多個(gè)評論(10 執(zhí)行(40 第一文本分析; 基于所述第一文本分析,將值分配(404)給一個(gè)或多個(gè)第一變量(1對、1沈、1觀); 對由所述產(chǎn)品(30 或服務(wù)的提供者供應(yīng)的數(shù)據(jù)(104)執(zhí)行(406)第二文本分析; 基于所述第二文本分析,將值分配(408)給一個(gè)或多個(gè)第二變量(132、134); 標(biāo)識(410)第三變量與第四變量之間的關(guān)系002),其中所述第三變量是所述第一變量中的一個(gè),以及所述第四變量是所述第二變量中的一個(gè);以及生成(41 有關(guān)所述產(chǎn)品(30 或服務(wù)的一版本的陳述(304),其中所述陳述(304)將所述產(chǎn)品(30 或服務(wù)的所述版本與所述產(chǎn)品(30 或服務(wù)的其他版本作比較。
2.如權(quán)利要求1所述的方法,其特征在于,所述評論是對產(chǎn)品的評論。
3.如權(quán)利要求1所述的方法,其特征在于,所述評論是對服務(wù)的評論。
4.如權(quán)利要求1所述的方法,其特征在于,所述評論是對產(chǎn)品的評論,以及所述陳述將所述產(chǎn)品的第一版本與具有與所述產(chǎn)品的所述第一版本相同價(jià)格的所述產(chǎn)品的其他版本作比較。
5.如權(quán)利要求1所述的方法,其特征在于,所述評論是對產(chǎn)品的評論,以及所述陳述將所述產(chǎn)品的第一版本與同所述產(chǎn)品的所述第一版本共享物理特征的所述產(chǎn)品的其他版本作比較。
6.如權(quán)利要求1所述的方法,其特征在于,對所述關(guān)系的所述標(biāo)識包括 找出所述第三變量與所述第四變量之間的線性關(guān)系。
7.如權(quán)利要求1所述的一個(gè)或多個(gè)非瞬態(tài)計(jì)算機(jī)可讀介質(zhì),其特征在于,所述第一變量的每一個(gè)與所述產(chǎn)品或服務(wù)的屬性相對應(yīng),以及將值分配給所述一個(gè)或多個(gè)第一變量包括基于對所述評論的所述第一文本分析來將數(shù)字值分配給所述第一變量的每一個(gè)。
8.一種具有用于執(zhí)行權(quán)利要求1-7中任意一項(xiàng)的方法的計(jì)算機(jī)可執(zhí)行指令的計(jì)算機(jī)可讀介質(zhì)。
9.一種用于創(chuàng)建有關(guān)產(chǎn)品的陳述的系統(tǒng),所述系統(tǒng)包括 處理器(502);存儲器(504);以及分析組件(506),所述分析組件存儲在所述存儲器(504)中并且在所述處理器(502)上執(zhí)行,所述分析組件(506)對產(chǎn)品(302)的多個(gè)評論(10 執(zhí)行第一文本分析(40 并且對由所述產(chǎn)品(30 的提供者供應(yīng)的數(shù)據(jù)(104)執(zhí)行第二文本分析006),基于所述第一文本分析(40 來將值分配(404)給一個(gè)或多個(gè)第一變量(1對、1沈、1觀),基于所述第二文本分析(406)來將值分配(408)給一個(gè)或多個(gè)第二變量(132、134),標(biāo)識(410)作為所述第一變量(124、126、128)中的一個(gè)的第三變量與作為所述第二變量(132、134)中的一個(gè)的第四變量之間的關(guān)系002),并且生成(412)有關(guān)所述產(chǎn)品(302)的一版本的陳述(304),其中所述陳述(304)是基于所述產(chǎn)品(30 的所述版本的所述第三變量的值與從有關(guān)所述產(chǎn)品(302)的一組版本的信息中得出的所述第三變量的值的比較,其中所述產(chǎn)品(302)的該組版本包括所述產(chǎn)品(302)的所述版本以及所述產(chǎn)品(30 的其他版本。
10.如權(quán)利要求9所述的系統(tǒng),其特征在于,所述陳述將所述產(chǎn)品的第一版本與具有與所述產(chǎn)品的所述第一版本相同價(jià)格的所述產(chǎn)品的其他版本作比較。
11.如權(quán)利要求9所述的系統(tǒng),其特征在于,所述陳述將所述產(chǎn)品的第一版本與同所述產(chǎn)品的所述第一版本共享物理特征的所述產(chǎn)品的其他版本作比較。
12.如權(quán)利要求9所述的系統(tǒng),其特征在于,所述陳述包括將所述產(chǎn)品的所述版本與所述產(chǎn)品的其他版本作比較。
13.如權(quán)利要求9所述的系統(tǒng),其特征在于,所述分析組件通過找出所述第三變量與所述第四變量之間的線性關(guān)系來標(biāo)識所述關(guān)系。
14.如權(quán)利要求9所述的系統(tǒng),其特征在于,所述第一變量的每一個(gè)與所述產(chǎn)品或服務(wù)的屬性相對應(yīng),以及所述分析組件通過基于對所述評論的所述第一文本分析將數(shù)字值分配給所述第一變量的每一個(gè)來將值分配給所述一個(gè)或多個(gè)第一變量。
15.如權(quán)利要求9所述的系統(tǒng),其特征在于,所述分析組件將所述陳述傳遞給用戶。
全文摘要
公開了從產(chǎn)品或服務(wù)評論中得出陳述。可以分析對產(chǎn)品的評述,以及可以基于該分析作出關(guān)于產(chǎn)品的陳述。非專業(yè)評論(例如,由那些產(chǎn)品的普通消費(fèi)者撰寫的對產(chǎn)品的評論)常常難以解釋,因?yàn)椴煌u論者可以應(yīng)用不同標(biāo)準(zhǔn)。當(dāng)大量評論可用時(shí),可以在統(tǒng)計(jì)上分析這些評論以作出關(guān)于所評論的產(chǎn)品或服務(wù)的比較性陳述??梢韵蛟u論中所表達(dá)的意見分配數(shù)值??梢栽诮y(tǒng)計(jì)上分析特定產(chǎn)品或產(chǎn)品類別的這些數(shù)值,以確定關(guān)于特定產(chǎn)品的意見與關(guān)于較大產(chǎn)品類別的意見相比是怎樣的。使用這一分析,可以作出諸如“與相同價(jià)格的其他電視機(jī)相比,這個(gè)電視機(jī)具有非常好的圖像質(zhì)量”的陳述。
文檔編號G06F17/30GK102214201SQ20111009439
公開日2011年10月12日 申請日期2011年4月7日 優(yōu)先權(quán)日2010年4月8日
發(fā)明者J·R·哈特, J·S·沃迪卡, Y·陳 申請人:微軟公司