本公開涉及一種數(shù)據(jù)處理方法及其設(shè)備。
背景技術(shù):
隨著電子商務(wù)技術(shù)和互聯(lián)網(wǎng)技術(shù)的發(fā)展,用戶可以通過多種渠道對其關(guān)注的企業(yè)或者產(chǎn)品發(fā)布評價(jià),這些評論一般會(huì)涉及企業(yè)或者產(chǎn)品的多個(gè)主題,如何對這些海量的評論語料進(jìn)行處理,識(shí)別出評論語料的主題,對輿情分析有非常重要的指導(dǎo)意義。
在實(shí)現(xiàn)本公開的過程中,發(fā)明人發(fā)現(xiàn)現(xiàn)有技術(shù)中至少存在如下問題,面對海量的語料,難以準(zhǔn)確地識(shí)別出評論語料的主題。
針對相關(guān)技術(shù)中的上述問題,目前還未提出有效的解決方案。
技術(shù)實(shí)現(xiàn)要素:
有鑒于此,本公開提供了一種數(shù)據(jù)處理方法、數(shù)據(jù)處理系統(tǒng)及數(shù)據(jù)處理設(shè)備。
本公開的一個(gè)方面提供了一種數(shù)據(jù)處理方法,包括:獲取語料數(shù)據(jù),其中,與上述語料數(shù)據(jù)對應(yīng)的語料包含至少一個(gè)語句;基于上述語料數(shù)據(jù)對上述語料進(jìn)行分句處理,以得到至少一個(gè)語句數(shù)據(jù),其中,每個(gè)語句數(shù)據(jù)對應(yīng)的語句包含一個(gè)或者多個(gè);基于分句處理結(jié)果,確定上述至少一個(gè)語句數(shù)據(jù)中第一語句數(shù)據(jù)包含的主題詞集合;以及按照預(yù)設(shè)規(guī)則從上述主題詞集合中選出滿足預(yù)設(shè)條件的主題詞作為上述第一語句數(shù)據(jù)的主題詞。
可選地,基于上述語料數(shù)據(jù)對上述語料進(jìn)行分句處理,以得到至少一個(gè)語句數(shù)據(jù)包括:確定上述語料的語料來源,其中,不同的語料來源對應(yīng)于不同的語料分句處理規(guī)則;基于確定出的語料來源,獲取用于對上述語料的第一語料進(jìn)行分句處理的規(guī)則;以及基于上述第一語料分句處理規(guī)則和上述語料數(shù)據(jù)對上述語料進(jìn)行分句處理,以得到至少一個(gè)語句數(shù)據(jù)。
可選地,確定上述至少一個(gè)語句數(shù)據(jù)中第一語句數(shù)據(jù)包含的主題詞集合包括:從上述至少一個(gè)語句數(shù)據(jù)中確定出關(guān)鍵句,其中,上述關(guān)鍵句根據(jù)上述至少一個(gè)語句數(shù)據(jù)中各語句數(shù)據(jù)之間的相似度確定;分析獲取上述關(guān)鍵句包含的主題詞集合,以及按照預(yù)設(shè)規(guī)則從上述主題詞集合中選出滿足預(yù)設(shè)條件的主題詞作為上述第一語句數(shù)據(jù)的主題詞包括:按照主題詞權(quán)重值的大小從上述關(guān)鍵句包含的主題詞集合中選出權(quán)重值最高的主題詞作為上述關(guān)鍵句的主題詞。
可選地,當(dāng)確定上述至少一個(gè)語句數(shù)據(jù)中的第二語句數(shù)據(jù)不是上述關(guān)鍵句時(shí),確定上述第二語句數(shù)據(jù)的主題詞集合;獲取與上述第二語句數(shù)據(jù)相鄰的第三語句數(shù)據(jù)的主題詞;若上述第二語句數(shù)據(jù)的主題詞集合包含上述第三語句的主題詞,則將上述第三語句數(shù)據(jù)的主題詞作為上述第二語句的主題詞;或者若上述第二語句數(shù)據(jù)的主題詞集合不包含上述第三語句的主題詞,則按照主題詞權(quán)重值的大小從上述第二語句數(shù)據(jù)的主題詞集合中選出權(quán)重值最高的主題詞作為上述第二語句數(shù)據(jù)的主題詞。
可選地,若上述第二語句數(shù)據(jù)的主題詞集合為空集,則將上述第三語句數(shù)據(jù)的主題詞作為上述第二語句的主題詞,或按照主題詞權(quán)重值的大小從上述第三語句數(shù)據(jù)的主題詞集合中選出權(quán)重值最高的主題詞作為上述第二語句數(shù)據(jù)的主題詞。
可選地,當(dāng)上述第二語句數(shù)據(jù)為上述關(guān)鍵句的相鄰句時(shí),上述第三語句數(shù)據(jù)為上述關(guān)鍵句。
本公開的另一個(gè)方面提供了一種數(shù)據(jù)處理系統(tǒng),包括:獲取模塊,用于獲取語料數(shù)據(jù),其中,與上述語料數(shù)據(jù)對應(yīng)的語料包含至少一個(gè)語句;處理模塊,用于基于上述語料數(shù)據(jù)對上述語料進(jìn)行分句處理,以得到至少一個(gè)語句數(shù)據(jù),其中,每個(gè)語句數(shù)據(jù)對應(yīng)的語句包含一個(gè)或者多個(gè);確定模塊,用于確定上述至少一個(gè)語句數(shù)據(jù)中第一語句數(shù)據(jù)包含的主題詞集合;以及選擇模塊,用于按照預(yù)設(shè)規(guī)則從上述主題詞集合中選出滿足預(yù)設(shè)條件的主題詞作為上述第一語句數(shù)據(jù)的主題詞。
可選地,上述處理模塊包括:第一確定單元,用于確定上述語料的語料來源,其中,不同的語料來源對應(yīng)于不同的語料分句處理規(guī)則;第一獲取單元,用于基于確定出的語料來源,獲取用于對上述語料的第一語料進(jìn)行分句處理的規(guī)則;以及處理單元,用于基于上述第一語料分句處理規(guī)則和上述語料數(shù)據(jù)對上述語料進(jìn)行分句處理,以得到至少一個(gè)語句數(shù)據(jù)。
可選地,上述確定模塊包括:第二確定單元,用于從上述至少一個(gè)語句數(shù)據(jù)中確定出關(guān)鍵句,其中,上述關(guān)鍵句根據(jù)上述至少一個(gè)語句數(shù)據(jù)中各語句數(shù)據(jù)之間的相似度確定;第二獲取單元,用于分析獲取上述關(guān)鍵句包含的主題詞集合,以及上述選擇模塊,還用于按照主題詞權(quán)重值的大小從上述關(guān)鍵句包含的主題詞集合中選出權(quán)重值最高的主題詞作為上述關(guān)鍵句的主題詞。
本公開的另一個(gè)方面還提供了一種數(shù)據(jù)處理設(shè)備,包括:一個(gè)或多個(gè)存儲(chǔ)器,用于存儲(chǔ)可執(zhí)行指令;以及一個(gè)或多個(gè)處理器,用于執(zhí)行上述可執(zhí)行指令,以實(shí)現(xiàn)任一項(xiàng)上述的數(shù)據(jù)處理方法。
附圖說明
通過以下參照附圖對本公開實(shí)施例的描述,本公開的上述以及其他目的、特征和優(yōu)點(diǎn)將更為清楚,在附圖中:
圖1示意性示出了根據(jù)本公開實(shí)施例的可以應(yīng)用數(shù)據(jù)處理方法的示例性系統(tǒng)架構(gòu);
圖2示意性示出了根據(jù)本公開實(shí)施例的數(shù)據(jù)處理方法的流程圖;
圖3示意性示出了根據(jù)本公開實(shí)施例基于語料數(shù)據(jù)對語料進(jìn)行分句處理,以得到至少一個(gè)語句數(shù)據(jù)的流程圖;
圖4示意性示出了根據(jù)本公開實(shí)施例的數(shù)據(jù)處理系統(tǒng)的框圖;
圖5示意性示出了根據(jù)本公開實(shí)施例的處理模塊的框圖;以及
圖6示意性示出了應(yīng)用本公開實(shí)施例的適于實(shí)現(xiàn)數(shù)據(jù)處理方法的計(jì)算機(jī)系統(tǒng)的框圖。
具體實(shí)施方式
以下,將參照附圖來描述本公開的實(shí)施例。但是應(yīng)該理解,這些描述只是示例性的,而并非要限制本公開的范圍。此外,在以下說明中,省略了對公知結(jié)構(gòu)和技術(shù)的描述,以避免不必要地混淆本公開的概念。
在此使用的術(shù)語僅僅是為了描述具體實(shí)施例,而并非意在限制本公開。這里使用的詞語“一”、“一個(gè)(種)”和“該”等也應(yīng)包括“多個(gè)”、“多種”的意思,除非上下文另外明確指出。此外,在此使用的術(shù)語“包括”、“包含”等表明了上述特征、步驟、操作和/或部件的存在,但是并不排除存在或添加一個(gè)或多個(gè)其他特征、步驟、操作或部件。
在此使用的所有術(shù)語(包括技術(shù)和科學(xué)術(shù)語)具有本領(lǐng)域技術(shù)人員通常所理解的含義,除非另外定義。應(yīng)注意,這里使用的術(shù)語應(yīng)解釋為具有與本說明書的上下文相一致的含義,而不應(yīng)以理想化或過于刻板的方式來解釋。
附圖中示出了一些方框圖和/或流程圖。應(yīng)理解,方框圖和/或流程圖中的一些方框或其組合可以由計(jì)算機(jī)程序指令來實(shí)現(xiàn)。這些計(jì)算機(jī)程序指令可以提供給通用計(jì)算機(jī)、專用計(jì)算機(jī)或其他可編程數(shù)據(jù)處理裝置的處理器,從而這些指令在由該處理器執(zhí)行時(shí)可以創(chuàng)建用于實(shí)現(xiàn)這些方框圖和/或流程圖中所說明的功能/操作的裝置。
因此,本公開的技術(shù)可以硬件和/或軟件(包括固件、微代碼等)的形式來實(shí)現(xiàn)。另外,本公開的技術(shù)可以采取存儲(chǔ)有指令的計(jì)算機(jī)可讀介質(zhì)上的計(jì)算機(jī)程序產(chǎn)品的形式,該計(jì)算機(jī)程序產(chǎn)品可供指令執(zhí)行系統(tǒng)使用或者結(jié)合指令執(zhí)行系統(tǒng)使用。在本公開的上下文中,計(jì)算機(jī)可讀介質(zhì)可以是能夠包含、存儲(chǔ)、傳送、傳播或傳輸指令的任意介質(zhì)。例如,計(jì)算機(jī)可讀介質(zhì)可以包括但不限于電、磁、光、電磁、紅外或半導(dǎo)體系統(tǒng)、裝置、器件或傳播介質(zhì)。計(jì)算機(jī)可讀介質(zhì)的具體示例包括:磁存儲(chǔ)裝置,如磁帶或硬盤(hdd);光存儲(chǔ)裝置,如光盤(cd-rom);存儲(chǔ)器,如隨機(jī)存取存儲(chǔ)器(ram)或閃存;和/或有線/無線通信鏈路。
本公開的實(shí)施例提供了一種數(shù)據(jù)處理方法及其設(shè)備。該方法包括數(shù)據(jù)獲取階段和數(shù)據(jù)處理階段。在數(shù)據(jù)獲取階段,既需要獲取不同來源的語料數(shù)據(jù),也需要獲取這些語料數(shù)據(jù)的來源信息。在完成數(shù)據(jù)獲取之后,進(jìn)入數(shù)據(jù)處理階段,此時(shí)可以基于獲取的語料數(shù)據(jù)和語料數(shù)據(jù)的來源對語料進(jìn)行分句處理,得到至少一個(gè)語句數(shù)據(jù),基于分句處理結(jié)果,確定至少一個(gè)語句數(shù)據(jù)中第一語句數(shù)據(jù)包含的主題詞集合,按照預(yù)設(shè)規(guī)則從主題詞集合中選出滿足預(yù)設(shè)條件的主題詞作為第一語句數(shù)據(jù)的主題詞。
圖1示意性示出了根據(jù)本公開實(shí)施例的可以應(yīng)用數(shù)據(jù)處理方法的示例性系統(tǒng)架構(gòu)。
如圖1所示,根據(jù)該實(shí)施例的系統(tǒng)架構(gòu)100可以包括終端設(shè)備101、102、103,網(wǎng)絡(luò)104和服務(wù)器105。網(wǎng)絡(luò)104用以在終端設(shè)備101、102、103和服務(wù)器105之間提供通信鏈路的介質(zhì)。網(wǎng)絡(luò)104可以包括各種連接類型,例如有線、無線通信鏈路或者光纖電纜等等。
用戶可以使用終端設(shè)備101、102、103通過網(wǎng)絡(luò)104與服務(wù)器105交互,以接收或發(fā)送消息等。終端設(shè)備101、102、103上可以安裝有各種通訊客戶端應(yīng)用,例如購物類應(yīng)用、網(wǎng)頁瀏覽器應(yīng)用、搜索類應(yīng)用、即時(shí)通信工具、郵箱客戶端、社交平臺(tái)軟件等(僅為示例)。
終端設(shè)備101、102、103可以是具有顯示屏并且支持網(wǎng)頁瀏覽的各種電子設(shè)備,包括但不限于智能手機(jī)、平板電腦、膝上型便攜計(jì)算機(jī)和臺(tái)式計(jì)算機(jī)等等。
服務(wù)器105可以是提供各種服務(wù)的服務(wù)器,例如對用戶利用終端設(shè)備101、102、103所瀏覽的網(wǎng)站提供支持的后臺(tái)管理服務(wù)器(僅為示例)。后臺(tái)管理服務(wù)器可以對接收到的用戶請求等數(shù)據(jù)進(jìn)行分析等處理,并將處理結(jié)果(例如根據(jù)用戶請求獲取或生成的網(wǎng)頁、信息、或數(shù)據(jù)等)反饋給終端設(shè)備。
應(yīng)該理解,圖1中的終端設(shè)備、網(wǎng)絡(luò)和服務(wù)器的數(shù)目僅僅是示意性的。根據(jù)實(shí)現(xiàn)需要,可以具有任意數(shù)目的終端設(shè)備、網(wǎng)絡(luò)和服務(wù)器。
需要說明的是,本公開實(shí)施例所提供的數(shù)據(jù)處理方法一般可以由服務(wù)器105執(zhí)行。相應(yīng)地,本公開實(shí)施例所提供的數(shù)據(jù)處理系統(tǒng)一般可以設(shè)置于服務(wù)器105中。本公開實(shí)施例所提供的數(shù)據(jù)處理方法也可以由不同于服務(wù)器105且能夠與終端設(shè)備101、102、103和/或服務(wù)器105通信的服務(wù)器或服務(wù)器集群執(zhí)行。相應(yīng)地,本公開實(shí)施例所提供的數(shù)據(jù)處理系統(tǒng)也可以設(shè)置于不同于服務(wù)器105且能夠與終端設(shè)備101、102、103和/或服務(wù)器105通信的服務(wù)器或服務(wù)器集群中。
隨著電子商務(wù)技術(shù)和互聯(lián)網(wǎng)技術(shù)的發(fā)展,用戶可以通過多種渠道對其關(guān)注的企業(yè)或者產(chǎn)品發(fā)布評價(jià),這些評論一般會(huì)涉及企業(yè)或者產(chǎn)品的多個(gè)主題,業(yè)務(wù)部門對產(chǎn)品輿情分為很多個(gè)關(guān)注主題,識(shí)別一篇用戶評論語料的特定主題是一個(gè)難點(diǎn),如何對這些海量的評論語料進(jìn)行處理,準(zhǔn)確識(shí)別出評論語料的主題,對輿情分析有非常重要的指導(dǎo)意義。
本公開的實(shí)施例提供了一種數(shù)據(jù)處理方法及其系統(tǒng),該方法包括:獲取語料數(shù)據(jù),其中,與語料數(shù)據(jù)對應(yīng)的語料包含至少一個(gè)語句;基于語料數(shù)據(jù)對語料進(jìn)行分句處理,以得到至少一個(gè)語句數(shù)據(jù),其中,每個(gè)語句數(shù)據(jù)對應(yīng)的語句包含一個(gè)或者多個(gè);基于分句處理結(jié)果,確定至少一個(gè)語句數(shù)據(jù)中第一語句數(shù)據(jù)包含的主題詞集合;以及按照預(yù)設(shè)規(guī)則從主題詞集合中選出滿足預(yù)設(shè)條件的主題詞作為第一語句數(shù)據(jù)的主題詞。
本公開的實(shí)施例提供了一種數(shù)據(jù)處理方法。
圖2示意性示出了根據(jù)本公開實(shí)施例的數(shù)據(jù)處理方法的流程圖。
如圖2所示,該數(shù)據(jù)處理方法可以包括操作s201~s204,其中:
在操作s201,獲取語料數(shù)據(jù),其中,與語料數(shù)據(jù)對應(yīng)的語料包含至少一個(gè)語句。
需要說明的是,語料是語言學(xué)范疇的概念,通常也稱為文本,語料數(shù)據(jù)是與語料相關(guān)的數(shù)據(jù),每個(gè)語料都有自己的語料數(shù)據(jù),其中,語料數(shù)據(jù)包括但不限于用戶評論的文本信息,評論的渠道、長短和類型,評論的主題等等,例如語料可以包括但不限于用戶通過多種渠道對其關(guān)注的企業(yè)或者產(chǎn)品發(fā)布的評論信息,發(fā)布渠道可以包括但不限于購買商品的電商網(wǎng)站、各論壇發(fā)帖、各門戶網(wǎng)站等,在此不做限定。這些評論信息可以涉及產(chǎn)品或者企業(yè)的一個(gè)或者多個(gè)主題,例如用戶在某電商平臺(tái)購買一款手機(jī),與手機(jī)相關(guān)的主題可以包括但不限于手機(jī)的屏幕、電池、外觀、系統(tǒng)等等。用戶發(fā)布的評論信息包含一個(gè)或多個(gè)語句,在此不做限定。一般情況下,用戶對某一主題的評論內(nèi)容一般具有一定的邏輯性。換言之,用戶在發(fā)布評論時(shí)通常都會(huì)圍繞一個(gè)主題來展開評論,可能有3種情況:情況1,圍繞首句展開評論;情況2,圍繞中間句展開評論;情況3,圍繞尾句展開評論。
獲取評論數(shù)據(jù)可以包括多種方式/手段,在此不做限定。例如可以通過爬蟲軟件,匯總產(chǎn)品的各電商評論、論壇主貼、各門戶網(wǎng)站新聞等評論數(shù)據(jù)。
在操作s202,基于語料數(shù)據(jù)對語料進(jìn)行分句處理,以得到至少一個(gè)語句數(shù)據(jù),其中,每個(gè)語句數(shù)據(jù)對應(yīng)的語句包含一個(gè)或者多個(gè)。
需要說明的是,每個(gè)語料數(shù)據(jù)對應(yīng)的語句包含一個(gè)或者多個(gè)語句,對語料數(shù)據(jù)進(jìn)行分句處理,得到一個(gè)或多個(gè)語句數(shù)據(jù),以下將以分句后包含5個(gè)語句的語料數(shù)據(jù)為例對本公開的實(shí)施例進(jìn)行說明,并非對本公開的限定。將該語料數(shù)據(jù)表示為句1、句2、句3、句4、句5的形式,其中,句1是整個(gè)語料數(shù)據(jù)的首句,句5為整個(gè)語料數(shù)據(jù)的尾句,句2、句3和句4這三句為整個(gè)語料數(shù)據(jù)的中間句,且句1、句2、句3、句4和句5互為鄰句的關(guān)系,如句2為句1的右鄰句,句2為句3的左鄰句。
在操作s203,基于分句處理結(jié)果,確定至少一個(gè)語句數(shù)據(jù)中第一語句數(shù)據(jù)包含的主題詞集合。
需要說明的是,在獲取語料數(shù)據(jù)之后,根據(jù)獲取的語料數(shù)據(jù),構(gòu)建產(chǎn)品的各主題以及主題映射詞典,主題詞典的內(nèi)容為特定主題下的主題詞以及該主題詞與主題的權(quán)重,其中,構(gòu)建主題詞典可以包括多種方式/手段,在此不做限定。例如可以使用文本聚類和卡方選詞的方法離線構(gòu)建主題詞映射詞典?;诜志涮幚斫Y(jié)果,確定至少一個(gè)語句數(shù)據(jù)中第一語句數(shù)據(jù)包含的主題詞集合,例如基于分句處理結(jié)果,根據(jù)主題詞典,對分句后的得到的5個(gè)語句中的第一語句數(shù)據(jù),例如可以是句1,通過命中主題詞權(quán)重的方式確定句1包含的主題詞集合1。
在操作s204,按照預(yù)設(shè)規(guī)則從主題詞集合中選出滿足預(yù)設(shè)條件的主題詞作為第一語句數(shù)據(jù)的主題詞。
需要說明的是,在獲得第一語句數(shù)據(jù)的主題詞集合后,按照預(yù)設(shè)規(guī)則從主題詞集合中選出滿足預(yù)設(shè)條件的主題詞作為第一語句的主題詞。例如可以是從句1包含的主題詞集合1中選出滿足預(yù)設(shè)條件的主題詞作為句1的主題詞,最終根據(jù)各句確定的主題,得到各主題對應(yīng)的分句語料。
通過本公開的實(shí)施例,對語料數(shù)據(jù)進(jìn)行分句處理,確定至少一個(gè)語句數(shù)據(jù)中第一語句數(shù)據(jù)包含的主題詞集合,按照預(yù)設(shè)規(guī)則從中選出滿足預(yù)設(shè)條件的主題詞作為第一語句的主題詞,可以實(shí)現(xiàn)準(zhǔn)確識(shí)別出評論語料的主題的技術(shù)效果。
圖3示意性示出了根據(jù)本公開實(shí)施例基于語料數(shù)據(jù)對語料進(jìn)行分句處理,以得到至少一個(gè)語句數(shù)據(jù)的流程圖。
如圖3所示,基于語料數(shù)據(jù)對語料進(jìn)行分句處理,以得到至少一個(gè)語句數(shù)據(jù)可以包括操作s301~s304,其中:
在操作s301,確定語料的語料來源,其中,不同的語料來源對應(yīng)于不同的語料分句處理規(guī)則。
在操作s302,基于確定出的語料來源,獲取用于對語料的第一語料進(jìn)行分句處理的規(guī)則。
在操作s303,基于第一語料分句處理規(guī)則和語料數(shù)據(jù)對語料進(jìn)行分句處理,以得到至少一個(gè)語句數(shù)據(jù)。
需要說明的是,通過獲取的語料數(shù)據(jù),確定語料的語料來源,針對不同的語料來源,將會(huì)有不同的語料分句處理規(guī)則,例如,電商網(wǎng)站評論采用短句的劃分邏輯,新聞?wù)Z料采用長句的劃分邏輯等,在此不做限定?;讷@取的語料處理規(guī)則和語料數(shù)據(jù)對語料進(jìn)行分句處理,得到至少一個(gè)語句數(shù)據(jù),例如可以是將電商網(wǎng)站的評論按照短句處理規(guī)則得到5個(gè)語句,將該語料數(shù)據(jù)表示為句1、句2、句3、句4、句5的形式。
通過本公開的實(shí)施例,針對不同數(shù)據(jù)源,不同的文本長度和類型,采用不同的分句邏輯,充分考慮語料的主題覆蓋情況,描述連貫性,以及語料中各語句之間關(guān)系等因素的綜合考量,得到較為理想的主題分句結(jié)果,給后續(xù)分析挖掘用戶評論的特定模式規(guī)律奠定了良好的數(shù)據(jù)基礎(chǔ)。
根據(jù)本公開實(shí)施例,確定至少一個(gè)語句數(shù)據(jù)中第一語句數(shù)據(jù)包含的主題詞集合包括:從至少一個(gè)語句數(shù)據(jù)中確定出關(guān)鍵句,其中,關(guān)鍵句根據(jù)至少一個(gè)語句數(shù)據(jù)中各語句數(shù)據(jù)之間的相似度確定;分析獲取關(guān)鍵句包含的主題詞集合,以及按照預(yù)設(shè)規(guī)則從主題詞集合中選出滿足預(yù)設(shè)條件的主題詞作為第一語句數(shù)據(jù)的主題詞包括:按照主題詞權(quán)重值的大小從關(guān)鍵句包含的主題詞集合中選出權(quán)重值最高的主題詞作為關(guān)鍵句的主題詞。
需要說明的是,確定關(guān)鍵句可以包括多種方法/方式,在此不做限定。例如可以通過網(wǎng)頁排序(簡稱為pagerank)算法、文本排序(簡稱為textrank)算法識(shí)別出關(guān)鍵句,具體地,對語料數(shù)據(jù)進(jìn)行分句處理后得到的5個(gè)語句,構(gòu)建這5個(gè)語句之間的語句關(guān)系圖,并采用基于pagerank算法計(jì)算關(guān)系圖中5個(gè)語句之間的相似度,比較每個(gè)句子和其他句子的相似度值,如可以是兩個(gè)語句之間的距離,將和其余語句的相似度較高的那個(gè)語句確定5個(gè)語句中的關(guān)鍵句。具體地,關(guān)鍵句確定結(jié)果可以包括3種情況:情況1,句1為關(guān)鍵句;情況2,句2、句3或句4中的任意一句為關(guān)鍵句;情況3,句5為關(guān)鍵句。
在識(shí)別出關(guān)鍵句之后,將關(guān)鍵句映射到離線構(gòu)建好的主題詞典,得到關(guān)鍵句中包含的主題詞集合以及各主題詞與主題的權(quán)重值,并按照權(quán)重值的大小對主題中的各個(gè)主題詞進(jìn)行排序,選出權(quán)重值最高的主題詞作為關(guān)鍵句的主題詞。
通過本公開的實(shí)施例,從至少一個(gè)語句數(shù)據(jù)中確定出關(guān)鍵句,充分考慮語料包含的各語句之間的關(guān)系,將關(guān)鍵句包含的主題詞集合中權(quán)重值最高的主題詞作為關(guān)鍵句的主題詞,得到較為理想的主題詞識(shí)別結(jié)果。
根據(jù)本公開實(shí)施例,當(dāng)確定至少一個(gè)語句數(shù)據(jù)中的第二語句數(shù)據(jù)不是關(guān)鍵句時(shí),確定第二語句數(shù)據(jù)的主題詞集合;獲取與第二語句數(shù)據(jù)相鄰的第三語句數(shù)據(jù)的主題詞;若第二語句數(shù)據(jù)的主題詞集合包含第三語句的主題詞,則將第三語句數(shù)據(jù)的主題詞作為第二語句的主題詞;或者若第二語句數(shù)據(jù)的主題詞集合不包含第三語句的主題詞,則按照主題詞權(quán)重值的大小從第二語句數(shù)據(jù)的主題詞集合中選出權(quán)重值最高的主題詞作為第二語句數(shù)據(jù)的主題詞。
根據(jù)本公開實(shí)施例,若第二語句數(shù)據(jù)的主題詞集合為空集,則將第三語句數(shù)據(jù)的主題詞作為第二語句的主題詞,或按照主題詞權(quán)重值的大小從第三語句數(shù)據(jù)的主題詞集合中選出權(quán)重值最高的主題詞作為第二語句數(shù)據(jù)的主題詞。
根據(jù)本公開實(shí)施例,當(dāng)?shù)诙Z句數(shù)據(jù)為關(guān)鍵句的相鄰句時(shí),第三語句數(shù)據(jù)為關(guān)鍵句。
需要說明的是,對應(yīng)于關(guān)鍵句在語料數(shù)據(jù)中的3種情況,第二語句的主題詞確定方法也可以包括以下3種情況:
情況1,在句1為關(guān)鍵句的情況下,句2、句3、句4和句5都可以是第二語句,確定句2的主題詞集合,如果句2的主題詞集合包含關(guān)鍵句的主題詞,則句2的主題詞為關(guān)鍵句的主題詞;在句2的主題詞為關(guān)鍵句的主題詞的情況下,確定句3的主題詞集合,如果句3的主題詞集合包含關(guān)鍵句的主題詞,則句3的主題詞為關(guān)鍵句的主題詞;以此類推,確定句4、句5的主題詞,在此不再贅述。
如果句2的主題詞集合不包含關(guān)鍵句的主題詞,則從句2的主題詞集合中選擇權(quán)重值最高的主題詞作為句2的主題詞,確定句3的主題詞集合,如果句3的主題詞集合不包含句2的主題詞集合中選擇權(quán)重值最高的主題詞,則從句3的主題詞集合中選擇權(quán)重值最高的主題詞作為句2的主題詞,以此類推,確定句4、句5的主題詞,在此不再贅述。
如果句2的主題詞集合為空集,則句2的主題詞為關(guān)鍵句的主題詞,以此類推,確定句3、句4、句5的主題詞,在此不再贅述。
情況2,在句2為關(guān)鍵句的情況下,與句2相鄰的句1或者句3可以是第二語句,同理,在句3為關(guān)鍵句的情況下,句2或者句4可以是第二語句,在句4為關(guān)鍵句的情況下,句3或者句5可以是第二語句,以下以句3為關(guān)鍵句說明。在句3為關(guān)鍵句的情況下,確定與句3左鄰的句2或者右鄰的句4的主題詞集合,如果句2或者句4的主題詞集合包含句3的主題詞,則句2或者句4的主題詞為句3的主題詞,同理確定句1和句5的主題詞,在此不再贅述。
如果句2或者句4的主題詞集合不包含句3的主題詞,則從句2或者句4的主題詞集合中選擇權(quán)重值最高的主題詞作為句2或者句4的主題詞,同理確定句1和句5的主題詞,在此不再贅述。
如果句2或者句4的主題詞集合為空集,則句2或者句4的主題詞為關(guān)鍵句的主題詞,同理確定句1和句5的主題詞,在此不再贅述。
在句3和句4為關(guān)鍵句的情況下,其他句的主題詞確定方法同句2為關(guān)鍵句的情況下,其他句的主題詞確定方法,在此不再贅述。
情況3,在句5為關(guān)鍵句的情況下,其他句主題詞的確定方法同句1為關(guān)鍵句的情況時(shí),其他句主題詞的確定方法,在此不再贅述。
通過本公開的實(shí)施例,從至少一個(gè)語句中識(shí)別出關(guān)鍵句,確定出關(guān)鍵句的主題詞,獲得與關(guān)鍵句在語料中位置相鄰的語句的主題詞集合,基于關(guān)鍵句的主題詞和鄰句的主題詞集合,根據(jù)預(yù)設(shè)規(guī)則確定出鄰句的主題詞,依次迭代,最終確定出各句的主題,得到各主題對應(yīng)的分句語料,各語句在主題詞的確定過程中,充分考慮語料描述的連貫性和主題覆蓋情況,使得主題詞識(shí)別結(jié)果可靠性更高。
本公開的實(shí)施例還提供了一種能夠用于執(zhí)行數(shù)據(jù)處理方法的數(shù)據(jù)處理系統(tǒng)。
圖4示意性示出了根據(jù)本公開實(shí)施例的數(shù)據(jù)處理系統(tǒng)的框圖。
如圖4所示,該數(shù)據(jù)處理設(shè)備包括:獲取模塊410、處理模塊420、確定模塊430、選擇模塊440。
獲取模塊410用于獲取語料數(shù)據(jù),其中,與語料數(shù)據(jù)對應(yīng)的語料包含至少一個(gè)語句。
處理模塊420用于基于語料數(shù)據(jù)對語料進(jìn)行分句處理,以得到至少一個(gè)語句數(shù)據(jù),其中,每個(gè)語句數(shù)據(jù)對應(yīng)的語句包含一個(gè)或者多個(gè)。
確定模塊430用于確定至少一個(gè)語句數(shù)據(jù)中第一語句數(shù)據(jù)包含的主題詞集合。
選擇模塊440用于按照預(yù)設(shè)規(guī)則從主題詞集合中選出滿足預(yù)設(shè)條件的主題詞作為第一語句數(shù)據(jù)的主題詞。
需要說明的是,語料是語言學(xué)范疇的概念,通常也稱為文本,語料數(shù)據(jù)是與語料相關(guān)的數(shù)據(jù),每個(gè)語料都有自己的語料數(shù)據(jù),其中,語料數(shù)據(jù)包括但不限于用戶評論的文本信息,評論的渠道、長短和類型,評論的主題等等,例如語料可以包括但不限于用戶通過多種渠道對其關(guān)注的企業(yè)或者產(chǎn)品發(fā)布的評論信息,發(fā)布渠道可以包括但不限于購買商品的電商網(wǎng)站、各論壇發(fā)帖、各門戶網(wǎng)站等,在此不做限定。這些評論信息可以涉及產(chǎn)品或者企業(yè)的一個(gè)或者多個(gè)主題,例如用戶在某電商平臺(tái)購買一款手機(jī),與手機(jī)相關(guān)的主題可以包括但不限于手機(jī)的屏幕、電池、外觀、系統(tǒng)等等。用戶發(fā)布的評論信息包含一個(gè)或多個(gè)語句,在此不做限定。一般情況下,用戶對某一主題的評論內(nèi)容一般具有一定的邏輯性。換言之,用戶在發(fā)布評論時(shí)通常都會(huì)圍繞一個(gè)主題來展開評論,可能有3種情況:情況1,圍繞首句展開評論;情況2,圍繞中間句展開評論;情況3,圍繞尾句展開評論。
獲取評論數(shù)據(jù)可以包括多種方式/手段,在此不做限定。例如可以通過爬蟲軟件,匯總產(chǎn)品的各電商評論、論壇主貼、各門戶網(wǎng)站新聞等評論數(shù)據(jù)。
需要說明的是,每個(gè)語料數(shù)據(jù)對應(yīng)的語句包含一個(gè)或者多個(gè)語句,對語料數(shù)據(jù)進(jìn)行分句處理,得到一個(gè)或多個(gè)語句數(shù)據(jù),以下將以分句后包含5個(gè)語句的語料數(shù)據(jù)為例對本公開的實(shí)施例進(jìn)行說明,并非對本公開的限定。將該語料數(shù)據(jù)表示為句1、句2、句3、句4、句5的形式,其中,句1是整個(gè)語料數(shù)據(jù)的首句,句5為整個(gè)語料數(shù)據(jù)的尾句,句2、句3和句4這三句為整個(gè)語料數(shù)據(jù)的中間句,且句1、句2、句3,句4和句5互為鄰句的關(guān)系,如句2為句1的右鄰句,句2為句3的左鄰句。
需要說明的是,在獲取語料數(shù)據(jù)之后,根據(jù)獲取的語料數(shù)據(jù),構(gòu)建產(chǎn)品的各主題以及主題映射詞典,主題詞典的內(nèi)容為特定主題下的主題詞以及該主題詞與主題的權(quán)重,其中,構(gòu)建主題詞典可以包括多種方式/手段,在此不做限定。例如可以使用文本聚類和卡方選詞的方法離線構(gòu)建主題詞映射詞典?;诜志涮幚斫Y(jié)果,確定至少一個(gè)語句數(shù)據(jù)中第一語句數(shù)據(jù)包含的主題詞集合,例如基于分句處理結(jié)果,根據(jù)主題詞典,對分句后的得到的5個(gè)語句中的第一語句數(shù)據(jù),例如可以是句1,通過命中主題詞權(quán)重的方式確定句1包含的主題詞集合1。
需要說明的是,在獲得第一語句數(shù)據(jù)的主題詞集合后,按照預(yù)設(shè)規(guī)則從主題詞集合中選出滿足預(yù)設(shè)條件的主題詞作為第一語句的主題詞。例如可以是從句1包含的主題詞集合1中選出滿足預(yù)設(shè)條件的主題詞作為句1的主題詞,最終根據(jù)各句確定的主題,得到各主題對應(yīng)的分句語料。
通過本公開的實(shí)施例,對語料數(shù)據(jù)進(jìn)行分句處理,確定至少一個(gè)語句數(shù)據(jù)中第一語句數(shù)據(jù)包含的主題詞集合,按照預(yù)設(shè)規(guī)則從中選出滿足預(yù)設(shè)條件的主題詞作為第一語句的主題詞,可以實(shí)現(xiàn)準(zhǔn)確識(shí)別出評論語料的主題的技術(shù)效果。
圖5示意性示出了根據(jù)本公開實(shí)施例的處理模塊的框圖。
如圖5所示,處理模塊420包括:第一確定單元510、第一獲取單元520、處理單元530。
第一確定單元510用于確定語料的語料來源,其中,不同的語料來源對應(yīng)于不同的語料分句處理規(guī)則。
第一獲取單元520用于基于確定出的語料來源,獲取用于對語料的第一語料進(jìn)行分句處理的規(guī)則。
處理單元530用于基于第一語料分句處理規(guī)則和語料數(shù)據(jù)對語料進(jìn)行分句處理,以得到至少一個(gè)語句數(shù)據(jù)。
需要說明的是,通過獲取的語料數(shù)據(jù),確定語料的語料來源,針對不同的語料來源,將會(huì)有不同的語料分句處理規(guī)則,例如,電商網(wǎng)站評論采用短句的劃分邏輯,新聞?wù)Z料采用長句的劃分邏輯等,在此不做限定?;讷@取的語料處理規(guī)則和語料數(shù)據(jù)對語料進(jìn)行分句處理,得到至少一個(gè)語句數(shù)據(jù),例如可以是將電商網(wǎng)站的評論按照短句處理規(guī)則得到5個(gè)語句,將該語料數(shù)據(jù)表示為句1、句2、句3、句4、句5的形式。
通過本公開的實(shí)施例,針對不同數(shù)據(jù)源,不同的文本長度和類型,采用不同的分句邏輯,充分考慮語料的主題覆蓋情況,描述連貫性,以及語料中各語句之間關(guān)系等因素的綜合考量,得到較為理想的主題分句結(jié)果,給后續(xù)分析挖掘用戶評論的特定模式規(guī)律奠定了良好的數(shù)據(jù)基礎(chǔ)。
根據(jù)本公開的實(shí)施例,確定模塊包括:第二確定單元和第二獲取單元,其中:第二確定單元用于從至少一個(gè)語句數(shù)據(jù)中確定出關(guān)鍵句,其中,關(guān)鍵句根據(jù)至少一個(gè)語句數(shù)據(jù)中各語句數(shù)據(jù)之間的相似度確定,第二獲取單元用于分析獲取關(guān)鍵句包含的主題詞集合以及選擇模塊還用于按照主題詞權(quán)重值的大小從關(guān)鍵句包含的主題詞集合中選出權(quán)重值最高的主題詞作為關(guān)鍵句的主題詞。
通過本公開的實(shí)施例,從至少一個(gè)語句數(shù)據(jù)中確定出關(guān)鍵句,充分考慮語料包含的各語句之間的關(guān)系,將關(guān)鍵句包含的主題詞集合中權(quán)重值最高的主題詞作為關(guān)鍵句的主題詞,得到較為理想的主題詞識(shí)別結(jié)果。
需要說明的是,系統(tǒng)部分各實(shí)施例中的模塊/單元/子單元的實(shí)現(xiàn)方式/手段、所實(shí)現(xiàn)的功能、所解決的技術(shù)問題、以及所達(dá)到的技術(shù)效果與方法部分各實(shí)施例中對應(yīng)的操作的實(shí)現(xiàn)方式/手段、所實(shí)現(xiàn)的功能、所解決的技術(shù)問題、以及所達(dá)到的技術(shù)效果相同或類似,在此不再贅述。
本公開的另一方面還提供了一種數(shù)據(jù)處理設(shè)備,包括:一個(gè)或多個(gè)存儲(chǔ)器,用于存儲(chǔ)可執(zhí)行指令;以及一個(gè)或多個(gè)處理器,用于執(zhí)行可執(zhí)行指令,以實(shí)現(xiàn)上述任一項(xiàng)的數(shù)據(jù)處理方法。
圖6示意性示出了應(yīng)用本公開實(shí)施例的適于實(shí)現(xiàn)數(shù)據(jù)處理方法及其系統(tǒng)的計(jì)算機(jī)系統(tǒng)的框圖。圖6示出的計(jì)算機(jī)系統(tǒng)僅僅是一個(gè)示例,不應(yīng)對本公開實(shí)施例的功能和使用范圍帶來任何限制。
如圖6所示,根據(jù)本公開實(shí)施例的計(jì)算機(jī)系統(tǒng)600包括處理器610、可讀存儲(chǔ)介質(zhì)620。該計(jì)算機(jī)系統(tǒng)600可以執(zhí)行上面參考圖2~圖3描述的方法,以實(shí)現(xiàn)獲得語料數(shù)據(jù)主題詞的目的。
具體地,處理器610例如可以包括通用微處理器、指令集處理器和/或相關(guān)芯片組和/或?qū)S梦⑻幚砥?例如,專用集成電路(asic)),等等。處理器610還可以包括用于緩存用途的板載存儲(chǔ)器。處理器610可以是用于執(zhí)行參考圖2~圖3描述的根據(jù)本公開實(shí)施例的方法流程的不同動(dòng)作的單一處理單元或者是多個(gè)處理單元。
可讀存儲(chǔ)介質(zhì)620,例如可以是能夠包含、存儲(chǔ)、傳送、傳播或傳輸指令的任意介質(zhì)。例如,可讀存儲(chǔ)介質(zhì)可以包括但不限于電、磁、光、電磁、紅外或半導(dǎo)體系統(tǒng)、裝置、器件或傳播介質(zhì)。可讀存儲(chǔ)介質(zhì)的具體示例包括:磁存儲(chǔ)裝置,如磁帶或硬盤(hdd);光存儲(chǔ)裝置,如光盤(cd-rom);存儲(chǔ)器,如隨機(jī)存取存儲(chǔ)器(ram)或閃存;和/或有線/無線通信鏈路。
可讀存儲(chǔ)介質(zhì)620可以包括計(jì)算機(jī)程序621,該計(jì)算機(jī)程序621可以包括代碼/計(jì)算機(jī)可執(zhí)行指令,其在由處理器610執(zhí)行時(shí)使得處理器610執(zhí)行例如上面結(jié)合圖2~圖3所描述的方法流程及其任何變形。
計(jì)算機(jī)程序621可被配置為具有例如包括計(jì)算機(jī)程序模塊的計(jì)算機(jī)程序代碼。例如,在示例實(shí)施例中,計(jì)算機(jī)程序621中的代碼可以包括一個(gè)或多個(gè)程序模塊,例如包括621a、模塊621b、……。應(yīng)當(dāng)注意,模塊的劃分方式和個(gè)數(shù)并不是固定的,本領(lǐng)域技術(shù)人員可以根據(jù)實(shí)際情況使用合適的程序模塊或程序模塊組合,當(dāng)這些程序模塊組合被處理器610執(zhí)行時(shí),使得處理器610可以執(zhí)行例如上面結(jié)合圖2~圖3所描述的方法流程及其任何變形。
本領(lǐng)域技術(shù)人員可以理解,本公開的各個(gè)實(shí)施例和/或權(quán)利要求中記載的特征可以進(jìn)行多種組合或/或結(jié)合,即使這樣的組合或結(jié)合沒有明確記載于本公開中。特別地,在不脫離本公開精神和教導(dǎo)的情況下,本公開的各個(gè)實(shí)施例和/或權(quán)利要求中記載的特征可以進(jìn)行多種組合和/或結(jié)合。所有這些組合和/或結(jié)合均落入本公開的范圍。
盡管已經(jīng)參照本公開的特定示例性實(shí)施例示出并描述了本公開,但是本領(lǐng)域技術(shù)人員應(yīng)該理解,在不背離所附權(quán)利要求及其等同物限定的本公開的精神和范圍的情況下,可以對本公開進(jìn)行形式和細(xì)節(jié)上的多種改變。因此,本公開的范圍不應(yīng)該限于上述實(shí)施例,而是應(yīng)該不僅由所附權(quán)利要求來進(jìn)行確定,還由所附權(quán)利要求的等同物來進(jìn)行限定。