欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

基于主題模型的裁判文書相似度分析方法與流程

文檔序號(hào):12034577閱讀:723來(lái)源:國(guó)知局
基于主題模型的裁判文書相似度分析方法與流程

本發(fā)明是一種文本相似度分類方法,針對(duì)法院內(nèi)部的裁判文書,屬于機(jī)器學(xué)習(xí)、文本挖掘技術(shù)領(lǐng)域。



背景技術(shù):

中國(guó)裁判文書網(wǎng)從2013年開始建設(shè),截止2017年5月14日已經(jīng)累積存儲(chǔ)文書超過(guò)2900萬(wàn)篇,逐漸成長(zhǎng)為全球最大的裁判文書共享網(wǎng)站。基于這些數(shù)據(jù),一系列司法大數(shù)據(jù)研究、分析工作也相繼開展,在獲得斐然成果的同時(shí),還面臨著許多問(wèn)題和挑戰(zhàn)。其中一部分問(wèn)題集中在針對(duì)法院數(shù)據(jù)挖掘分析能力和相關(guān)研究的不足上。

裁判文書,作為法院工作的重要組成部分,記載了人民法院審理的過(guò)程和結(jié)果。它既是法院訴訟活動(dòng)結(jié)果的載體,也是人民法院確定和分配當(dāng)事人實(shí)體權(quán)利義務(wù)的惟一憑證。在中國(guó)法院信息化過(guò)程中匯聚起來(lái)的裁判文書已經(jīng)成為審判領(lǐng)域?qū)氋F的數(shù)據(jù)資源,通過(guò)針對(duì)裁判文書的大數(shù)據(jù)挖掘研究工作,可以提出更加智能化的信息技術(shù)手段輔助法官辦案。例如:從已有裁判文書庫(kù)中挖掘相似案例的裁判文書,并為法官提供相似案例推薦;法院可以根據(jù)一個(gè)法官經(jīng)手裁判文書的相似程度來(lái)評(píng)估其一段時(shí)間的工作量;法官、訴訟參與人、法律工作者等可以輸入案情來(lái)查看某案件可能涉及的相關(guān)法律條文。針對(duì)這些應(yīng)用場(chǎng)景和需求,本專利提出一種針對(duì)裁判文書的文本相似度分析方法。

法院審判工作的各類要求,裁判文書本身所具有的種種特性,以及現(xiàn)有相似度分析方法的局限和難點(diǎn),迫切需要研究一種針對(duì)裁判文書的特點(diǎn)而量身定制的相似度分析方法。其中,中國(guó)法院裁判文書的半結(jié)構(gòu)化特性為提高文本相似度分析結(jié)果提供了可能,并為相似度結(jié)果評(píng)估提供了依據(jù)。中國(guó)法院裁判文書中存在的案由、法律條文等相對(duì)固定的分類、標(biāo)識(shí)信息為我們使用主題模型方法提供了啟示。裁判文書的文字內(nèi)容注重邏輯、注重推理的特性則對(duì)相似度方法的語(yǔ)義理解能力提出了相應(yīng)的要求?;谝陨弦恍┰?,本文中提出了一種采用lda(latentdirichletallocation)主題模型、針對(duì)裁判文書、基于語(yǔ)義的、半自動(dòng)化的、通用的相似度分析方法。

文本相似度分析方法作為自然語(yǔ)言處理中的一個(gè)重要研究方向,用于衡量目標(biāo)對(duì)象之間的相似程度,已經(jīng)被應(yīng)用在信息抽取、文本分類、文本聚類、主題探索、主題跟蹤等諸多領(lǐng)域。相似度方法一般存在兩個(gè)關(guān)鍵點(diǎn):一個(gè)是特征的表示,另一個(gè)則是針對(duì)特征間的相似度關(guān)系計(jì)算。現(xiàn)有的文本相似度分析方法,從單純的基于字符的分析方法,到基于語(yǔ)料和知識(shí)系統(tǒng)挖掘文本語(yǔ)義的分析方法,已經(jīng)經(jīng)歷了長(zhǎng)期的發(fā)展。而中文相似度方法則在此基礎(chǔ)上,針對(duì)中文語(yǔ)言的特性進(jìn)行了進(jìn)一步的探索。由于相似度問(wèn)題本身的多樣性,在針對(duì)不同的目標(biāo)對(duì)象(詞語(yǔ)、短文本、長(zhǎng)文本),或處于不同的應(yīng)用場(chǎng)景時(shí),往往需要采用不同的相似度方法以達(dá)到更好的分析效果。

主題模型系列方法,尤其是其中的lsa(latentsemanticanalysis)、lda相關(guān)方法,是現(xiàn)在針對(duì)文本相似度研究的一個(gè)重要方向。簡(jiǎn)而言之,主題模型基于如下假設(shè):每一個(gè)單詞都一定概率屬于某幾個(gè)主題,而每一篇文本都表達(dá)若干個(gè)主題。當(dāng)把主題模型應(yīng)用在相似度分析方法中,針對(duì)訓(xùn)練完成的主題模型,可以推斷出一篇文本的主題歸屬,從而根據(jù)主題情況進(jìn)一步計(jì)算獲得不同文本間的相似程度。從另一個(gè)角度來(lái)說(shuō),主題模型相當(dāng)于將以詞匯為基礎(chǔ)的高維向量映射到語(yǔ)義空間,使其降維。主題模型由latentsemanticindexing(lsi)發(fā)展而來(lái),probabilisticlatentsemanticanalysis(plsa)是第一個(gè)有影響力的主題概率模型。blei在plsa的基礎(chǔ)上引入了dirichlet分布,提出了lda,進(jìn)一步泛化了主題模型方法。在之后的應(yīng)用研究中,為了針對(duì)不同的問(wèn)題以及提升lda的使用效率(并行化),其它一系列與lda相關(guān)的改進(jìn)方法被相繼發(fā)表。

lda全稱latentdirichletallocation,由blei在2003年提出,是一種非監(jiān)督的主題模型方法,可以用于對(duì)大規(guī)模文檔集或語(yǔ)料庫(kù)進(jìn)行語(yǔ)義理解和隱藏主題識(shí)別。lda方法相對(duì)于原有的主題模型方法,引入了dirichlet分布,加入了先驗(yàn)概率假設(shè)。這使得模型更容易應(yīng)用在訓(xùn)練語(yǔ)料集以外的文本,降低模型過(guò)擬合的可能性,對(duì)于數(shù)據(jù)量較小的語(yǔ)料具有更好的表現(xiàn)力。目前,lda方法已經(jīng)在文本信息抽取、文本分類、文本自動(dòng)摘要、圖像處理等領(lǐng)域有了廣泛的嘗試和應(yīng)用。

主題模型方法建立在如下公式假設(shè)下:

其中,p(tl|di)表示詞語(yǔ)tl出現(xiàn)在文檔di中的概率,p(tl|tj)表示主題tj中出現(xiàn)詞語(yǔ)tl的概率,p(tj|di)表示文檔di出現(xiàn)主題tj的概率。該模型假設(shè),文檔中出現(xiàn)一個(gè)詞的概率等于所有該文檔可能屬于的主題的概率乘以每個(gè)主題中出現(xiàn)這個(gè)詞的概率的累加。

lda模型的訓(xùn)練主要包括gibbssampling和變分em兩種不同方法。其中,gibbssampling在馬爾可夫鏈的基礎(chǔ)上,模擬抽樣過(guò)程,在概率的轉(zhuǎn)移過(guò)程中以求獲得平穩(wěn)的概率分布。變分em方法則構(gòu)建在貝葉斯計(jì)算上,主要通過(guò)尋找變分參數(shù)最優(yōu)解(e步)和估計(jì)原模型參數(shù)、最大化模型下界(m步)兩個(gè)步驟完成。其模型示意圖如圖4所示。

該圖表示內(nèi)容如下:從根據(jù)超參數(shù)α獲得的文檔、主題間的dirichlet先驗(yàn)分布中生成文檔的主題分布θi;從主題的多項(xiàng)式分布θi中生成文檔的主題zi,j;從根據(jù)超參數(shù)β獲得的主題、詞匯間的dirichlet先驗(yàn)分布中生成主題zi,j的詞語(yǔ)分布從詞語(yǔ)的多項(xiàng)分布中最終生成詞語(yǔ)wi,j。該模型的具體表現(xiàn)方式在gibbssampling和變分em中有一定的差別。相較而言,變分em方法比gibbssampling方法具有更快的訓(xùn)練速度,但變分em方法獲得的結(jié)果為局部最優(yōu),而不一定等于全局最優(yōu)。同時(shí),雖然gibbssampling的程序邏輯較為簡(jiǎn)單,但卻無(wú)法像變分em方法一樣支持分布式運(yùn)算。



技術(shù)實(shí)現(xiàn)要素:

本發(fā)明要解決的技術(shù)問(wèn)題是:針對(duì)裁判文書,如何提出一種通用的、半自動(dòng)化的相似度分析方法,從而應(yīng)用于基于相似度的文書分類、相似文書推薦、基于裁判文書相似度的法官工作量評(píng)估、針對(duì)案情的法律條文預(yù)測(cè)等方向。該方法利用文本挖掘技術(shù)中的tf-idf方法、lda方法,通過(guò)一系列處理工作和迭代訓(xùn)練方式以建立相似度分析模型,并根據(jù)分析模型,獲得文書間的相似度關(guān)系。該方法具有良好的相似度分析結(jié)果,并具備快速的相似度計(jì)算能力,從而為基于裁判文書的相似度相關(guān)應(yīng)用提供更好的基礎(chǔ)。

本發(fā)明的技術(shù)方案為:

1、基于主題模型的裁判文書相似度分析方法,其特征是針對(duì)裁判文書及其特點(diǎn),使用基于主題模型的文本挖掘方法來(lái)進(jìn)行文本相似度分析。本方法的簡(jiǎn)要流程步驟如圖1所示,其中文本預(yù)處理、參數(shù)選取部分擁有多個(gè)子步驟,迭代訓(xùn)練部分可以進(jìn)一步展開,詳細(xì)流程步驟如圖2所示,具體如下:

(1)以裁判文書的結(jié)構(gòu)化分類信息(包括案由、案件類型等)作為目標(biāo)語(yǔ)料;

(2)將目標(biāo)語(yǔ)料分為訓(xùn)練語(yǔ)料和測(cè)試語(yǔ)料,并對(duì)測(cè)試語(yǔ)料進(jìn)行相似度標(biāo)注;

(3)對(duì)作為訓(xùn)練語(yǔ)料的文書文本進(jìn)行預(yù)處理操作,包括文書分段、文書篩選、中文分詞、分詞前后的詞語(yǔ)獲取和過(guò)濾操作;

(4)選擇目標(biāo)語(yǔ)料的高可信部分作為輸入內(nèi)容;

(5)設(shè)置各類參數(shù),包括停用詞、lda模型訓(xùn)練參數(shù)、tf-idf輸入和評(píng)估標(biāo)準(zhǔn)設(shè)置;

(6)使用訓(xùn)練語(yǔ)料,根據(jù)lda進(jìn)行模型訓(xùn)練;

(7)使用測(cè)試語(yǔ)料評(píng)估本次訓(xùn)練模型(指和測(cè)試語(yǔ)料相似度標(biāo)注的符合程度);

(8)調(diào)整參數(shù),迭代執(zhí)行步驟(6),直到針對(duì)所有要求參數(shù)完成遍歷;

(9)根據(jù)不同參數(shù)下的準(zhǔn)確度,選擇合適的參數(shù),生成訓(xùn)練模型;

(10)應(yīng)用訓(xùn)練模型。

2、在步驟(2)中,其具體內(nèi)容如圖3所示。首先,要將步驟(1)中獲得的目標(biāo)語(yǔ)料分成訓(xùn)練語(yǔ)料和測(cè)試語(yǔ)料兩部分。之后,需要針對(duì)測(cè)試語(yǔ)料進(jìn)行相似度標(biāo)注。

相似度標(biāo)注是指針對(duì)一定量的目標(biāo)文書,標(biāo)注預(yù)期的輸出結(jié)果。例如,標(biāo)注每篇文書相對(duì)其它文書的相似度度量結(jié)果,或根據(jù)相似度進(jìn)行的分類、排序等類似結(jié)果。該過(guò)程由兩個(gè)維度決定:一個(gè)維度是標(biāo)注方法,表示標(biāo)注的實(shí)施方式;另一個(gè)維度是標(biāo)注粒度,表示標(biāo)注的細(xì)致程度。

標(biāo)注方法分為兩種:一種是自動(dòng)化標(biāo)注,需要制定和實(shí)現(xiàn)相應(yīng)的相似度判斷策略;另一種是人工標(biāo)注,由法院相關(guān)專家來(lái)完成標(biāo)注工作。

標(biāo)注粒度分為兩種:第一種是數(shù)字化標(biāo)注,是指使用數(shù)字形式標(biāo)注每篇文書與目標(biāo)文書相比的相似度;第二種是非數(shù)字化標(biāo)注,針對(duì)無(wú)法以數(shù)字形式進(jìn)行逐篇標(biāo)注的情況,可以采用類似分類、排序等標(biāo)注方式。

3、步驟(3)以簡(jiǎn)化輸入和去除干擾為目的,包括五個(gè)具體的預(yù)處理子步驟:

(3.1)對(duì)裁判文書進(jìn)行分段;

(3.2)去除寫作不規(guī)范的裁判文書;

(3.3)在裁判文書中刪除對(duì)分詞有害的停用詞;

(3.4)對(duì)裁判文書進(jìn)行中文分詞;

(3.5)生成裁判文書的專有停用詞。

4、由于在相似度分析中,裁判文書各個(gè)部分的重要性及可信性存在區(qū)別,步驟(4)需要選擇目標(biāo)語(yǔ)料的高可信部分作為輸入內(nèi)容。

5、步驟(5)以構(gòu)建模型訓(xùn)練參數(shù)和完成訓(xùn)練前的準(zhǔn)備工作為目標(biāo),包括以下四個(gè)子步驟:

(5.1)設(shè)置停用詞;

(5.2)設(shè)置訓(xùn)練參數(shù);

(5.3)針對(duì)訓(xùn)練語(yǔ)料生成tf-idf向量;

(5.4)評(píng)估標(biāo)準(zhǔn)設(shè)置,用于判定訓(xùn)練模型的實(shí)際效果。

6、在步驟(10)中,可以使用訓(xùn)練獲得的模型計(jì)算出任意兩個(gè)文書之間基于主題的相似度關(guān)系,從而可以快速的獲得任意兩篇文書之間的相似度,進(jìn)而可以開發(fā)一系列基于相似度的應(yīng)用,包括裁判文書相似度分類、相似裁判文書推薦、基于裁判文書相似度的法官工作量評(píng)估、基于案情的法律條文推薦等。

根據(jù)本發(fā)明內(nèi)容,我們已經(jīng)開發(fā)出基于python語(yǔ)言的裁判文書相似度分析工具,該工具可以支持模型訓(xùn)練工作,同時(shí)也可以直接使用該工具進(jìn)行相似裁判文書的推薦工作,基于案情的法律條文預(yù)測(cè)工作。此外,基于該裁判文書相似度分析工具還可以拓展更加豐富的相似度分析和應(yīng)用。

本方法在一般相似度分析方法的基礎(chǔ)上,充分考慮裁判文書內(nèi)容中專業(yè)詞匯豐富、語(yǔ)義復(fù)雜的特點(diǎn),利用裁判文書半結(jié)構(gòu)化特點(diǎn),從而提升裁判文書相似度分析的準(zhǔn)確性和適用性。此外,該相似度分析方法由于采用了主題模型方法,可以通過(guò)離線處理方式,提高相似度分析的實(shí)時(shí)響應(yīng)速度,從而提高相關(guān)應(yīng)用的使用效率。

附圖說(shuō)明

圖1基于主題模型的裁判文書相似度分析方法簡(jiǎn)要流程圖

圖2基于主題模型的裁判文書相似度分析方法詳細(xì)流程圖

圖3目標(biāo)裁判文書分類及標(biāo)注方式

圖4lda模型示意圖

圖5相似度標(biāo)注示例

圖6裁判文書案件基本情況示例

圖7裁判文書核心結(jié)構(gòu)

圖8訓(xùn)練模型評(píng)估示例步驟

圖9主題數(shù)與模型評(píng)估結(jié)果折線圖示例

圖10相似度推薦應(yīng)用流程圖

具體實(shí)施方式

為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清晰,下面將結(jié)合附圖及具體實(shí)例對(duì)本發(fā)明進(jìn)行詳細(xì)描述。

本發(fā)明旨在對(duì)裁判文書進(jìn)行相似度分析。其分析結(jié)果可以應(yīng)用于基于相似度的裁判文書分類、相似裁判文書推薦、基于裁判文書相似度的法官工作量評(píng)估、案件法律條文預(yù)測(cè)等場(chǎng)景。本方法采用tf-idf方法、lda方法,同時(shí)針對(duì)裁判文書的特性進(jìn)行特殊處理和度量,其具體步驟如下:

(1)在裁判文書集中,以某種屬性(如案由、案件類型等)作為篩選條件抽取目標(biāo)文書子集作為目標(biāo)語(yǔ)料;

(2)將目標(biāo)語(yǔ)料分為訓(xùn)練語(yǔ)料和測(cè)試語(yǔ)料,并對(duì)測(cè)試語(yǔ)料進(jìn)行相似度標(biāo)注;

(3)對(duì)作為訓(xùn)練語(yǔ)料的文書文本進(jìn)行預(yù)處理操作,包括文書分段、文書篩選、中文分詞、分詞前后的詞語(yǔ)獲取和過(guò)濾操作;

(4)選擇目標(biāo)語(yǔ)料的高可信部分作為輸入內(nèi)容;

(5)設(shè)置各類參數(shù),包括設(shè)置停用詞、lda主題模型訓(xùn)練參數(shù)、tf-idf輸入和評(píng)估標(biāo)準(zhǔn);

(6)使用訓(xùn)練語(yǔ)料,應(yīng)用lda主題模型進(jìn)行模型訓(xùn)練;

(7)使用測(cè)試語(yǔ)料評(píng)估本次訓(xùn)練模型(指和測(cè)試語(yǔ)料相似度標(biāo)注的符合程度);

(8)調(diào)整參數(shù),迭代執(zhí)行步驟(6),直到針對(duì)所有要求參數(shù)完成遍歷;

(9)根據(jù)不同參數(shù)下的準(zhǔn)確度,選擇合適的參數(shù),生成裁判文書相似度分析的訓(xùn)練模型;

(10)應(yīng)用步驟(9)生成的訓(xùn)練模型,做裁判文書相似度分析。

下面將結(jié)合民事一審案件裁判文書進(jìn)行相似度分析的例子來(lái)進(jìn)行具體解釋,該應(yīng)用示例旨在通過(guò)文書相似度,根據(jù)案件基本情況中的內(nèi)容,以預(yù)測(cè)可能與其相關(guān)的法律條文。該功能可以幫助法官進(jìn)行裁判過(guò)程,同時(shí),幫助當(dāng)事人完成自動(dòng)化的法律咨詢:

(1)本步驟意在獲取目標(biāo)文書語(yǔ)料,這部份文書將作為未來(lái)流程中用于訓(xùn)練和進(jìn)行測(cè)試驗(yàn)證的對(duì)象。由于裁判文書采用半結(jié)構(gòu)化格式,其中文書案件類型、案由信息可以幫助我們對(duì)文書進(jìn)行進(jìn)一步分類。同時(shí),在不同的分類下,案件情況及相應(yīng)法律條文也都有不同程度的對(duì)應(yīng)。所以,為提高之后進(jìn)行模型訓(xùn)練的準(zhǔn)確性,降低復(fù)雜度,本方法要求對(duì)文書進(jìn)行進(jìn)一步分類操作,并針對(duì)不同類型內(nèi)容進(jìn)行分別處理。分類的維度包括案件類型、案由兩種。其中就分類粒度而言,案件類型>案由。

本例中,只采用案件類型進(jìn)行分類,選取案件類型為民事一審案件,共計(jì)53000篇。由于法律本身的時(shí)效性,該部分文書都選取立案年度2014年以后的文書。

(2)本步驟意在將文書分成訓(xùn)練集和測(cè)試集兩個(gè)部分。前者用于模型訓(xùn)練,后者需要進(jìn)行相似度標(biāo)注,以表現(xiàn)出預(yù)期的輸出結(jié)果,用于對(duì)模型結(jié)果進(jìn)行測(cè)試、評(píng)估,從而通過(guò)迭代方式獲得理想的可用于進(jìn)行相似度分析的模型。

如前文發(fā)明內(nèi)容中所述,相似度標(biāo)注過(guò)程由兩個(gè)維度決定,一個(gè)是標(biāo)注方法,表示標(biāo)注的實(shí)施方式。另一個(gè)維度是標(biāo)注粒度,表示標(biāo)注的細(xì)致程度。

標(biāo)注方法分為兩種。一種是自動(dòng)化標(biāo)注,需要制定和實(shí)現(xiàn)相應(yīng)的相似度判斷策略。另一種是人工標(biāo)注,由法院相關(guān)專家來(lái)完成標(biāo)注工作。

標(biāo)注粒度分為兩種,第一種是數(shù)字化標(biāo)注,是指使用數(shù)字形式標(biāo)注每篇文書針對(duì)目標(biāo)文書中其它文書的相似度。例如,標(biāo)注文書1針對(duì)文書2,文書3的相似度分別為80%、60%。第二種是非數(shù)字化標(biāo)注,針對(duì)無(wú)法以數(shù)字形式進(jìn)行逐篇標(biāo)注的情況,可以采用類似分類,排序等標(biāo)注方式。例如,倘若期望使用本方法進(jìn)行相似文書推薦工作,則可以由法院相關(guān)專家將測(cè)試語(yǔ)料中的文書進(jìn)行人工的分類,以分類情況作為標(biāo)注內(nèi)容。

兩者的關(guān)系和優(yōu)缺點(diǎn)如表1所示。由于數(shù)字化標(biāo)注比非數(shù)字化標(biāo)注更加精確,有利于獲得更好的結(jié)果,所以在同等條件下應(yīng)采用數(shù)字化標(biāo)注。對(duì)于人工標(biāo)注方式,由于進(jìn)行數(shù)字化標(biāo)注往往難以實(shí)現(xiàn),所以更多使用非數(shù)字化標(biāo)注。

表1標(biāo)注方式有缺點(diǎn)及和標(biāo)注粒度間關(guān)系

在本例中,選用50000篇文書作為訓(xùn)練集。3000篇文書將作為測(cè)試集。對(duì)于測(cè)試集,選用自動(dòng)化、非數(shù)字化標(biāo)注方式來(lái)進(jìn)行標(biāo)注。由于本例的目標(biāo)是根據(jù)案情進(jìn)行法律條文預(yù)測(cè),所以針對(duì)測(cè)試語(yǔ)料中的每篇文書,選取其引用的主要法律條文作為本篇文書的標(biāo)注。由于法律條文及其本身寫作相對(duì)的固定性,該標(biāo)注過(guò)程可以通過(guò)一定的自動(dòng)化方式完成。具體的表現(xiàn)形式如圖5所示,其中,每篇文書都和若干條法律條文相關(guān),方括號(hào)中的數(shù)字表示相應(yīng)的文書和法律條文的序號(hào)。由于法律條文本身書寫有一定的隨意性,在標(biāo)注時(shí),需要對(duì)法律條文進(jìn)行一定的處理和對(duì)應(yīng)。本例中只考慮到具體的法律條目上,并不進(jìn)一步記錄引用的款項(xiàng),以簡(jiǎn)化計(jì)算。對(duì)應(yīng)的,在步驟(7)中,方法通過(guò)輸入案情后根據(jù)模型預(yù)測(cè)得到的法律條文和實(shí)際標(biāo)注的法律條文進(jìn)行對(duì)比,從而完成測(cè)試評(píng)估工作。

(3)本步驟旨在對(duì)訓(xùn)練集文書進(jìn)行預(yù)處理操作。其主要目標(biāo)如下:1、獲取文書中和訓(xùn)練相關(guān)所需段落;2、剔除噪音干擾。下面具體描述其步驟內(nèi)容:

(3.1)裁判文書具有半結(jié)構(gòu)化特點(diǎn)。我國(guó)法院制定有裁判文書的段落結(jié)構(gòu)規(guī)范,基于段落結(jié)構(gòu)規(guī)范以及常用的各段特征詞匯,可以獲得裁判文書的各段段落文本,這將有利于我們之后的訓(xùn)練、分析工作。

(3.2)由于個(gè)別裁判文書存在沒有遵循裁判文書的段落結(jié)構(gòu)規(guī)范的現(xiàn)象,部分文書的寫作過(guò)于隨意,關(guān)于這些沒有遵循段落結(jié)構(gòu)規(guī)范的裁判文書,我們會(huì)將其從訓(xùn)練集中剔除,以減少干擾。

(3.4)分詞往往是中文語(yǔ)言處理的基礎(chǔ),在本例中,采用jieba分詞來(lái)進(jìn)行具體的分詞工作。

(3.3)、(3.5)在裁判文書中,會(huì)存在大量地名(如某某市、某某縣)、專有名詞(如原告、被告)以及低頻率詞匯。這些詞語(yǔ)對(duì)與比較文書相似度不但沒有太大意義,反而有可能干擾訓(xùn)練結(jié)果。例如,裁判文書中的“原告”、“被告”、“本院”等詞匯。所以,在大部分情況下,需要對(duì)這部分詞匯進(jìn)行去除。由于部分詞匯在分詞時(shí)可能會(huì)造成額外的干擾,因此,我們選擇在步驟(3.3)中先行去除掉一部分詞匯,同時(shí),部分法院高頻詞匯需要我們?cè)诓门形臅羞M(jìn)行統(tǒng)計(jì)從而獲得,所以在步驟(3.5)中,統(tǒng)計(jì)高頻的無(wú)特定指向的詞匯作為之后停用詞的詞庫(kù)。

在本例中,提取訓(xùn)練語(yǔ)料文書中的案件基本信息作為輸入段落,該段落的主要部分可以繼續(xù)拆解成原告訴稱、被告辯稱、查明事實(shí)段、證據(jù)段,該段描述符合法院對(duì)相關(guān)裁判文書的制作規(guī)范(具體可參考法院相關(guān)文書制作規(guī)范內(nèi)容:http://www.cibsn.com/article/detailed/43618),且具有明顯的分段原則,可以對(duì)其進(jìn)行自動(dòng)拆解。一個(gè)文書的案件基本情況及其分段示例如圖6所示。

其中,若訓(xùn)練語(yǔ)料文書不存在如上段落,或無(wú)法拆解出相應(yīng)段落,則剔除該篇文書。同時(shí),在(3.3)中剔除部分裁判文書特有詞匯,剔除各級(jí)地名,剔除文書中的名字及名字代稱,類似王某、王某某、王某甲等。(3.5)中統(tǒng)計(jì)該部分文書中高頻的無(wú)特殊意義的裁判文書特有詞匯加入之后的停用詞。

(4)對(duì)于裁判文書來(lái)說(shuō),在相似度分析的過(guò)程中,不同段落本身的重要程度是不同的。究其根本,這與裁判文書本身的結(jié)構(gòu)有關(guān)。對(duì)于一篇裁判文書,其核心內(nèi)容由證據(jù)、事實(shí)、法律條文、判決組成。由證據(jù)印證證據(jù),由證據(jù)(或事實(shí))推導(dǎo)事實(shí),由事實(shí)關(guān)聯(lián)法律條文,并由此得出判決結(jié)果,具體如圖7所示。其中,判決是結(jié)果,法律條文是明確的條款,而證據(jù)、事實(shí)則充滿不確定性。例如,有些證據(jù)經(jīng)由法院確認(rèn),有些證據(jù)則不予采信;原告訴稱中所描述的事實(shí)不如查明事實(shí)段中的事實(shí)可信。所以,若能獲得所列事實(shí)、證據(jù)的可信程度,則可以更有效的反映不同詞語(yǔ)不同的重要性。但實(shí)際操作中,由于文書自然語(yǔ)言的隨意性,逐條獲得證據(jù)、事實(shí)的可信程度是困難的,所以我們一般會(huì)從語(yǔ)料中選取高可信的部分作為之后訓(xùn)練的輸入。

在本例中,案件基本信息段的主要部分可以分解成原告訴稱、被告辯稱、查明事實(shí)段、證據(jù)段。其中,查明事實(shí)段和證據(jù)段可作為高可信得部分,作為我們之后進(jìn)行訓(xùn)練的輸入。

(5)本步驟除了為lda模型設(shè)置訓(xùn)練參數(shù)外,還需要完成訓(xùn)練前的準(zhǔn)備工作。

(5.1)設(shè)置停用詞,包括(3.5)中的詞匯和通用的停用詞。具體內(nèi)容可以根據(jù)實(shí)際要求進(jìn)行調(diào)整。

(5.2)設(shè)置訓(xùn)練參數(shù),以便為迭代訓(xùn)練時(shí)提供邊界。該部分主要包括主題數(shù)范圍和主題間隔數(shù),其中主題數(shù)可參考相應(yīng)類型下法律條文數(shù)進(jìn)行設(shè)置。

(5.3)針對(duì)語(yǔ)料生成tf-idf向量。比起單獨(dú)的使用詞袋或詞集模型作為輸入,tf-idf向量的輸入方式具有更強(qiáng)的表現(xiàn)力。

(5.4)設(shè)置評(píng)估標(biāo)準(zhǔn)。該步驟決定了在步驟(7)中使用測(cè)試語(yǔ)料計(jì)算模型精確度時(shí)的相關(guān)參數(shù)。

在本例中,常用停用詞為中文常用的不含有特殊意義的詞匯,包括“的”、“了”等詞語(yǔ)。主題范圍為300~900,主題間隔為50。

(6)根據(jù)設(shè)置,使用lda算法,針對(duì)處理過(guò)后的訓(xùn)練集進(jìn)行訓(xùn)練。由于lda模型的收斂速度較慢,所以當(dāng)訓(xùn)練規(guī)模較大時(shí),訓(xùn)練所需資源和時(shí)間較長(zhǎng)。

在本例中,采用gensim程序作為底層的lda算法庫(kù)完成實(shí)驗(yàn),從主題數(shù)為300時(shí)開始訓(xùn)練,之后主題數(shù)每次增加50,直到主題數(shù)增加至800為止,期間將每次結(jié)果傳遞到下一步驟進(jìn)行訓(xùn)練模型的評(píng)估。

(7)使用測(cè)試語(yǔ)料計(jì)算本次訓(xùn)練模型的精確度。該部分的操作過(guò)程和步驟2中相似度標(biāo)注方法相關(guān)聯(lián),根據(jù)不同的相似度標(biāo)注方案會(huì)得到不同的精確度計(jì)算方案。如果采用數(shù)字化標(biāo)注方式,則推薦采用準(zhǔn)確率、召回率等指標(biāo)來(lái)進(jìn)行計(jì)算,例如,通過(guò)在一定數(shù)量?jī)?nèi)成功命中的預(yù)測(cè)法律條文的數(shù)量來(lái)進(jìn)行評(píng)估。而如果采用非數(shù)字標(biāo)注方式,則要根據(jù)實(shí)際的設(shè)計(jì)要求和顯示需要來(lái)進(jìn)行該部分的設(shè)計(jì)。例如,若是相似度標(biāo)注方式為對(duì)任一篇文書選擇相似度最高的n篇其它文書,只有排序而沒有具體數(shù)值,則可以根據(jù)不同排序的重要程度,給排序的各個(gè)位置賦予不同的權(quán)重,再進(jìn)行計(jì)算。

在本例中,采用的是自動(dòng)化,非數(shù)字化的標(biāo)注方式。具體評(píng)估方法根據(jù)其法律條文預(yù)測(cè)準(zhǔn)確性來(lái)獲得,其具體步驟如圖8所示,即將模型用于進(jìn)行法律條文預(yù)測(cè),并將預(yù)測(cè)的準(zhǔn)確性作為模型評(píng)估的結(jié)果。

(8)在該步驟中,需要迭代執(zhí)行(6)、(7)步。在設(shè)定的參數(shù)迭代范圍和參數(shù)迭代規(guī)則中,重復(fù)執(zhí)行(6)、(7)步。并記錄不同參數(shù)下獲得的模型在評(píng)估中所表現(xiàn)出的精確度。直觀來(lái)說(shuō),該步驟將為我們繪制出一副橫軸為迭代參數(shù),縱軸為訓(xùn)練模型精確度的折線圖,我們可以根據(jù)該折線圖進(jìn)行之后的決策。

在本例中,我們以lda模型的主題數(shù)為迭代參數(shù),主題從300增加至800,會(huì)產(chǎn)生11個(gè)不同的訓(xùn)練模型,其主題數(shù)與模型評(píng)估結(jié)果折線圖示例如圖9所示,評(píng)估結(jié)果具有局部的最大值。

(9)根據(jù)之前獲得的關(guān)于主題數(shù)與模型評(píng)估結(jié)果的折線圖,決策出需要選擇什么樣的主題數(shù)來(lái)進(jìn)行模型訓(xùn)練。

在本例中,當(dāng)主題數(shù)為450左右時(shí),訓(xùn)練模型的準(zhǔn)確性最高。

然而,本例中的結(jié)果是多次實(shí)驗(yàn)后的一次性展示。事實(shí)上,實(shí)際操作中,可能很難一次性地確定什么樣的主題數(shù)合適,而即使統(tǒng)計(jì)曲線呈現(xiàn)類似下圖的存在明顯峰值的情況,也無(wú)法肯定相應(yīng)值是全局最優(yōu)而不是局部最優(yōu)。所以,在本步驟中,如果條件允許,請(qǐng)盡可能提高迭代次數(shù),同時(shí),和預(yù)期精確度要求一起共同決定如何進(jìn)行主題數(shù)的選擇工作。之后可以根據(jù)確定的合適參數(shù)來(lái)進(jìn)行訓(xùn)練,而此時(shí)訓(xùn)練后的結(jié)果將作為未來(lái)進(jìn)行應(yīng)用的底層模型。

(10)在之前的步驟中,我們獲得了可以用來(lái)進(jìn)行相似度分析的基礎(chǔ)模型。然而,在實(shí)際應(yīng)用中,我們還需要對(duì)其增加應(yīng)用層才可以提高結(jié)果的可見性。如前文所述,該模型可以支持裁判文書相似度分類,相似裁判文書推薦,基于裁判文書相似度的工作量評(píng)估,基于案情的法律條文預(yù)測(cè)等應(yīng)用。

在本例中,在底層模型的基礎(chǔ)上實(shí)現(xiàn)了基于案情的法律條文預(yù)測(cè)應(yīng)用。其效果為,當(dāng)輸入一個(gè)民事一審案件的案件基本情況或其中的查明事實(shí)段、證據(jù)段時(shí),系統(tǒng)可以根據(jù)模型預(yù)測(cè)出針對(duì)于案情可能相關(guān)的法律條文。其實(shí)現(xiàn)流程如圖10所示,即應(yīng)用本方法獲得的相似度模型,先根據(jù)案情輸入尋找相似文書,再根據(jù)相似文書引用的法律條文統(tǒng)計(jì)得到預(yù)測(cè)的法律條文情況。

當(dāng)前第1頁(yè)1 2 
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
嘉义县| 桐城市| 灵台县| 湟中县| 三明市| 庆云县| 荣昌县| 米易县| 漳州市| 黄石市| 奈曼旗| 贺兰县| 尼木县| 平果县| 长兴县| 弥渡县| 布尔津县| 安阳县| 富民县| 石河子市| 赣榆县| 进贤县| 江华| 安吉县| 大埔区| 湘阴县| 根河市| 麻城市| 遵化市| 英德市| 武冈市| 西丰县| 来凤县| 洛隆县| 静乐县| 江城| 九江市| 蓬溪县| 宜良县| 遵化市| 河间市|