本發(fā)明屬于計算機
技術領域:
:,涉及一種學位論文格式自動檢測方法。
背景技術:
::目前高校的學位論文,均具有較為嚴格的格式要求。學位論文一般采用微軟公司的Word編輯軟件撰寫,包括封面、獨創(chuàng)性聲明、標題、摘要、目錄、正文、頁眉頁腳、表格、圖形、參考文獻、授權書等特定部分,必須與論文模板嚴格相同,以保證學位論文的格式規(guī)范性。在學位論文提交之后,教師要對學位論文進行格式核查,將錯誤之處指出并由學生修改,之后教師會再次核查格式,并指導學生修改,直至符合學校要求為止。以往,這一核查過程完全由教師人工進行,具有工作量大、易出錯、工作時間長等缺陷。本發(fā)明基于對Word軟件的docx格式的分析,提出了一種學位論文格式自動檢測方法,可以由計算機替代教師來完成這一工作,可有效彌補人工方式的以上缺陷。下面對相關技術背景進行介紹。1、docx格式MicrosoftWord是由微軟公司開發(fā)的一款辦公軟件,2007年之前的MicrosoftWord文件擴展名是doc,2007年及之后的版本使用的文件擴展名為docx,該類型格式采用基于XML的壓縮文件格式,一個新建的doc文件的大小為25KB,而一個新建的docx文件的大小為0KB,比doc格式更節(jié)省空間。2、論文模板論文模板是衡量學生提交的待測論文格式是否正確的標準,待測論文的格式如與論文模板的格式要求一致,則為正確;反之,則為錯誤。為了實現(xiàn)對論文格式正誤的快速檢測,論文模板的內容分為封面、獨創(chuàng)性聲明、標題、摘要、目錄、正文、頁眉頁腳、表格、圖形、參考文獻、授權書等十一個特定部分。本發(fā)明方法的工作即為對這十一個特定部分進行自動檢測。3、OpenXMLOpenXML是針對字處理文檔、演示文稿和電子表格的國際化開放標準,xml格式的文件存儲基于OpenXML標準設計的文檔的源碼。2010年3月,美國微軟公司發(fā)布了OpenXMLSDK,OpenXMLSDK的功能是查看基于OpenXML標準設計的文檔的xml源碼。OpenXMLSDK簡化了對OfficeCOM對象的訪問方法,提供了以xml文件的方式查看McrosoftWord文件的途徑,方便了用戶對McrosoftWord文件的管理。OpenXML定義了以下相關名詞:(1)標簽:由一對尖括號標識的關鍵詞,用來標記不同的元素,分為開始標簽和結束標簽;(2)元素:xml文件中從開始標簽到結束標簽之間的部分;(3)父元素:包含其他元素的元素稱為被包含元素的父元素;(4)子元素:元素中包含的元素稱為包含該元素的子元素;(5)屬性:在元素的開始標簽中規(guī)定,提供了元素除了文本內容以外的更多的信息,以名稱和值的形式成對出現(xiàn);(6)樣式的層次結構:不同層次均可定義樣式,高層次定義樣式的優(yōu)先級高于低層級,當需要確定樣式時,若高層次未定義該樣式,則應從高到低依次尋找首次出現(xiàn)的低層次定義的樣式,以此作為文本的樣式;下面是OpenXMLSDK中常見的word文檔標簽:(1)<document>:包含word文檔的全部內容,包括文字、圖表、頁眉頁腳及其屬性,是最頂層標簽;(2)<body>:<document>的子標簽,包含word文檔所有的文字、圖表及其屬性;(3)<paragraph>:即為文檔的段落,有些段落只包含一個<paragraph>,有些段落包含兩個及以上的<paragraph>。一個或若干個<paragraph>組成<body>,<paragraph>的集合包含<body>內所有的文字和圖形;(4)<p>:<paragraph>的縮寫形式,與<paragraph>相同;(5)<run>:位于<paragraph>內,為該段落的文字、圖片及其屬性;(6)<hyperlink>:位于<paragraph>內,標識作者對該目錄使用過word程序中的更新域選項,內容為目錄的位置;(7)<FieldChar>:位于<paragraph>內,標識作者未對該目錄使用過word程序中的更新域選項,內容為目錄的位置;(8)<text>:位于<run>內,內容為當前段落的文字內容;(9)<bookmarkStart>:位于<paragraph>內,標識換頁符的開始;(10)<sectPr>:位于<document>內,與<body>平級,內容包含此節(jié)的頁眉引用<headerReference>、頁腳引用<footerReference>、頁的大小、寬度、頁邊距、網(wǎng)格線信息等章節(jié)屬性;(11)<headerReference>:位于<sectPr>內,為所在節(jié)的頁眉引用,可由此定位到頁眉;(12)<footerReference>:位于<sectPr>內,為所在節(jié)的頁腳引用,可由此定位到頁腳;(13)<ftr>:位于<document>內,與<body>平級,內容包括首頁頁腳、奇數(shù)頁頁腳、偶數(shù)頁頁腳;(14)<hdr>:位于<docement>內,與<body>平級,內容包括首頁頁眉、奇數(shù)頁頁眉、偶數(shù)頁頁眉、頁腳;(15)<tbl>:位于<body>內,與<paragraph>并列,用于標識word文檔中的表格并存儲表格信息;(16)<picture>:位于<run>內,與<text>并列,用于標識word文檔中的圖片并存儲圖片信息;(17)<drawing>:位于<run>內,與<text>及<picture>并列,功能與<picture>相同,用于標識word文檔中的圖片并存儲圖片信息;(18)<r>:<run>的縮寫形式,與<run>相同;(19)<RunFonts>:位于<run>內,標識該段文字的字體,ASCII、EastAsian屬性分別代表了英文、簡體中文兩種文字的字體樣式,通過檢測ASCII及EastAsian這兩種屬性,可以判斷論文中的英文、中文的字體樣式是否正確,同時還需判斷<r>元素內文本是否只有中文或只有英文,以去除提取到的冗余的字體樣式;(20)<rFonts>:<RunFonts>的縮寫,與<RunFonts>相同;(21)<t>:<text>的縮寫形式,與<t>相同;(22)<size>:位于<paragraph>、<tbl>及<run>內,分別標識該段落,表格或文字的字號;(23)<sz>:<size>的縮寫形式,與<size>相同。4、本發(fā)明中的其他相關名詞解釋:(1)字號對照表:記錄字號、磅數(shù)以及毫米數(shù)之間的對應關系;(2)空段落:體現(xiàn)為文本內容為空的<p>元素或者文本內容全部由空字符構成的<p>元素。技術實現(xiàn)要素:本發(fā)明要解決的技術問題是提供一種學位論文格式自動檢測方法,能夠針對畢業(yè)生提交的學位論文,完成格式自動檢測,找到所有不符合格式要求的部分,并提供錯誤報告。本發(fā)明的技術方案:學位論文格式自動檢測方法,包括單元定位模塊、格式提取模塊、對比模塊三個模塊。1、單元定位模塊單元定位模塊的功能是在學位論文中準確找到封面、獨創(chuàng)性聲明、標題、摘要、目錄、正文、頁眉頁腳、表格、圖形、參考文獻、授權書等十一個特定部分的位置及每個特定部分的長度,即對以上各特定部分進行精確切割。單元定位模塊包括以下十一個子模塊。(1)封面定位子模塊封面存儲在<body>元素的子元素<paragraph>內,為論文的第一頁。定位封面時,首先找到整篇文檔的第一個包含文字的<paragraph>,若其中的文字與論文模板中論文主標題的文字相同,則說明成功定位到封面;若其中的文字與論文模板中論文主標題的文字不同,則繼續(xù)遍歷之后的<paragraph>。若之后的<paragraph>中存在與主標題字符串相同的<paragraph>,則成功定位到封面;若之后的<paragraph>不能找到與主標題字符串相同的<paragraph>,則說明封面缺失或論文主標題有誤。(2)獨創(chuàng)性聲明定位子模塊論文獨創(chuàng)性聲明存儲在<body>元素的子元素<paragraph>內,為論文的第二頁。定位論文獨創(chuàng)性聲明時,首先根據(jù)封面定位子模塊的結果判斷論文封面是否缺失,若論文封面未缺失,則找到封面之后的首個包含文字的<paragraph>,若封面缺失,則找到整篇文檔的第一個包含文字的<paragraph>。若該<paragraph>中的文字包含“獨創(chuàng)性聲明”,則說明成功定位到獨創(chuàng)性聲明;該<paragraph>中的文字不包含“獨創(chuàng)性聲明”,則繼續(xù)遍歷之后的<paragraph>。若之后的<paragraph>中的文字包含“獨創(chuàng)性聲明”,則成功定位到獨創(chuàng)性聲明;若之后的不能找到文字中包含“獨創(chuàng)性聲明”的<paragraph>,則說明獨創(chuàng)性聲明缺失或獨創(chuàng)性聲明標題有誤。(3)標題定位子模塊遍歷每一個<p>元素,若該<p>元素包含了<hyperlink>元素或者<bookmarkStart>元素,則將該<p>元素判定為包含了標題的段落;若不包含<hyperlink>元素和<bookmarkStart>元素,則獲取<p>元素中的全部文本,采用正則表達式匹配標題的編號以及編號和標題內容之間的空格來確定標題段落;若正則表達式無法匹配,找出文本長度符合標題長度的段落<p>,標記為疑似標題。(4)摘要定位子模塊中英文摘要存儲在<body>元素的子元素<paragraph>內,在定位中文摘要時,首先獲取標題定位子模塊定位到的全部標題,然后在其中找到“摘要”兩個字,獲取“摘要”標題所處的<paragraph>在<body>中的位置。然后依次遍歷開始位置后的每個<paragraph>。若遍歷到一個正文段落,則表示摘要定位成功。若遍歷某<paragraph>中的<text>元素,發(fā)現(xiàn)其包含的內容為“關鍵詞”,則在下一段終止摘要的處理,摘要定位完成。英文摘要的定位與中文摘要定位方法大致相同,唯一區(qū)別在于將“摘要”二字替換為“Abstract”,將“關鍵詞”替換為“Keywords”。(5)目錄定位子模塊目錄定位分為兩種情況:經(jīng)過“更新域”處理過的目錄和未經(jīng)“更新域”處理的目錄。前者包含<Hyperlink>元素,用以標記更新域的位置,該更新域的位置即為目錄;后者包含<FieldChar>元素。在定位目錄時,遍歷<body>中全部<paragraph>,所有包含<Hyperlink>元素及<FieldChar>元素的<paragraph>均為目錄。(6)正文定位子模塊首先尋找到全文的第一個帶編號的標題,標題后的第一個段落就是正文開始處;接著過濾中間封裝標題的<p>元素和封裝圖的<p>元素;最后定位正文結束部分,尋找正文結束后出現(xiàn)的第一個沒有編號的標題,以此為正文部分的結束定位標志。(7)頁眉頁腳定位子模塊首先遍歷<p>元素,判斷其中是否包含<sectPr>子元素;若包含<sectPr>子元素,找出<sectPr>元素的所有頁眉引用<headerReference>子元素,接著找出<sectPr>元素的所有頁腳引用<footerReference>子元素,利用頁眉引用、頁腳引用的標識符定位到相應的頁眉<hdr>元素和頁腳<ftr>元素;若不包含<sectPr>子元素,遍歷下一個<p>元素繼續(xù)檢測是否包含<sectPr>子元素,直到文檔最后停止遍歷;在<body>元素中尋找保存最后一節(jié)屬性的<sectPr>子元素,找出最后一節(jié)對應的頁眉引用和頁腳引用,從而定位到頁眉<hdr>和頁腳<ftr>元素;(8)表格定位子模塊表格信息存儲在<body>元素的子元素<tbl>內,依次遍歷每個<tbl>元素,可找到表格位置。定位表名的方法如下:首先獲取<tbl>的位置信息,即計算這個<tbl>元素是<body>的第幾個子元素,然后再檢測前一個位置的<p>是否為空段落,空段落體現(xiàn)為一個空行,非空段落作為表名處理。如在該前一個位置沒有找到表名,則再向前回溯一個位置繼續(xù)進行判斷。如超過3步回溯仍未找到表名,認為表名缺失或表名的格式有誤。(9)圖形定位子模塊找到<paragraph>元素的子元素<run>,圖片信息存儲在<run>的子元素<drawing>和<picture>中。在定位圖片時,遍歷所有的<paragraph>,對每一個包含<drawing>或<picture>的<paragraph>,先確定該<paragraph>是<body>的第幾個子元素,再查看該<paragraph>的下一個<paragraph>的內容是否為空,若為空則為空行;若不為空再繼續(xù)判斷該<paragraph>內是否包含文字“圖”,若包含成功定位到圖名,若不包含則認為圖名缺失或圖名的格式有誤。(10)參考文獻定位子模塊參考文獻存儲在<body>元素的子元素<paragraph>內。在定位參考文獻時,首先獲取標題定位子模塊定位到的全部標題,然后在其中找到“參考文獻”四個字,獲取“參考文獻”標題所處的<paragraph>在<body>中的位置。然后依次遍歷開始位置后的每個<paragraph>。若遍歷到一個包含文字的<paragraph>,則說明該<paragraph>包含參考文獻的內容;若遍歷到一個標題段落,則說明參考文獻內容結束,定位完成。(11)授權書定位子模塊授權書存儲在<body>元素的子元素<paragraph>內,為論文的最后一頁。定位授權書時,首先找到參考文獻結束的位置,然后找到該位置之后第一個包含文字的<paragraph>。若其中的文字包含“授權書”,則說明成功定位到授權書;若其中的文字不包含“授權書”,則繼續(xù)遍歷之后的<paragraph>。若之后的<paragraph>中的文字包含“授權書”,則成功定位到授權書;若之后不能找到文字包含“授權書”的<paragraph>,則說明授權書缺失或授權書標題有誤。2、格式提取模塊格式提取模塊的功能為獲取論文各特定部分的樣式。對于學位論文的每個特定部分,在格式提取模塊中都有對應的屬性配置文件和提取算法。格式提取模塊根據(jù)該特定部分屬性配置文件中的配置信息,調用該特定部分的提取算法來提取待檢測學位論文的格式。格式提取模塊包括段落屬性提取子模塊和特殊格式屬性提取子模塊。(1)段落屬性提取子模塊待測學位論文的每個特定部分都具有段落屬性,段落屬性提取是所有特定部分的共性工作,由段落屬性提取子模塊完成。在OpenXML中,典型的段落屬性有:字體、字號、段間距。①字體依次遍歷每一個<p>元素,按照樣式的層次結構依次提取字體樣式,獲取到中英文的字體;檢測段落是否為全英文、全中文,或者既有中文又有英文,若是全英文,舍棄提取到的中文字體樣式,不能用于對比模塊;若是全中文,舍棄提取到的英文字體樣式,不能用于對比模塊;若既有中文又有英文,提取到的中文英文字體樣式全部保存。②字號首先按照樣式的層次結構獲取<sz>的屬性Val的值,計算得到以磅為單位的字號大??;然后參考字號對照表得到字號和磅數(shù)的對應關系,得到實際字號;將字號保存用于對比模塊。③段間距段前距離信息從<spacing>元素的before和beforeLines屬性中提取。首先依據(jù)樣式的層次結構找到<spacing>元素;若該元素包含beforeLines屬性,獲取該屬性對應的屬性值,計算得到以行距倍數(shù)表示的該段落的段前距離;利用<sectPr>元素的子元素<docGrid>的linePitch屬性可以獲得一行的磅數(shù),統(tǒng)一換算成以“磅”為單位的段前距離;若不包含beforeLines屬性,則獲取before屬性的屬性值,計算得到以“磅”為單位的段前距離。段后距離信息從<spacing>元素的after和afterLines屬性中提取。首先依據(jù)樣式的層次結構找到<spacing>元素;若該元素包含afterLines屬性,獲取該屬性對應的屬性值,計算得到以行距倍數(shù)表示的該段落的段后距離;換算成以“磅”為單位的段后距離;若不包含afterLines屬性,則獲取after屬性的屬性值,計算得到以“磅”為單位的段后距離。行距樣式信息從<spacing>元素的lineRule和line屬性中提取,lineRule保存的是解析line的方法。首先依據(jù)樣式的層次結構找到<spacing>元素;若lineRule為auto或者省略,則此時提取的結果為以行距倍數(shù)表示的該段落的行距;若lineRule屬性的值為atLeast或者為exactly,此時提取的結果以磅為單位。與段前距一樣,本發(fā)明統(tǒng)一轉換為以磅為單位方便對比。(2)特殊格式屬性提取子模塊特殊格式提取子模塊用于處理除段落屬性之外的其他格式提取問題,包括參考文獻樣式提取、圖和表所在章節(jié)的標題名稱提取等,這些格式要求在OpenXML中并沒有明確的元素對應,需采用特殊方式提取。①參考文獻格式提取不同類型的參考文獻書寫格式不同,需先確定每條參考文獻屬于哪種類型,然后才能進行詳細格式分析。首先利用正則表達式匹配參考文獻的標志代碼,根據(jù)標志代碼確定參考文獻的類型;若無法匹配,說明此條參考文獻缺少標志代碼,保存錯誤信息后,繼續(xù)下一條參考文獻格式的提??;若匹配成功,接著以中括號為分割點把該條參考文獻分割成幾部分,檢測作者、出版社、出版年份、期刊號等格式是否滿足要求;接下來獲取參考文獻的編號樣式,判斷參考文獻的編號是否連續(xù),若不連續(xù),保存錯誤信息,若連續(xù),進入下一步;最后統(tǒng)計參考文獻條目的數(shù)目,保存起來用于對比模塊。檢測參考文獻連續(xù)性的方法如下:首先記錄并維護參考文獻的正確編號值,即編號應為從1開始的連續(xù)自然數(shù),每次檢測到新的參考文獻條目后此值加1;接著判斷此參考文獻是手動編號還是自動編號,若是手動編號,利用正則表達式獲取編號,然后判斷是否和正確編號值相同,若是自動編號只需檢測自動編號開始的參考文獻編號是否和正確編號值相同。②圖和表所在章節(jié)的標題名稱提取首先用鏈表保存章節(jié)標題所在的段落的位置信息,即索引值;然后獲取圖、表的索引,用圖、表的索引值和鏈表中的各個值依次比較,直到鏈表中的值大于圖、表的索引值為止,則鏈表中的前一個數(shù)值就是該圖、表所在章節(jié)標題的標題位置;最后根據(jù)此索引即可得到標題名稱;3、對比模塊對比模塊的功能是將格式提取模塊提取出的待測論文中的格式特征與論文模板中的規(guī)則進行對比,分析二者是否一致,從而驗證待測論文格式是否正確,并將對比結果不一致的格式問題寫入到檢測報告中。該模塊分為規(guī)則配置文件、規(guī)則對比子模塊、報告生成子模塊三個部分。(1)規(guī)則配置文件規(guī)則配置文件包含了模板論文規(guī)定的規(guī)則,是檢測待測論文正確與否的標準。規(guī)則配置文件的內容按照封面、獨創(chuàng)性聲明、標題、摘要、目錄、正文、頁眉頁腳、表格、圖形、參考文獻、授權書等十一個部分進行配置。在調用規(guī)則配置文件時,首先由單元定位模塊確定當前檢測的位置在論文中所屬的部分,然后檢測該部分是否已存在xml格式的配置文件,若存在,則進入規(guī)則對比子模塊;若不存在,則說明當前部分沒有設置格式要求,結束當前部分的檢測。(2)規(guī)則對比子模塊規(guī)則對比子模塊的功能是將待測論文的格式特征與規(guī)則配置文件配置的規(guī)則進行對比,檢測格式提取模塊提取出的待測論文的格式特征的正誤。在進行對比時,獲取單元定位模塊的結果,判斷當前要檢測的段落是待測論文的哪一部分,在規(guī)則配置文件中找到模板論文相應的規(guī)則,將格式提取模塊提取到的該部分的格式特征與相應的規(guī)則配置文件中的規(guī)則進行對比,若該格式特征與規(guī)則配置文件中的規(guī)則一致,則說明該格式正確;反之該格式特征錯誤。(3)報告生成子模塊首先獲取生成報告的保存路徑,若用戶未自定義,默認路徑設置為該待測論文的上傳路徑;接著獲取在規(guī)則配置文件中保存的所有待檢測的特定部分的節(jié)點信息,依次遍歷每個節(jié)點;獲取節(jié)點中保存的該節(jié)點對應的名稱,從而找到對應的錯誤信息的保存位置;將尋找到的錯誤信息編號后保存到檢測報告中,最終生成一份txt類型的檢測報告。本發(fā)明的有益效果在于可以自動檢測學位論文格式的正確性,并將不符合模板格式要求的部分寫入錯誤報告。本發(fā)明相對于人工檢查而言,具有檢測效率高、檢測結果準確等特點。附圖說明圖1是本發(fā)明的系統(tǒng)結構圖。圖2是本發(fā)明的數(shù)據(jù)流圖。具體實施方式以下結合
發(fā)明內容和說明書附圖詳細說明本發(fā)明的具體實施方式。1、系統(tǒng)結構本方法的系統(tǒng)結構如圖1所示,包括單元定位模塊、格式提取模塊、對比模塊三個模塊。單元定位模塊包括封面定位子模塊、獨創(chuàng)性聲明定位子模塊、標題定位子模塊、摘要定位子模塊、目錄定位子模塊、正文定位子模塊、頁眉頁腳定位子模塊、表格定位子模塊、圖形定位子模塊、參考文獻定位子模塊、授權書定位子模塊等十一個子模塊。封面定位子模塊的功能是找出封面在待測論文中的位置;獨創(chuàng)性聲明定位子模塊的功能是找出獨創(chuàng)性聲明在待測論文中的位置;標題定位子模塊的功能是找出待測論文中所有的標題及其所在的<paragraph>元素在<body>元素中的位置;摘要定位子模塊的功能是找出摘要在待測論文中的位置;目錄定位子模塊的功能是找出目錄在待測論文中的位置;正文定位子模塊的功能是找出正文在待測論文中的位置;頁眉頁腳定位子模塊的功能是找出待測論文中的全部頁眉頁腳及其所在的<paragraph>元素在<body>元素中的位置;表格定位子模塊的功能是找出待測論文中的全部表格及表格所在的<tbl>元素在<body>元素中的位置;圖形定位子模塊的功能是找出待測論文中的全部圖形及其所在的<paragraph>元素在<body>元素中的位置;參考文獻定位子模塊的功能是找出參考文獻在待測論文中的位置;授權書定位子模塊的功能是找出授權書在待測論文中的位置。格式提取模塊包括段落屬性提取子模塊和特殊格式屬性提取子模塊兩個子模塊。段落屬性提取子模塊的功能是提取待測論文每個部分共有的段落屬性,即提取每個段落的字體、字號、段間距;特殊格式屬性提取子模塊的功能是處理除段落屬性之外的其他格式提取問題,包括參考文獻樣式提取、圖和表所在章節(jié)的標題名稱提取。對比模塊包括規(guī)則配置文件、規(guī)則對比子模塊、報告生成子模塊三個部分。規(guī)則配置文件的功能是存儲模板論文規(guī)定的規(guī)則,規(guī)則配置文件是檢測待測論文正確與否的標準;規(guī)則對比子模塊的功能是將待測論文的格式特征與規(guī)則配置文件配置的規(guī)則進行對比,檢測格式提取模塊提取出的待測論文的格式特征的正誤;報告生成子模塊的功能是獲取規(guī)則對比子模塊中檢測到的錯誤的待測論文的格式特征并寫入檢測報告中供用戶查看。2、數(shù)據(jù)處理過程本方法對每個特定部分均進行單元定位、格式提取、對比操作,最終生成檢測報告給用戶。以參考文獻部分為例,其數(shù)據(jù)流圖如圖2所示:用戶上傳待測論文;單元定位負責定位參考文獻部分的xml信息,然后輸出至格式提取模塊的兩個子模塊;段落屬性提取子模塊將提取出參考文獻部分的段落屬性,如字體、字號、行間距;特殊格式屬性提取子模塊將提取到關于參考文獻部分的特殊格式,如參考文獻的連續(xù)性、參考文獻條目中的作者規(guī)范性及出版社信息規(guī)范性;參考文獻部分的xml信息經(jīng)過格式提取處理后,轉變?yōu)槎温鋵傩约疤厥飧袷綄傩缘臉邮叫畔⑤敵鲋翆Ρ饶K;對比模塊的規(guī)則對比子模塊將提取到的樣式信息和規(guī)則配置文件中的參考文獻規(guī)則進行對比,對比之后輸出參考文獻部分的對比結果;對比模塊的報告生成子模塊將對比結果按照確定格式輸出到檢測報告中;檢測報告交付給用戶使用。3、規(guī)則配置文件設計在創(chuàng)建規(guī)則配置文件之前,預先定義該文檔的格式,規(guī)則配置文件的最頂層元素定義為當前檢測部分的名稱,最頂層元素之下包含兩類元素,第一類元素作用是標記規(guī)則配置文件包含的規(guī)則在待測論文中所屬的部分;第二類元素是規(guī)則配置文件配置文件的主體部分,記錄該部分所包含的規(guī)則。以圖形部分的規(guī)則配置文件為例,該部分的規(guī)則配置文件代碼如下:第一行代碼為xml文件的版本標識及編碼方式,<FigureStyle>元素是該規(guī)則配置文件的頂層元素,包含<partName>和<spErroInfo>兩類元素。<partName>元素為<FigureStyle>元素下的第一類元素,<partName>元素內有且只有一個<Text>元素,<Text>元素的內容為當前規(guī)則配置文件包含的規(guī)則在待測論文中所屬的部分;<spErroInfo>為<FigureStyle>元素下的第二類元素,內容為該規(guī)則配置文件所包含的具體規(guī)則,<spErroInfo>元素由一個或多個<Text>元素組成,每個<Text>元素記錄圖形部分的一條屬性,第一條<Text>元素記錄的屬性為:圖名字體應為宋體,第二條<Text>元素記錄的屬性為:圖名的序號與文字中間應空兩格。4、檢測報告設計檢測報告名稱以待檢測論文名稱加檢測時間戳來命名,方便用戶區(qū)分多次提交的檢測報告。檢測報告包括錯誤信息列表和錯誤信息統(tǒng)計兩個部分。在錯誤信息列表部分,論文的封面、獨創(chuàng)性聲明、標題、摘要、目錄、正文、頁眉頁腳、表格、圖形、參考文獻、授權書等十一個特定部分都可能有格式書寫錯誤,為方便用戶查看,各特定部分之間用分割線分割。所有的錯誤信息從1開始按順序編號,錯誤信息分為兩大類,一類是確定錯誤,一類是警告。確定錯誤代表論文中的明確的錯誤,每條確定錯誤從前向后依次為:錯誤編號、錯誤說明、用大括號標注的錯誤位置和錯誤頁碼;警告為疑似錯誤,每條警告從前向后依次為:“警告”二字標識、警告說明、用大括號標注的警告位置和警告頁碼。錯誤統(tǒng)計部分負責統(tǒng)計出錯誤總數(shù)以及不同類型的錯誤總數(shù)。錯誤統(tǒng)計部分的意義在于,列舉出不同種類錯誤的數(shù)目,使用戶了解各類型錯誤的發(fā)生概率,為將來論文撰寫提供指導。錯誤統(tǒng)計分為兩大類,一類為與段落屬性提取子模塊相對應的一般錯誤統(tǒng)計信息,一類為與特殊格式屬性提取子模塊相對應的特殊錯誤統(tǒng)計信息。一般錯誤統(tǒng)計信息有:字體錯誤、字號錯誤、段前間距、段后間距錯誤、行間距錯誤。特殊錯誤統(tǒng)計信息對應論文的各個特定部分,例如:頁眉部分的奇偶頁錯誤、摘要關鍵詞錯誤、表名格式錯誤、參考文獻條目格式錯誤。某待測試論文的檢測報告實例如下:《基于SWOT分析的企業(yè)財務管理系統(tǒng)設計與實現(xiàn)》檢測報告一:錯誤信息列表-----------------封面-----------------1.統(tǒng)招、單考碩士、高校教師在職申請碩士學位、同等學歷碩士封面標識內容應為“碩士學位論文”2.封面英文標題實詞首字母未大寫:{TheenterpriseFinancialManagement}3.統(tǒng)招、單考碩士、高校教師在職申請碩士學位、同等學歷碩士研究生信息的第二個標題應為“學科、專業(yè)”4.封面底部英文校名字號錯誤,應為小四號-----------------摘要-----------------5.中文摘要關鍵詞字號錯誤,應為小四號6.英文摘要上方缺少論文英文題目,或者與封面的英文標題書寫不一致7.英文摘要關鍵詞字體錯誤,錯誤部分為:{:}-----------------頁眉頁腳-----------------8.奇數(shù)頁頁眉命名不規(guī)范應為:“大連理工大學碩士學位論文”||摘要9.偶數(shù)頁頁眉命名不規(guī)范,應為論文中文題目||摘要-----------------目錄-----------------10.目錄中該章節(jié)標題中文字體錯誤,應為宋體:{1緒論}-----------------正文-----------------11.該段落中文字體錯誤,應為宋體:{3.3.1系統(tǒng)體系框架設計“Spring的作用貫”P12}12.此段落字號錯誤,應為小四:{5.4.7應收款管理功能實現(xiàn)“弱點機會組合”P37}“疑似”:此段落疑似標題,請確認{6.2.2測試通過標準P42}-----------------圖-----------------13.如圖名不是該頁的最后一行,則圖名下一行應為空行:{4.2系統(tǒng)部署“圖4.2系統(tǒng)部署圖”P19}14.圖英文名錯誤,應為“Fig.M.NName”:{5.4.1用戶登陸“Fig.5.3Generalmodule”P38}-----------------表-----------------15.中文序號與表名之間應空兩格:{4.4數(shù)據(jù)庫設計表“4.3部門信息表”P19}16.該表格中文表名未居中:{4.4數(shù)據(jù)庫設計“表4.1科目余額審核表”P21}17.英文表名沒有居中:{4.4數(shù)據(jù)庫設計“Tab.4.1Accountbalanceaudittable”P21}-----------------參考文獻-----------------18.警告:期刊類參考文獻期號一般不超過20,此條參考文獻期號過大:{[1]何雪梅.大數(shù)P49}19.期刊類參考文獻期號卷號處不應有空格:{[7]李成偉.我國P49}20.期刊類參考文獻應以“:頁碼范圍”結尾”:{[10]梁亞玲.試P49}21.不能缺少院系{鐘雁.管理信息系統(tǒng)P49}22.此條參考文獻字體錯誤,應為中文宋體,英文TimesNewRoman:{[24]Levy,P49}二:錯誤統(tǒng)計本論文共檢測出錯誤22條,列舉如下:-----------------一般錯誤統(tǒng)計-----------------1.字體錯誤:42.字號錯誤:3-----------------特殊錯誤統(tǒng)計-----------------3.封面標識錯誤:14.封面中英文標題錯誤:15.封面信息填寫錯誤:16.封面底部校名錯誤:17.摘要標題錯誤:18.頁眉奇偶頁錯誤:19.圖空行錯誤:110.圖名格式錯誤:111.表名格式錯誤:312.參考文獻條目格式錯誤:4針對該論文,共檢測出8個特定部分有錯誤信息,分別為:封面、摘要、頁眉頁腳、目錄、正文、圖、表、參考文獻;并生成錯誤統(tǒng)計信息,包括錯誤總數(shù)、一般錯誤統(tǒng)計和特殊錯誤統(tǒng)計。檢測出的一般錯誤有:字體錯誤、字號錯誤。檢測出的特殊錯誤有:封面標識錯誤、封面中英文錯誤、封面信息填寫錯誤、封面底部校名錯誤、摘要標題錯誤、頁眉奇偶頁錯誤、圖空行錯誤、圖名格式錯誤、表名格式錯誤、參考文獻條目格式錯誤。5、實驗及結果基于本方法設計了“學位論文格式自動檢測軟件”,對本方法的有效性進行驗證。在編程結束后,共進行了開發(fā)人員測試,用戶測試兩方面測試,下面是測試用例及測試結果。隨機選取了大連理工大學畢業(yè)研究生的46篇學位論文,針對封面、獨創(chuàng)性聲明、標題、摘要、目錄、正文、頁眉頁腳、表格、圖形、參考文獻、授權書等十一個特定部分進行測試,全部能夠正常生成檢測報告,平均0.717秒完成一篇論文檢測,誤報率為0,漏報率小于1%。將本軟件部署于網(wǎng)站之上并針對大連理工大學即將上交學位論文的研究生開放,共有317名學生上傳523篇次論文,全部可以正常生成檢測報告,誤報率為0,漏報率小于1%。當前第1頁1 2 3 當前第1頁1 2 3