原標(biāo)題:文章相似度檢測(cè)工具(文章相似度檢測(cè)工具免費(fèi))
每年六月,都是一個(gè)畢業(yè)季。每個(gè)大學(xué)生不僅要參加論文答辯,還要提交優(yōu)質(zhì)的論文。但什么樣的論文才能被認(rèn)為是優(yōu)質(zhì)的呢?最基本的一個(gè)要求就是查重率不能超過30%(這個(gè)每個(gè)學(xué)??赡芤蟛灰粯?,有的是20%)。那么問題來了,我們的論文在知網(wǎng)下是怎么計(jì)算出查重率的呢?其實(shí)查重率最重要的是計(jì)算兩篇文章的相似度。
文本相似度
文本相似度計(jì)算在信息檢索、數(shù)據(jù)挖掘、機(jī)器翻譯、文檔復(fù)制檢測(cè)等領(lǐng)域有著廣泛應(yīng)用。例如輿論控制,假設(shè)你開發(fā)了一個(gè)微博網(wǎng)站,并且已經(jīng)把世界上罵人的句子都已經(jīng)收錄進(jìn)了一個(gè)數(shù)據(jù)庫(kù),那么當(dāng)一個(gè)用戶發(fā)微博時(shí)會(huì)先跟罵人句子的數(shù)據(jù)庫(kù)進(jìn)行比較,如果符合里面的句子就不讓用戶發(fā)出去。
基本算法--余弦相似度
使用TF-IDF算法,找出兩篇文章的關(guān)鍵詞;
每篇文章各取出若干個(gè)關(guān)鍵詞(比如20個(gè)),合并成一個(gè)集合,計(jì)算每篇文章對(duì)于這個(gè)集合中的詞的詞頻(為了避免文章長(zhǎng)度的差異,可以使用相對(duì)詞頻);
生成兩篇文章各自的詞頻向量;
計(jì)算兩個(gè)向量的余弦相似度,值越大就表示越相似。
對(duì)于TF-IDF算法,我在之前的文章介紹過,有需要的可以去翻閱。這篇文章主要詳細(xì)講述余弦相似度算法。
假設(shè)向量a、b的坐標(biāo)分別為(x1,y1)、(x2,y2) 文章。則:
工具
設(shè)向量 A=(A1,A2,...,An),B=(B1,B2,...,Bn) 。推廣到多維,數(shù)學(xué)家已經(jīng)幫我們證明了,所以你只要記住下面的公式:
簡(jiǎn)單來說可以寫成下面的式子:
舉一個(gè)具體例子,我們先從句子開始:
句子A:我喜歡看電視,不喜歡看電影。
句子B:我不喜歡看電視,也不喜歡看電影。
第一步:分詞
句子A:我/喜歡/看/電視,不/喜歡/看/電影。
句子B:我/不/喜歡/看/電視,也/不/喜歡/看/電影。
第二步:列出所有的詞
我,喜歡,看,電視,電影,不,也
第三步:計(jì)算詞頻
句子A:我 1,喜歡 2,看 2,電視 1,電影 1,不 1,也 0
句子B:我 1,喜歡 2,看 2,電視 1,電影 1,不 2,也 1
第四步:寫出詞頻向量
句子A:[1, 2, 2, 1, 1, 1, 0]
句子B:[1, 2, 2, 1, 1, 2, 1]
第五步:計(jì)算余弦值
檢測(cè)
余弦值越接近1,就表明夾角越接近0度,也就是兩個(gè)向量越相似,這就叫"余弦相似性"。
簡(jiǎn)單來說上面計(jì)算出的值代表兩個(gè)句子大概九成相似,越接近1就越相似。
?
版權(quán)聲明:本文來自互聯(lián)網(wǎng)整理發(fā)布,如有侵權(quán),聯(lián)系刪除
原文鏈接:http://m.avtt22014.comhttp://m.avtt22014.com/wangluozixun/16097.html