文章相似度檢測(cè)工具(文章相似度檢測(cè)工具免費(fèi))

時(shí)間:2023-01-13 14:22:21 閱讀:132

原標(biāo)題:文章相似度檢測(cè)工具(文章相似度檢測(cè)工具免費(fèi))

  文章相似度檢測(cè)工具(文章相似度檢測(cè)工具免費(fèi))

文章相似度檢測(cè)工具

  每年六月,都是一個(gè)畢業(yè)季。每個(gè)大學(xué)生不僅要參加論文答辯,還要提交優(yōu)質(zhì)的論文。但什么樣的論文才能被認(rèn)為是優(yōu)質(zhì)的呢?最基本的一個(gè)要求就是查重率不能超過30%(這個(gè)每個(gè)學(xué)??赡芤蟛灰粯?,有的是20%)。那么問題來了,我們的論文在知網(wǎng)下是怎么計(jì)算出查重率的呢?其實(shí)查重率最重要的是計(jì)算兩篇文章的相似度。

  文本相似度

  文本相似度計(jì)算在信息檢索、數(shù)據(jù)挖掘、機(jī)器翻譯、文檔復(fù)制檢測(cè)等領(lǐng)域有著廣泛應(yīng)用。例如輿論控制,假設(shè)你開發(fā)了一個(gè)微博網(wǎng)站,并且已經(jīng)把世界上罵人的句子都已經(jīng)收錄進(jìn)了一個(gè)數(shù)據(jù)庫(kù),那么當(dāng)一個(gè)用戶發(fā)微博時(shí)會(huì)先跟罵人句子的數(shù)據(jù)庫(kù)進(jìn)行比較,如果符合里面的句子就不讓用戶發(fā)出去。

  基本算法--余弦相似度

文章相似度檢測(cè)工具免費(fèi)

  使用TF-IDF算法,找出兩篇文章的關(guān)鍵詞;

  每篇文章各取出若干個(gè)關(guān)鍵詞(比如20個(gè)),合并成一個(gè)集合,計(jì)算每篇文章對(duì)于這個(gè)集合中的詞的詞頻(為了避免文章長(zhǎng)度的差異,可以使用相對(duì)詞頻);

  生成兩篇文章各自的詞頻向量;

  計(jì)算兩個(gè)向量的余弦相似度,值越大就表示越相似。

  對(duì)于TF-IDF算法,我在之前的文章介紹過,有需要的可以去翻閱。這篇文章主要詳細(xì)講述余弦相似度算法。

  假設(shè)向量a、b的坐標(biāo)分別為(x1,y1)、(x2,y2) 文章。則:

  文章相似度檢測(cè)工具(文章相似度檢測(cè)工具免費(fèi))工具

  設(shè)向量 A=(A1,A2,...,An),B=(B1,B2,...,Bn) 。推廣到多維,數(shù)學(xué)家已經(jīng)幫我們證明了,所以你只要記住下面的公式:

  文章相似度檢測(cè)工具(文章相似度檢測(cè)工具免費(fèi))

  簡(jiǎn)單來說可以寫成下面的式子:

  文章相似度檢測(cè)工具(文章相似度檢測(cè)工具免費(fèi))

  舉一個(gè)具體例子,我們先從句子開始:

  句子A:我喜歡看電視,不喜歡看電影。

  句子B:我不喜歡看電視,也不喜歡看電影。

  第一步:分詞

  句子A:我/喜歡/看/電視,不/喜歡/看/電影。

  句子B:我/不/喜歡/看/電視,也/不/喜歡/看/電影。

  第二步:列出所有的詞

  我,喜歡,看,電視,電影,不,也

  第三步:計(jì)算詞頻

  句子A:我 1,喜歡 2,看 2,電視 1,電影 1,不 1,也 0

  句子B:我 1,喜歡 2,看 2,電視 1,電影 1,不 2,也 1

  第四步:寫出詞頻向量

  句子A:[1, 2, 2, 1, 1, 1, 0]

  句子B:[1, 2, 2, 1, 1, 2, 1]

  第五步:計(jì)算余弦值

  檢測(cè) 文章相似度檢測(cè)工具(文章相似度檢測(cè)工具免費(fèi))

  余弦值越接近1,就表明夾角越接近0度,也就是兩個(gè)向量越相似,這就叫"余弦相似性"。

  簡(jiǎn)單來說上面計(jì)算出的值代表兩個(gè)句子大概九成相似,越接近1就越相似。

  文章相似度檢測(cè)工具(文章相似度檢測(cè)工具免費(fèi))

  ?

版權(quán)聲明:本文來自互聯(lián)網(wǎng)整理發(fā)布,如有侵權(quán),聯(lián)系刪除

原文鏈接:http://m.avtt22014.comhttp://m.avtt22014.com/wangluozixun/16097.html

標(biāo)簽:文章 工具 檢測(cè)

Copyright ? 2021-2022 All Rights Reserved 備案編號(hào):閩ICP備2023009674號(hào) 網(wǎng)站地圖 聯(lián)系:dhh0407@outlook.com

主站蜘蛛池模板: 四虎AV永久在线精品免费观看| 无人高清视频免费观看在线动漫| 国产精品国产免费无码专区不卡| 亚洲精品国产综合久久一线| www.fuqer.com| 窈窕淑女在线观看免费韩剧| 成人综合视频网| 卡一卡二卡三精品| √最新版天堂资源网在线| 精品国产一区二区三区在线| 性一交一乱一乱一视频| 医生女同护士三女| www久久com| 波多野结衣被躁五十分钟视频| 在线www中文在线| 亚洲欧洲无码av不卡在线| 永久免费视频网站在线观看| 欧美人妻aⅴ中文字幕| 国产日韩中文字幕| 久久福利视频导航| 色婷婷综合久久久| 尹人久久久香蕉精品| 伊人久久波多野结衣中文字幕 | 国产免费拔擦拔擦8x| 久久国产欧美日韩精品| 色综合久久久久综合99| 巨大黑人极品videos中国| 亚洲色无码国产精品网站可下载| 91麻豆高清国产在线播放| 欧美人牲交a欧美精区日韩| 国产在视频线精品视频| 丰满饥渴老女人hd| 男生和女生一起差差差很痛视频| 国语自产偷拍精品视频偷拍| 亚洲人配人种jizz| 调教贱奴女警花带乳环小说| 成人三级精品视频在线观看 | 久久午夜免费鲁丝片| 老子影院午夜精品无码| 天堂а√中文最新版地址在线| 亚洲国产成人久久精品影视 |