JavaScript實現文本相似度對比
一、發現問題
在開發過程中,難免會使用到2個(多個)文本內容處理,一是便於宏觀知道文本的重合度,而是更好的區分文本的創新度,也能更好的避免出現大篇幅復制。
為此,可以通過2個文本的相似度對比來實現業務需求。
二、解決問題
如果使用後端語言1來處理,就需要調取接口,對比少量的短文本可以實現,但是一旦遇到在界面實現多個文本對比,並且篇幅巨多,再通過接口可能就出現耗時特別長的情況。既然如此,但不如直接使用前端來處理。
使用算法:編輯距離。
1、編輯距離的概念
設A和B是兩個字符串,使用最少的字符操作將字符串A轉換為B。字符操作包括:(1)刪除一個字符;(2)插入一個字符;(3)將一個字符改寫為另一個字符。將字符串A變換為字符串B所需要的最少字符操作數稱為字符串A到字符串B的編輯距離(Edit Distance)
2、測試文本
舉例,文字來自網絡。
文本1
北京商報訊(記者 魏蔚)1月21日,交通運輸部官方微信公眾號披露,1月20日上午,交通運輸新業態協同監管部際聯席會議辦公室對滿幫、貨拉拉、滴滴貨運、快狗打車等4傢互聯網道路貨運平臺公司進行約談,對滴滴出行、曹操出行、T3出行、美團出行等4傢網約車平臺公司進行提醒。
文本2
智通財經APP獲悉,1月20日,交通運輸新業態協同監管部際聯席會議辦公室對滿幫、貨拉拉、滴滴貨運、快狗打車等4傢互聯網道路貨運平臺公司進行約談,對滴滴出行、曹操出行、T3出行、美團出行等4傢網約車平臺公司進行提醒。
3、代碼實現
實現代碼如下,最後返回的數據邏輯可以自行修改。
/** * 相似度對比 * @param s 文本1 * @param t 文本2 * @param f 小數位精確度,默認2位 * @returns {string|number|*} 百分數前的數值,最大100. 比如 :90.32 */ function similar(s, t, f) { if (!s || !t) { return 0 } if(s === t){ return 100; } var l = s.length > t.length ? s.length : t.length var n = s.length var m = t.length var d = [] f = f || 2 var min = function (a, b, c) { return a < b ? (a < c ? a : c) : (b < c ? b : c) } var i, j, si, tj, cost if (n === 0) return m if (m === 0) return n for (i = 0; i <= n; i++) { d[i] = [] d[i][0] = i } for (j = 0; j <= m; j++) { d[0][j] = j } for (i = 1; i <= n; i++) { si = s.charAt(i - 1) for (j = 1; j <= m; j++) { tj = t.charAt(j - 1) if (si === tj) { cost = 0 } else { cost = 1 } d[i][j] = min(d[i - 1][j] + 1, d[i][j - 1] + 1, d[i - 1][j - 1] + cost) } } let res = (1 - d[n][m] / l) *100 return res.toFixed(f) }
4、相似度對比結果
根據測試文本對比,結果為:
75.00
到此這篇關於JavaScript實現文本相似度對比的文章就介紹到這瞭,更多相關js文本相似度內容請搜索WalkonNet以前的文章或繼續瀏覽下面的相關文章希望大傢以後多多支持WalkonNet!
推薦閱讀:
- 淺談JavaScript中的parseInt()的妙用
- 簡單聊聊Js中的常見錯誤類型
- JavaScript求解最長回文子串的方法分享
- typescript快速上手的基礎知識篇
- javascript代碼簡寫的幾種常用方式匯總