Python實現傑卡德距離以及環比算法講解

前言

NLP-字符串相似性計算、集合相似性度量

提示:以下是本篇文章正文內容,下面案例可供參考

傑卡德距離是什麼?

傑卡德距離(Jaccard Distance) 是用來衡量兩個集合差異性的一種指標,它是傑卡德相似系數的補集,被定義為1減去Jaccard相似系數。而傑卡德相似系數(Jaccard similarity coefficient),也稱傑卡德指數(Jaccard Index),是用來衡量兩個集合相似度的一種指標。

定義

Jaccard相似指數用來度量兩個集合之間的相似性,它被定義為兩個集合交集的元素個數除以並集的元素個數。

在這裡插入圖片描述

Jaccard距離用來度量兩個集合之間的差異性,它是Jaccard的相似系數的補集,被定義為1減去Jaccard相似系數。

在這裡插入圖片描述

Python實現

代碼如下:

# -*- encoding:utf-8 -*-
import jieba
def Jaccard(model, reference):  # terms_reference為源句子,terms_model為候選句子
    terms_reference = jieba.cut(reference)  # 默認精準模式
    terms_model = jieba.cut(model)
    grams_reference = set(terms_reference)  # 去重;如果不需要就改為list
    grams_model = set(terms_model)
    temp = 0
    for i in grams_reference:
        if i in grams_model:
            temp = temp + 1
    fenmu = len(grams_model) + len(grams_reference) - temp  # 並集
    try:
        jaccard_coefficient = float(temp / fenmu)  # 交集
    except ZeroDivisionError:
        print(model, reference)
        return 0
    else:
        return jaccard_coefficient

環比是什麼?

環比的發展速度是報告期水平與前一時期水平之比,表明現象逐期的發展速度。如計算一年內各月與前一個月對比,即2月比1月,3月比2月,4月比3月……12月比11月,說明逐月的發展程度。如分析抗擊“非典”期間某些經濟現象的發展趨勢,環比比同比更說明問題。

學過統計或者經濟知識的人都知道,統計指標按其具體內容、實際作用和表現形式可以分為總量指標、相對指標和平均指標。由於采用基期的不同,發展速度可分為同比發展速度、環比發展速度和定基發展速度。簡單地說,就是同比、環比與定基比,都可以用百分數或倍數表示。
定基比發展速度,也簡稱總速度,一般是指報告期水平與某一固定時期水平之比,表明這種現象在較長時期內總的發展速度。同比發展速度,一般指是指本期發展水平與上年同期發展水平對比,而達到的相對發展速度。環比發展速度,一般是指報告期水平與前一時期水平之比,表明現象逐期的發展速度。
同比和環比,這兩者所反映的雖然都是變化速度,但由於采用基期的不同,其反映的內涵是完全不同的;一般來說,環比可以與環比相比較,而不能拿同比與環比相比較;而對於同一個地方,考慮時間縱向上發展趨勢的反映,則往往要把同比與環比放在一起進行對照。 [1]

Python實現

代碼如下:

def month_on_month_ratio(data_list):
    mid = 0
    length = len(data_list)
    res = []
    while mid < length-1:
        a, b = data_list[mid:mid+2]
        res.append((b-a)/a)
        mid += 1
    return res

以上就是今天分享的內容,本文僅僅簡單介紹瞭傑卡德距離以及環比的Python版實現,希望可以幫到大傢,請大傢以後多多支持WalkonNet!

推薦閱讀: