Python實現傑卡德距離以及環比算法講解
前言
NLP-字符串相似性計算、集合相似性度量
提示:以下是本篇文章正文內容,下面案例可供參考
傑卡德距離是什麼?
傑卡德距離(Jaccard Distance) 是用來衡量兩個集合差異性的一種指標,它是傑卡德相似系數的補集,被定義為1減去Jaccard相似系數。而傑卡德相似系數(Jaccard similarity coefficient),也稱傑卡德指數(Jaccard Index),是用來衡量兩個集合相似度的一種指標。
定義
Jaccard相似指數用來度量兩個集合之間的相似性,它被定義為兩個集合交集的元素個數除以並集的元素個數。
Jaccard距離用來度量兩個集合之間的差異性,它是Jaccard的相似系數的補集,被定義為1減去Jaccard相似系數。
Python實現
代碼如下:
# -*- encoding:utf-8 -*- import jieba def Jaccard(model, reference): # terms_reference為源句子,terms_model為候選句子 terms_reference = jieba.cut(reference) # 默認精準模式 terms_model = jieba.cut(model) grams_reference = set(terms_reference) # 去重;如果不需要就改為list grams_model = set(terms_model) temp = 0 for i in grams_reference: if i in grams_model: temp = temp + 1 fenmu = len(grams_model) + len(grams_reference) - temp # 並集 try: jaccard_coefficient = float(temp / fenmu) # 交集 except ZeroDivisionError: print(model, reference) return 0 else: return jaccard_coefficient
環比是什麼?
環比的發展速度是報告期水平與前一時期水平之比,表明現象逐期的發展速度。如計算一年內各月與前一個月對比,即2月比1月,3月比2月,4月比3月……12月比11月,說明逐月的發展程度。如分析抗擊“非典”期間某些經濟現象的發展趨勢,環比比同比更說明問題。
學過統計或者經濟知識的人都知道,統計指標按其具體內容、實際作用和表現形式可以分為總量指標、相對指標和平均指標。由於采用基期的不同,發展速度可分為同比發展速度、環比發展速度和定基發展速度。簡單地說,就是同比、環比與定基比,都可以用百分數或倍數表示。
定基比發展速度,也簡稱總速度,一般是指報告期水平與某一固定時期水平之比,表明這種現象在較長時期內總的發展速度。同比發展速度,一般指是指本期發展水平與上年同期發展水平對比,而達到的相對發展速度。環比發展速度,一般是指報告期水平與前一時期水平之比,表明現象逐期的發展速度。
同比和環比,這兩者所反映的雖然都是變化速度,但由於采用基期的不同,其反映的內涵是完全不同的;一般來說,環比可以與環比相比較,而不能拿同比與環比相比較;而對於同一個地方,考慮時間縱向上發展趨勢的反映,則往往要把同比與環比放在一起進行對照。 [1]
Python實現
代碼如下:
def month_on_month_ratio(data_list): mid = 0 length = len(data_list) res = [] while mid < length-1: a, b = data_list[mid:mid+2] res.append((b-a)/a) mid += 1 return res
以上就是今天分享的內容,本文僅僅簡單介紹瞭傑卡德距離以及環比的Python版實現,希望可以幫到大傢,請大傢以後多多支持WalkonNet!