python爬取2021貓眼票房字體加密實例

春節假期剛過,大傢有沒有看春節檔的電影呢?今年的春節檔電影很是火爆,我們可以在貓眼票房app查看有關數據,因為數據一致在更新,所以他的字體是動態的,想要爬取有些困難,再加上貓眼app對字體進行加密,該如何爬取呢?本文介紹反爬2021貓眼票房字體加密的實例。

一、字體加密原理

簡單來說就是程序員在設計網站的時候使用瞭自己設計的字體代碼對關鍵字進行編碼,在瀏覽器加載的時會根據這個字體文件對這些字體進行編碼,從而顯示出正確的字體。

二、爬取實例

1、得到字體斜率字典

import requestsimport urllib.request as downimport jsonfrom fontTools.ttLib 
import TTFontimport reimport MyPyClass# 
得到字體斜率列表(部分)def font_Kdict(mapstype,maps=None):
  '''
  得到字體斜率字典(部分)
  參數:
  mapstype:str->maps類型,判斷是是base/new
  maps:映射字典
  return kdict
  kdict字典關系:
  num:Klist 數字對應每條線段的斜率列表
  '''
  kdict={}

2、遍歷maps字典,找到對應的num和namecode

 for num, namecode in maps.items():
    # 跳過無用數據
    if namecode == 'x': continue
    # 判斷類型,並從.coordinates得到對應num的所有坐標
    if mapstype=='base':coordinates = namecode.coordinates    
 elif mapstype=='new':coordinates=glyf[namecode].coordinates    # 得到坐標 X列表和坐標 Y列表
    x = [i[0] for i in coordinates]
    y = [i[1] for i in coordinates]
    Klist = []
    # 遍歷X列表並切片為前10個數據進行斜率計算,即代表繪圖的前10條線段的斜率
    for index, absx in enumerate(x[:10]):
      # 當斜率為0/1時,認為斜率為1計算
      if x[index + 1] == x[index] or y[index + 1] == y[index]:
        absxy = 1
      else:
        absxy = (y[index + 1] - y[index]) / (x[index + 1] - x[index])
      # 將斜率加入到列表
      Klist.append(-absxy if absxy < 0 else absxy)
    kdict[num]=Klist    #print('base:', code, Klist, name)
  return kdict

3、對比斜率字典

def contrast_K(kbase,knew):
  '''
  對比斜率映射差距
  參數:
  kbase:基礎字體映射表的斜率字典
  knew:當前鏈接的字體映射表的斜率字典
 
  return:dict
  fontMaps:根據對比得出正確的字體映射關系字典
  fontMaps = {}
  # 遍歷kbase字典
  for base in kbase.items():
    n = 0 # 成功匹配的斜率個數
    # 遍歷knew字典
    for new in knew.items():
      # 遍歷kbase>knew>下的兩組斜率,進行大小匹配,
      # 如果斜率k的差值小於0.5,並且樣本數>=9時,認為兩個坐標圖形相識隻是大小比例不同
      # 即k<=0.5  n>=9
      for (k1,k2) in zip(base[1],new[1]):
        # k取正數
        k=k1-k2 if k1>k2 else k2-k1        if k<=0.5:
          n+=1
          continue
        else:
          break
      if n>=9:
        # 匹配正確則添加進字典中 此時的字典關系是:code:num 代碼對應數字的關系
        fontMaps[str(hex(new[0]).replace('0x','&#x'))]=str(base[0])
        break
      n=0
  #print(fontMaps)
  return fontMaps

4、爬取內容

with requests.get(url,headers={'user-agent':ua}) as response:
  # 獲取存放字典的json字段,並提取字體url
  fontStyle=json.loads(response.content)['fontStyle']
  fontStyle=re.findall('\"([\s\S]*?)\"',fontStyle[::-1])
  fonturl='http:'+fontStyle[0][::-1]# 字體url鏈接
  # 將加載的字體下載保存到本地,並對其進行分析
  down.urlretrieve(fonturl,'newfont.woff')
  # 爬取的電影數據內容
  content = json.loads(response.content)['movieList']['data']['list']# 信息字典movieNum={}#綜合票房數字典movieDayOne= {}#上映首日數量movieRate={}#票房占比movieshowCount={}#排片場次movieViewerAvg={}#場均人數movieInfos={}# 頁面內容for i in content:
  moviename=i['movieInfo']['movieName']
  movieNum[moviename]=i['boxSplitUnit']['num']
  movieDayOne[moviename]=i['sumBoxDesc']
  movieRate[moviename]=i['splitBoxRate']
  movieshowCount[moviename]=i['showCount']
  movieViewerAvg[moviename]=i['avgShowView']# 新字體對象fontnew=TTFont('newfont.woff')
# 得到當前字體的映射關系表newNumberMaps=fontnew.getBestCmap()# 獲取字形glyf=fontnew['glyf']
# 基礎字體斜率字典k_base_dict=font_Kdict(maps=baseNumberMaps,mapstype='base')
# 新字體斜率字典k_new_dict=font_Kdict(maps=fontnew.getBestCmap(),mapstype='new')
# 得到字體映射字典fontcodes=contrast_K(k_base_dict,k_new_dict)# 對加密的字體遍歷分組,並去除無用字符
for name,numbercode in movieNum.items():
  movieNum[name]=re.findall('([\S]*?);', numbercode)
# 根據得到的fontcodes映射對加密字體進行替換,得到正確數值for index,(name,numbercodelist) 
in enumerate(movieNum.items()):
  num=[]
  # 替換操作
  for code in numbercodelist:
    if '.' in code:
      code=code.replace('.','')
      num.append('.'+fontcodes[code])
    else:
      num.append(fontcodes[code])
  infos=['排行:'+str(index+1),
    '片名',name,
    '上映首日',movieDayOne[name],
    '票房',''.join(num)+'萬',
    '票房占比',movieRate[name],
    '場均人數',movieViewerAvg[name]+'人',
    '排片場次',movieshowCount[name]]
  print(infos)

到此這篇關於python爬取2021貓眼票房字體加密實例的文章就介紹到這瞭,更多相關python爬2021貓眼票房數據內容請搜索WalkonNet以前的文章或繼續瀏覽下面的相關文章希望大傢以後多多支持WalkonNet!

推薦閱讀: