Python爬取某拍短視頻

Posted on 2021-06-11 by WalkonNet

一、抓取目標

目標網址：美拍視頻

在這裡插入圖片描述

二、工具使用

開發環境：win10、python3.7
開發工具：pycharm、Chrome
工具包：requests、xpath、base64

三、重點學習內容

爬蟲采集數據的解析過程
js代碼調試技巧
js逆向解析代碼
Python代碼的轉換

四、項目思路解析

進入到網站的首頁
挑選你感興趣的分類
根據首頁地址獲取到進入詳情頁面的超鏈接的跳轉地址

在這裡插入圖片描述

找到對應加密的視頻播放地址數據

在這裡插入圖片描述

這個數據是靜態的網頁數據，通過js代碼進行解碼的
找到對應的解析代碼
先找到視頻的播放地址
找到解析視頻地址的加密js文件
點擊播放的時候會觸發文件

在這裡插入圖片描述

大致能看出來這個是base64加密之後的數據
在對應的js文件裡搜索關鍵字
找到js的加密方式

在這裡插入圖片描述

js函數的一些函數的用法

# eplace()方法用於在字符串中用一些字符替換另一些字符
    # parseInt 數據轉換成對應的整型
    # base64.atob   對base64編碼過的字符串進行解碼
    # substring 方法可在字符串中抽取從 start 下標開始的指定數目的字符

在這裡插入圖片描述

將js代碼轉換成Python代碼

import base64

def decode(data):
    def getHex(a):
        return {
            'str': a[4:],
            'hex': ''.join(list(a[:4])[::-1]),
        }

    def getDec(a):
        b = str(int(a, 16))
        return {
            'pre': list(b[:2]),
            'tail': list(b[2:]),
        }

    def substr(a, b):
        c = a[0: int(b[0])]
        d = a[int(b[0]): int(b[0]) + int(b[1])]
        return c + a[int(b[0]):].replace(d, "")

    def getPos(a, b):
        b[0] = len(a) - int(b[0]) - int(b[1])
        return b

    b = getHex(data)
    c = getDec(b['hex'])
    d = substr(b['str'], c['pre'])
    return base64.b64decode(substr(d, getPos(d, c['tail'])))

print(decode("e121Ly9tBrI84RdnZpZGVvMTAubWVpdHVkYXRhLmNvbS82MGJjZDcwNTE3NGZieXBueG5udnRwMTA5N19IMjY0XzFfNWY3YThmM2U0MTEwNy5tc2JVjAu3EDQ="))

得出最終視頻播放地址

在這裡插入圖片描述

五、簡易源碼分享

import requests
from lxml import etree
import base64

def decode_mp4(data):
    def getHex(a):
        return {
            'str': a[4:],
            'hex': ''.join(list(a[:4])[::-1]),
        }

    def getDec(a):
        b = str(int(a, 16))
        return {
            'pre': list(b[:2]),
            'tail': list(b[2:]),
        }

    def substr(a, b):
        c = a[0: int(b[0])]
        d = a[int(b[0]): int(b[0]) + int(b[1])]
        return c + a[int(b[0]):].replace(d, "")

    def getPos(a, b):
        b[0] = len(a) - int(b[0]) - int(b[1])
        return b

    b = getHex(data)
    c = getDec(b['hex'])
    d = substr(b['str'], c['pre'])
    return base64.b64decode(substr(d, getPos(d, c['tail'])))
# 運行主函數
def main():
    url = 'https://www.meipai.com'
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.142 Safari/537.36',
    }
    response = requests.get(url=url, headers=headers)
    html_data = etree.HTML(response.text)
    href_list = html_data.xpath('//div/a/@href')
    # print(href_list)
    for href in href_list:
        res = requests.get('https://www.meipai.com' + href, headers=headers)
        html = etree.HTML(res.text)
        name = html.xpath('//div[@id="detailVideo"]/img/@alt')[0]
        mp4_data = html.xpath('//div[@id="detailVideo"]/@data-video')[0]
        # print(name, mp4_data)
        mp4_url = decode_mp4(mp4_data).decode('utf-8')
        print(mp4_url)
        result = requests.get("http:" + mp4_url)
        with open(name + ".mp4", 'wb') as f:
            f.write(result.content)
            f.close()


if __name__ == '__main__':
    main()

到此這篇關於Python爬取某拍短視頻的文章就介紹到這瞭,更多相關Python爬取視頻內容請搜索WalkonNet以前的文章或繼續瀏覽下面的相關文章希望大傢以後多多支持WalkonNet！

Python爬取某拍短視頻

一、抓取目標

二、工具使用

三、重點學習內容

四、項目思路解析

五、簡易源碼分享

推薦閱讀：

發佈留言取消回覆

近期文章

一、抓取目標

二、工具使用

三、重點學習內容

四、項目思路解析

五、簡易源碼分享

推薦閱讀：

發佈留言 取消回覆

近期文章

標籤

發佈留言取消回覆