Python爬蟲實戰之虎牙視頻爬取附源碼

Posted on 2021-10-15 by WalkonNet

知識點

爬蟲基本流程
re正則表達式簡單使用
requests
json數據解析方法
視頻數據保存

開發環境

Python 3.8
Pycharm

爬蟲基本思路流程: (重點) [無論任何網站任何數據內容都是按照這個流程去分析]

1.確定需求 (爬取的內容是什麼東西?)

都通過開發者工具進行抓包分析
分析視頻播放url地址是可以從哪裡獲取到
如果我們想要的數據內容是音頻數據/視頻數據 (media)
雖然說知道視頻播放地址, 但是我們還需要知道這個播放地址可以從什麼地方獲取

2.發送請求, 用python代碼模擬瀏覽器對於目標地址發送請求

3.獲取數據, 獲取服務器給我們返回的數據內容

4.解析數據, 提取我們想要數據內容, 視頻標題/視頻url地址

5.保存數據

【付費VIP完整版】隻要看瞭就能學會的教程，80集Python基礎入門視頻教學

點這裡即可免費在線觀看

分析目標url

先打開一個視頻，查看id

請添加圖片描述

打開開發者工具，查找

拿到目標url

開始代碼

最開始還是線導入所需模塊

import requests # 數據請求模塊 pip install requests (第三方模塊)
import pprint # 格式化輸出模塊 內置模塊 不需要安裝
import re # 正則表達式
import json

數據請求

def get_response(html_url):
    # 用python代碼模擬瀏覽器
    # headers 把python代碼進行偽裝
    # user-agent 瀏覽器的基本標識
    headers = {
        'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.81 Safari/537.36'
    }
    # 用代碼直接獲取的 一般大多數都是直接 cookie
    response = requests.get(url=html_url, headers=headers)
    return response

獲取視頻標題以及url地址

def get_video_info(video_id):
    html_url = f'https://liveapi.huya.com/moment/getMomentContent?videoId={video_id}&uid=&_=1634127164373'
    response = get_response(html_url)
    title = response.json()['data']['moment']['title'] # 視頻標題
    video_url = response.json()['data']['moment']['videoInfo']['definitions'][0]['url']
    video_info = [title, video_url]
    return video_info

獲取視頻id

def get_video_id(html_url):
    html_data = get_response(html_url).text
    result = re.findall('<script> window.HNF_GLOBAL_INIT = (.*?) </script>', html_data)[0]
    # 需要把獲取的字符串數據, 轉成json字典數據
    json_data = json.loads(result)['videoData']['videoDataList']['value']
    # json_data 列表 裡面元素是字典
    # print(json_data)
    video_ids = [i['vid'] for i in json_data]  # 列表推導式
    # lis = []
    # for i in json_data:
    #     lis.append(i['vid'])
    # print(video_ids)
    # print(type(json_data))
    return video_ids

# 目光所至 我皆可爬
def main(html):
    video_ids = get_video_id(html_url=html)
    for video_id in video_ids:
        video_info = get_video_info(video_id)
        save(video_info[0], video_info[1])

保存數據

def save(title, video_url):
    # 保存數據, 也是還需要對於播放地址發送請求的
    # response.content 獲取響應的二進制數據
    video_content = get_response(html_url=video_url).content
    new_title = re.sub(r'[\/:*?"<>|]', '_', title)
    # 'video\\' + title + '.mp4' 文件夾路徑以及文件名字 mode 保存方式 wb二進制保存方式
    with open('video\\' + new_title + '.mp4', mode='wb') as f:
        f.write(video_content)
        print('保存成功: ', title)

調用函數

if __name__ == '__main__':
    # get_video_info('589462235')
    video_info = get_video_info('589462235')
    save(video_info[0], video_info[1])
    for page in range(1, 6):
        print(f'正在爬取第{page}頁的數據內容')
        # python基礎入門課程 第一節課 講解的知識點 字符串格式化方法
        url = f'https://v.huya.com/g/all?set_id=31&order=hot&page={page}'
        main(url)

運行代碼，得到數據

到此這篇關於Python爬蟲實戰之虎牙視頻爬取附源碼的文章就介紹到這瞭,更多相關Python 爬取虎牙視頻內容請搜索WalkonNet以前的文章或繼續瀏覽下面的相關文章希望大傢以後多多支持WalkonNet！

Python爬蟲實戰之虎牙視頻爬取附源碼

目錄

知識點

開發環境

分析目標url

開始代碼

最開始還是線導入所需模塊

數據請求

獲取視頻標題以及url地址

獲取視頻id

保存數據

調用函數

運行代碼，得到數據

推薦閱讀：

發佈留言取消回覆

近期文章

目錄

知識點

開發環境

分析目標url

開始代碼

最開始還是線導入所需模塊

數據請求

獲取視頻標題以及url地址

獲取視頻id

保存數據

調用函數

運行代碼，得到數據

推薦閱讀：

發佈留言 取消回覆

近期文章

標籤

發佈留言取消回覆