Python從視頻中提取音頻的操作

簡介

OpenCV中使用VideoCapture類寫的視頻是沒有音頻的,如果要進一步處理音頻則需要用到一個庫——MoviePy,這個庫是Python視頻編輯庫,可裁剪、拼接、標題插入、視頻合成、視頻處理和自定義效果。

安裝

pip install moviepy

代碼

from moviepy.editor import *
video = VideoFileClip('test.mp4')
audio = video.audio
audio.write_audiofile('test.mp3')

不安裝moviepy視頻編輯庫可以直接使用ffmpeg-python庫,見參考文獻4,代碼稍微復雜點

音頻格式

extensions_dict = { "mp4": {'type':'video', 'codec':['libx264','libmpeg4', 'aac']},
          'ogv': {'type':'video', 'codec':['libtheora']},
          'webm': {'type':'video', 'codec':['libvpx']},
          'avi': {'type':'video'},
          'mov': {'type':'video'},
          'ogg': {'type':'audio', 'codec':['libvorbis']},
          'mp3': {'type':'audio', 'codec':['libmp3lame']},
          'wav': {'type':'audio', 'codec':['pcm_s16le', 'pcm_s24le', 'pcm_s32le']},
          'm4a': {'type':'audio', 'codec':['libfdk_aac']}
         }

可看到支持ogg、mp3、wav和m4a四種格式,個人測試m4a輸出失敗,建議隻用mp3和wav

測試2分鐘的視頻導出mp3為1.83Mb,wav為20.1Mb

mp3是有損格式,wav是無損格式,按需選擇

備註

要實現更底層的音視頻處理應用ffmpeg

補充:python處理mp4視頻提取音頻轉為mp3或者wav,並進行截取

mp4視頻文件提取音頻轉為mp3或者wav文件

mp3是有損文件,wav是無損文件,就像我測試的視頻,mp3導出隻有幾十k,wav文件導出有3M多。

from moviepy.editor import *
video = VideoFileClip('aa.mp4')
audio = video.audio
audio.write_audiofile('test.wav')
audio.write_audiofile('test.mp3')

截取map或者wav文件

from scipy.io import wavfile
like = wavfile.read('test.wav')
# print (like)
# 音頻結果將返回一個tuple。第一維參數是采樣頻率,單位為秒;第二維數據是一個ndarray表示歌曲,如果第二維的ndarray隻有一個數據表示單聲道,兩個數據表示立體聲。所以,通過控制第二維數據就能對歌曲進行裁剪。
# 對like這個元組第二維數據進行裁剪,所以是like[1];第二維數據中是對音樂數據切分。 start_s表示你想裁剪音頻的起始時間;同理end_s表示你裁剪音頻的結束時間。乘44100 是因為每秒需要進行44100次采樣
# 這裡表示對該音頻的13-48秒進行截取
wavfile.write('test2.wav',44100,like[1][13*44100:48*44100])

以上為個人經驗,希望能給大傢一個參考,也希望大傢多多支持WalkonNet。如有錯誤或未考慮完全的地方,望不吝賜教。