如何利用python處理原始音頻數據

Posted on 2022-01-04 by WalkonNet

一、基礎知識

PCM(pulse code modulation) ，即脈沖編碼調制，是將模擬信號轉為數字信號的一種編碼系統。而模數轉換主要分兩步，首先對連續的模擬信號進行采樣，然後把采樣得到的數據轉化為數值，即量化。

設x xx為輸入信號，F ( x ) F(x)F(x)為量化後的信號，則F ( x ) F(x)F(x)既可以是線性的，也可以是非線性的。在audioop中，主要提供三種編碼支持，分別是a-Law，μ-Law以及ADPCM。

在中國和歐洲主要實用的編碼方式為A-Law，其表達式為：

其中A AA為壓縮系數，在G.726標準中建議87.56。

ADPCM(Adaptive Differential PCM)，即自適應差分PCM。

由於模擬信號的連續性，一般來說相鄰時間單位的信號往往具有較高的線性度，甚至彼此相差無幾，從而可以被高效率的壓縮。然而，也存在跳躍幅度較大的信號，如果完全以緩變為原則，那麼必然會丟失這部分數據。為瞭均衡這種差異，就需要進行自適應量化。

audioop中支持的Intel/DVI ADPCM算法可以在網上找到，但是信息並不多而且都很老舊，貌似不太重要的樣子，甚至知網都搜不到，所以這裡就不詳細解讀瞭。

二、轉換函數

audioop提供瞭ADPCM、A-Law和μ-Law和線性采樣之間的轉換函數

采樣	ADPCM	A-Law	μ-Law
lin2lin	lin2adpcm	lin2alaw	lin2ulaw
	adpcm2lin	alaw2lin	ulaw2lin

其中，與A-Law和μ-Law有關的轉換函數的輸入參數為(fragment, width)，分別代表待處理片段和位寬；adpcm則會多一個state元組作為第三個參數，表示編碼器狀態。

lin2lin是將線性片段在1、2、3 和 4 字節格式之間轉換的函數，其輸入參數為(fragment, width, newwidth)。

下面新建一些數據來測試一下編碼轉換函數，

#下面代碼來自於test_audioop.py
import audioop
import sys
import unittest

pack = lambda width, data :b''.join(
    v.to_bytes(width, sys.byteorder, signed=True) for v in data)

packs = {w: (lambda *data, width=w: pack(width, data)) for w in (1, 2, 3, 4)}

unpack = lambda width, data: [int.from_bytes(
    data[i: i + width], sys.byteorder, signed=True)
    for i in range(0, len(data), width)]

datas = {
    1: b'\x00\x12\x45\xbb\x7f\x80\xff',
    2: packs[2](0, 0x1234, 0x4567, -0x4567, 0x7fff, -0x8000, -1),
    3: packs[3](0, 0x123456, 0x456789, -0x456789, 0x7fffff, -0x800000, -1),
    4: packs[4](0, 0x12345678, 0x456789ab, -0x456789ab,
                0x7fffffff, -0x80000000, -1),
}

則datas的值為：

>>> for key in datas : print(datas[key])
…
b'\x00\x12E\xbb\x7f\x80\xff'
b'\x00\x004\x12gE\x99\xba\xff\x7f\x00\x80\xff\xff'
b'\x00\x00\x00V4\x12\x89gEw\x98\xba\xff\xff\x7f\x00\x00\x80\xff\xff\xff'
b'\x00\x00\x00\x00xV4\x12\xab\x89gEUv\x98\xba\xff\xff\xff\x7f\x00\x00\x00\x80\xff\xff\xff\xff'
>

則其轉換函數測試如下：

>>> datas[1]
b'\x00\x12E\xbb\x7f\x80\xff' #將要處理的1位線性碼
>>> unpack(1,datas[1])
[0, 18, 69, -69, 127, -128, -1] #轉為整型
# 將1字節線性碼轉為2字節線性碼
>>> datas1_2 = audioop.lin2lin(datas[1], 1, 2)
>>> print(datas1_2)
b'\x00\x00\x00\x12\x00E\x00\xbb\x00\x7f\x00\x80\x00\xff'
>>> unpack(2,datas1_2) #轉為整型，其值為datas[1]*256
[0, 4608, 17664, -17664, 32512, -32768, -256]
# 將1字節線性碼轉為1字節u-Law碼
>>> datas1_u = audioop.lin2ulaw(datas[1], 1)
>>> unpack(1,datas1_u) #轉為整型，這個數和u-law的公式對不上，可能是其他算法
[-1, -83, -114, 14, -128, 0, 103]

三、片段特征函數

下表中函數的輸入為(fragment, width)，分別代表待統計片段和位寬。

	返回值
avg	片段采樣值的均值
avgpp	片段采樣值的平均峰峰值
max	片段采樣值的最大絕對值
maxpp	聲音片段中的最大峰峰值
minmax	由片段采樣值中最小和最大值組成的元組
rms	片段的均方根
cross	片段穿越零點的次數

getsample(fragment, width, index)，顧名思義用於采樣，返回段中采樣值索引index的值。

findfactor(fragment, reference)，返回一個系數F使得rms(add(fragment, mul(reference, -F)))最小，即返回的系數乘以reference後與fragment最匹配。兩個片段都應包含 2 字節寬的采樣。

findfit(fragment, reference)，盡可能嘗試讓 reference 匹配 fragment 的一部分。

findmax(fragment, length)，在fragment中搜索所有長度為length的采樣切片中，能量最大的那一個切片，即返回 i 使得 rms(fragment[i*2:(i+length)*2]) 最大。

四、片段操作

其返回值均為片段，下表的參數中，f表示fragment，w表示width，L表示lfactor，R表示rfactor

audioop.ratecv(f, w, nchannels, inrate, outrate, state[, weightA[, weightB]])

可用於轉換輸入片段的幀速率，其中

state為元組，表示轉換器狀態
weightA和weightB是簡單數字濾波器的參數，默認為 1 和 0。

到此這篇關於如何利用python處理原始音頻數據的文章就介紹到這瞭,更多相關利用python處理原始音頻數據內容請搜索WalkonNet以前的文章或繼續瀏覽下面的相關文章希望大傢以後多多支持WalkonNet！

如何利用python處理原始音頻數據

目錄

一、基礎知識

二、轉換函數

三、片段特征函數

四、片段操作

推薦閱讀：

發佈留言取消回覆

近期文章

目錄

一、基礎知識

二、轉換函數

三、片段特征函數

四、片段操作

推薦閱讀：

發佈留言 取消回覆

近期文章

標籤

發佈留言取消回覆