Python u-Law (MULAW)波解压到原始波信号
Python u-Law (MULAW) wave decompression to raw wave signal
我 google 过去 2 周一直在解决这个问题,但未能找到算法或解决方案。我有一些短的 .wav 文件,但它有 MULAW 压缩,python 似乎没有 wave.py
中可以成功解压缩它的功能。所以我自己在 python 中构建了一个解码器。
我在基本元素中找到了一些关于 MULAW 的信息:
所以我需要一些指导,因为我不知道如何从有符号短整数到全波信号。这是我目前收集到的初步想法:
所以从 wiki 我得到了 u-law 压缩和解压缩的方程式:
压缩:
解压:
所以从压缩方程来看,输出似乎被限制在 -1 到 +1 的 float
范围内,并且有符号的短整数从 –32,768 到 32,767 所以看起来我需要在特定范围内将其从 short int
转换为 float
。
现在,老实说,我以前听说过量化,但我不确定我是否应该先尝试去量化然后再解压,或者以其他方式解压,或者即使在这种情况下是一样的东西... tutorials/documentation 的术语可能有点棘手。
我正在使用的波形文件应该包含 'A' 声音,就像语音合成一样,我可能可以通过比较某些音频软件和自定义波形分析器中的 2 个波形来验证是否成功,但我真的很想减少这个过程的试错部分。
所以我的想法是:
u = 0xff
data_chunk = b'\xe7\xe7' # -6169
data_to_r1 = unpack('h',data_chunk)[0]/0xffff # I suspect this is wrong,
# # but I don't know what else
u_law = ( -1 if data_chunk<0 else 1 )*( pow( 1+u, abs(data_to_r1)) -1 )/u
所以我需要采取某种算法或关键步骤 first: decompression, second: quantisation : third ?
由于我在 google 上找到的所有内容都是如何读取 .wav
PCM 调制文件类型,而不是在出现疯狂压缩时如何管理它。
因此,在搜索 google 之后,在 github 中找到了解决方案(看图)。我搜索了许多算法,发现 1 个算法在有损压缩的误差范围内。 这适用于 30 -> 1 的正值和 -32 -> -1 的负值
老实说,我认为这个解决方案是足够的,但不是每个方程式,但它是目前最好的解决方案。此代码直接从 gcc9108 audio codec
转录为 python
def uLaw_d(i8bit):
bias = 33
sign = pos = 0
decoded = 0
i8bit = ~i8bit
if i8bit&0x80:
i8bit &= ~(1<<7)
sign = -1
pos = ( (i8bit&0xf0) >> 4 ) + 5
decoded = ((1 << pos) | ((i8bit & 0x0F) << (pos - 4)) | (1 << (pos - 5))) - bias
return decoded if sign else ~decoded
def uLaw_e(i16bit):
MAX = 0x1fff
BIAS = 33
mask = 0x1000
sign = lsb = 0
pos = 12
if i16bit < 0:
i16bit = -i16bit
sign = 0x80
i16bit += BIAS
if ( i16bit>MAX ): i16bit = MAX
for x in reversed(range(pos)):
if i16bit&mask != mask and pos>=5:
pos = x
break
lsb = ( i16bit>>(pos-4) )&0xf
return ( ~( sign | ( pos<<4 ) | lsb ) )
有测试:
print( 'normal :\t{0}\t|\t{0:2X}\t:\t{0:016b}'.format(0xff) )
print( 'encoded:\t{0}\t|\t{0:2X}\t:\t{0:016b}'.format(uLaw_e(0xff)) )
print( 'decoded:\t{0}\t|\t{0:2X}\t:\t{0:016b}'.format(uLaw_d(uLaw_e(0xff))) )
并输出:
normal : 255 | FF : 0000000011111111
encoded: -179 | -B3 : -000000010110011
decoded: 263 | 107 : 0000000100000111
如您所见,263-255 = 8 在范围内。当我尝试实现 G.711 中描述的 seeemmmm
方法时,好心的用户 Oliver Charlesworth 建议我查看,数据中最大值的解码值为 -8036,接近 uLaw 规范的最大值,但我无法对解码函数进行逆向工程以从维基百科获得二进制等价函数。
最后,我必须说,我目前对 python 库不支持所有类型的压缩算法感到失望,因为它不仅仅是人们使用的工具,它还是一种资源 python 消费者从中学习,因为大多数用于进一步深入研究代码的数据并不容易获得或理解。
编辑
解码数据并通过 wave.py
写入 wav 文件后,我成功地写入了一个新的原始线性 PCM 文件。这行得通……尽管我一开始持怀疑态度。
编辑 2: ::> 你可以在 compressions.py
上找到真正的解决方案
Python 实际上支持解码 u-Law 开箱即用:
audioop.ulaw2lin(fragment, width)
Convert sound fragments in u-LAW encoding to linearly encoded sound fragments. u-LAW encoding always uses 8 bits samples, so width
refers only to the sample width of the output fragment here.
https://docs.python.org/3/library/audioop.html#audioop.ulaw2lin
我发现这有助于将 to/from ulaw 转换为 numpy 数组。
import audioop
def numpy_audioop_helper(x, xdtype, func, width, ydtype):
'''helper function for using audioop buffer conversion in numpy'''
xi = np.asanyarray(x).astype(xdtype)
if np.any(x != xi):
xinfo = np.iinfo(xdtype)
raise ValueError("input must be %s [%d..%d]" % (xdtype, xinfo.min, xinfo.max))
y = np.frombuffer(func(xi.tobytes(), width), dtype=ydtype)
return y.reshape(xi.shape)
def audioop_ulaw_compress(x):
return numpy_audioop_helper(x, np.int16, audioop.lin2ulaw, 2, np.uint8)
def audioop_ulaw_expand(x):
return numpy_audioop_helper(x, np.uint8, audioop.ulaw2lin, 2, np.int16)
我 google 过去 2 周一直在解决这个问题,但未能找到算法或解决方案。我有一些短的 .wav 文件,但它有 MULAW 压缩,python 似乎没有 wave.py
中可以成功解压缩它的功能。所以我自己在 python 中构建了一个解码器。
我在基本元素中找到了一些关于 MULAW 的信息:
所以我需要一些指导,因为我不知道如何从有符号短整数到全波信号。这是我目前收集到的初步想法:
所以从 wiki 我得到了 u-law 压缩和解压缩的方程式:
压缩:
解压:
所以从压缩方程来看,输出似乎被限制在 -1 到 +1 的 float
范围内,并且有符号的短整数从 –32,768 到 32,767 所以看起来我需要在特定范围内将其从 short int
转换为 float
。
现在,老实说,我以前听说过量化,但我不确定我是否应该先尝试去量化然后再解压,或者以其他方式解压,或者即使在这种情况下是一样的东西... tutorials/documentation 的术语可能有点棘手。
我正在使用的波形文件应该包含 'A' 声音,就像语音合成一样,我可能可以通过比较某些音频软件和自定义波形分析器中的 2 个波形来验证是否成功,但我真的很想减少这个过程的试错部分。
所以我的想法是:
u = 0xff
data_chunk = b'\xe7\xe7' # -6169
data_to_r1 = unpack('h',data_chunk)[0]/0xffff # I suspect this is wrong,
# # but I don't know what else
u_law = ( -1 if data_chunk<0 else 1 )*( pow( 1+u, abs(data_to_r1)) -1 )/u
所以我需要采取某种算法或关键步骤 first: decompression, second: quantisation : third ?
由于我在 google 上找到的所有内容都是如何读取 .wav
PCM 调制文件类型,而不是在出现疯狂压缩时如何管理它。
因此,在搜索 google 之后,在 github 中找到了解决方案(看图)。我搜索了许多算法,发现 1 个算法在有损压缩的误差范围内。 这适用于 30 -> 1 的正值和 -32 -> -1 的负值
老实说,我认为这个解决方案是足够的,但不是每个方程式,但它是目前最好的解决方案。此代码直接从 gcc9108 audio codec
转录为 pythondef uLaw_d(i8bit):
bias = 33
sign = pos = 0
decoded = 0
i8bit = ~i8bit
if i8bit&0x80:
i8bit &= ~(1<<7)
sign = -1
pos = ( (i8bit&0xf0) >> 4 ) + 5
decoded = ((1 << pos) | ((i8bit & 0x0F) << (pos - 4)) | (1 << (pos - 5))) - bias
return decoded if sign else ~decoded
def uLaw_e(i16bit):
MAX = 0x1fff
BIAS = 33
mask = 0x1000
sign = lsb = 0
pos = 12
if i16bit < 0:
i16bit = -i16bit
sign = 0x80
i16bit += BIAS
if ( i16bit>MAX ): i16bit = MAX
for x in reversed(range(pos)):
if i16bit&mask != mask and pos>=5:
pos = x
break
lsb = ( i16bit>>(pos-4) )&0xf
return ( ~( sign | ( pos<<4 ) | lsb ) )
有测试:
print( 'normal :\t{0}\t|\t{0:2X}\t:\t{0:016b}'.format(0xff) )
print( 'encoded:\t{0}\t|\t{0:2X}\t:\t{0:016b}'.format(uLaw_e(0xff)) )
print( 'decoded:\t{0}\t|\t{0:2X}\t:\t{0:016b}'.format(uLaw_d(uLaw_e(0xff))) )
并输出:
normal : 255 | FF : 0000000011111111
encoded: -179 | -B3 : -000000010110011
decoded: 263 | 107 : 0000000100000111
如您所见,263-255 = 8 在范围内。当我尝试实现 G.711 中描述的 seeemmmm
方法时,好心的用户 Oliver Charlesworth 建议我查看,数据中最大值的解码值为 -8036,接近 uLaw 规范的最大值,但我无法对解码函数进行逆向工程以从维基百科获得二进制等价函数。
最后,我必须说,我目前对 python 库不支持所有类型的压缩算法感到失望,因为它不仅仅是人们使用的工具,它还是一种资源 python 消费者从中学习,因为大多数用于进一步深入研究代码的数据并不容易获得或理解。
编辑
解码数据并通过 wave.py
写入 wav 文件后,我成功地写入了一个新的原始线性 PCM 文件。这行得通……尽管我一开始持怀疑态度。
编辑 2: ::> 你可以在 compressions.py
上找到真正的解决方案Python 实际上支持解码 u-Law 开箱即用:
audioop.ulaw2lin(fragment, width)
Convert sound fragments in u-LAW encoding to linearly encoded sound fragments. u-LAW encoding always uses 8 bits samples, so width refers only to the sample width of the output fragment here.
https://docs.python.org/3/library/audioop.html#audioop.ulaw2lin
我发现这有助于将 to/from ulaw 转换为 numpy 数组。
import audioop
def numpy_audioop_helper(x, xdtype, func, width, ydtype):
'''helper function for using audioop buffer conversion in numpy'''
xi = np.asanyarray(x).astype(xdtype)
if np.any(x != xi):
xinfo = np.iinfo(xdtype)
raise ValueError("input must be %s [%d..%d]" % (xdtype, xinfo.min, xinfo.max))
y = np.frombuffer(func(xi.tobytes(), width), dtype=ydtype)
return y.reshape(xi.shape)
def audioop_ulaw_compress(x):
return numpy_audioop_helper(x, np.int16, audioop.lin2ulaw, 2, np.uint8)
def audioop_ulaw_expand(x):
return numpy_audioop_helper(x, np.uint8, audioop.ulaw2lin, 2, np.int16)