我怎样才能绕过 Keras pad_sequences() 将浮点值四舍五入为零？

Question

所以我有一个用 Keras 构建的文本分类模型。我一直在尝试填充不同长度的序列，但 Keras 函数 pad_sequences() 刚刚返回零。

我发现如果你有一个像下面这样的 numpy 数组，它就可以正常工作。但是一旦元素像第二个数组一样变成浮点数或小数，它就会变成零。

x = [[1, 2], [3,4,5], [4], [7,8,9,10]]
print pad_sequences(x, padding='post')

输出：

[[ 1  2  0  0]
 [ 3  4  5  0]
 [ 4  0  0  0]
 [ 7  8  9 10]]

但是

x = [[.1, .2], [.3,.4,.5], [.4], [.7,.8,.9,.010]]
print pad_sequences(x, padding='post')

输出：

[[ 0  0  0  0]
 [ 0  0  0  0]
 [ 0  0  0  0]
 [ 0  0  0  0]]

还有这个：

x = [[.1, .2], [.3,.4,.5], [.4], [.7,.8,.9,.010]]
print pad_sequences(x, padding='post', value=99)

输出：

[[ 0  0 99 99]
 [ 0  0  0 99]
 [ 0 99 99 99]
 [ 0  0  0  0]]

所以我猜这个函数只是忽略了 floats/decimals。我有办法解决这个问题吗？

Answer 1

这是由于pad_sequences函数中考虑的默认数据类型是int32造成的。因此，所有值都将转换为整数（在本例中变为零）。要解决此问题，请传递 dtype='float32' 参数：

pad_sequences(x, padding='post', value=99, dtype='float32')

How can I get around Keras pad_sequences() rounding float values to zero?