Pandas v0.20 returns 乘以数据框列时未实现
Pandas v0.20 returns NotImplemented when multiplying dataframe columns
为了回答另一个问题,我一直在研究 pandas 中的列乘法运算。
A = pd.DataFrame({'Col1' : [1, 2, 3], 'Col2' : [2, 3, 4]})
B = pd.DataFrame({'Col1' : [10, 20, 30]})
print(A)
Col1 Col2
0 1 2
1 2 3
2 3 4
print(B)
Col1
0 10
1 20
2 30
我尝试使用 df.apply
来尝试将 B
的 Col1
与 A 的每一列相乘。所以我想要的输出是:
Col1 Col2
0 10 20
1 40 60
2 90 120
我的第一次尝试是使用 lambda
,效果很好。
df_new = A.apply(lambda x: B.Col1.values * x, 0)
print(df_new)
Col1 Col2
0 10 20
1 40 60
2 90 120
但是 lambda 总是很慢,所以我想我可以通过传递 B.col1.values.__mul__
来加快速度,但这就是它给出的结果:
print(A.apply(B.Col1.values.__mul__, 0))
Col1 NotImplemented
Col2 NotImplemented
dtype: object
我打印出来了__mul__
,这就是numpy数组乘法的神奇方法:
print(B.Col1.values.__mul__)
<method-wrapper '__mul__' of numpy.ndarray object at 0x1154d9620>
为什么会出现此错误?
你可以这样做:
A.apply(B.Col1.__mul__,0)
returns 你想要什么。
区别在于B.Col1.values.__mul__
调用的是numpy槽函数,而B.Col1.__mul__
调用的是pandas方法。
可能编写 pandas 方法是为了避免 numpy 引起的一些低级头痛:
>>>print(inspect.getsource(pd.Series.__mul__))
def wrapper(left, right, name=name, na_op=na_op):
if isinstance(right, pd.DataFrame):
return NotImplemented
left, right = _align_method_SERIES(left, right)
converted = _Op.get_op(left, right, name, na_op)
left, right = converted.left, converted.right
lvalues, rvalues = converted.lvalues, converted.rvalues
dtype = converted.dtype
wrap_results = converted.wrap_results
na_op = converted.na_op
if isinstance(rvalues, ABCSeries):
name = _maybe_match_name(left, rvalues)
lvalues = getattr(lvalues, 'values', lvalues)
rvalues = getattr(rvalues, 'values', rvalues)
# _Op aligns left and right
else:
name = left.name
if (hasattr(lvalues, 'values') and
not isinstance(lvalues, pd.DatetimeIndex)):
lvalues = lvalues.values
result = wrap_results(safe_na_op(lvalues, rvalues))
return construct_result(
left,
result,
index=left.index,
name=name,
dtype=dtype,
)
找不到 np 插槽函数的源代码,但它可能类似于 this
为了回答另一个问题,我一直在研究 pandas 中的列乘法运算。
A = pd.DataFrame({'Col1' : [1, 2, 3], 'Col2' : [2, 3, 4]})
B = pd.DataFrame({'Col1' : [10, 20, 30]})
print(A)
Col1 Col2
0 1 2
1 2 3
2 3 4
print(B)
Col1
0 10
1 20
2 30
我尝试使用 df.apply
来尝试将 B
的 Col1
与 A 的每一列相乘。所以我想要的输出是:
Col1 Col2
0 10 20
1 40 60
2 90 120
我的第一次尝试是使用 lambda
,效果很好。
df_new = A.apply(lambda x: B.Col1.values * x, 0)
print(df_new)
Col1 Col2
0 10 20
1 40 60
2 90 120
但是 lambda 总是很慢,所以我想我可以通过传递 B.col1.values.__mul__
来加快速度,但这就是它给出的结果:
print(A.apply(B.Col1.values.__mul__, 0))
Col1 NotImplemented
Col2 NotImplemented
dtype: object
我打印出来了__mul__
,这就是numpy数组乘法的神奇方法:
print(B.Col1.values.__mul__)
<method-wrapper '__mul__' of numpy.ndarray object at 0x1154d9620>
为什么会出现此错误?
你可以这样做:
A.apply(B.Col1.__mul__,0)
returns 你想要什么。
区别在于B.Col1.values.__mul__
调用的是numpy槽函数,而B.Col1.__mul__
调用的是pandas方法。
可能编写 pandas 方法是为了避免 numpy 引起的一些低级头痛:
>>>print(inspect.getsource(pd.Series.__mul__))
def wrapper(left, right, name=name, na_op=na_op):
if isinstance(right, pd.DataFrame):
return NotImplemented
left, right = _align_method_SERIES(left, right)
converted = _Op.get_op(left, right, name, na_op)
left, right = converted.left, converted.right
lvalues, rvalues = converted.lvalues, converted.rvalues
dtype = converted.dtype
wrap_results = converted.wrap_results
na_op = converted.na_op
if isinstance(rvalues, ABCSeries):
name = _maybe_match_name(left, rvalues)
lvalues = getattr(lvalues, 'values', lvalues)
rvalues = getattr(rvalues, 'values', rvalues)
# _Op aligns left and right
else:
name = left.name
if (hasattr(lvalues, 'values') and
not isinstance(lvalues, pd.DatetimeIndex)):
lvalues = lvalues.values
result = wrap_results(safe_na_op(lvalues, rvalues))
return construct_result(
left,
result,
index=left.index,
name=name,
dtype=dtype,
)
找不到 np 插槽函数的源代码,但它可能类似于 this