熊猫-使用每行中元素的点积创建新的DataFrame列 - python

我正在尝试采用现有的DataFrame并追加一个新列。

假设我有这个DataFrame(只是一些随机数):

    a           b           c            d          e
0   2.847674    0.890958    -1.785646   -0.648289   1.178657
1   -0.865278   0.696976    1.522485    -0.248514   1.004034
2   -2.229555   -0.037372   -1.380972   -0.880361   -0.532428
3   -0.057895   -2.193053   -0.691445   -0.588935   -0.883624

我想创建一个新列'f'，将每行乘以'costs'向量，例如[1,0,0,0,0]。因此，对于零行，f列的输出应为2.847674。

这是我目前使用的功能:

def addEstimate (df, costs): 
   row_iterator = df.iterrows()

   for i, row in row_iterator:
      df.ix[i, 'f'] = np.dot(costs, df.ix[i])

我正在使用15个元素的向量执行此操作，超过了2万行，并且发现这非常慢(半小时)。我怀疑使用iterrows和ix效率低下，但是我不确定如何更正此错误。

有没有一种方法可以一次将其应用于整个DataFrame，而不是遍历行？还是您有其他建议来加快速度？

python大神给出的解决方案

您可以使用df['f'] = df.dot(costs)创建新列。

dot已经是DataFrame方法:将其整体应用到DataFrame上比循环遍历DataFrame并将np.dot应用于单独的行要快得多。

例如:

>>> df # an example DataFrame
    a   b   c   d   e
0   0   1   2   3   4
1  12  13  14  15  16
2  24  25  26  27  28
3  36  37  38  39  40

>>> costs = [1, 0, 0, 0, 2]
>>> df['f'] = df.dot(costs)
>>> df
    a   b   c   d   e    f
0   0   1   2   3   4    8
1  12  13  14  15  16   44
2  24  25  26  27  28   80
3  36  37  38  39  40  116

腾讯的同事天天给我安利让我看《三体》，说马化腾和雷军也在…

腾讯的同事天天给我安利让我看《三体》，说马化腾和雷军也在看。自己强行看了两个月，全部给看完了。感觉这文笔也就我读初中的水平……而且写着国内的一些情况，外国人能理解吗？这书为什么会这么火？这水平我也可以去写呀[笑哭][笑哭][笑哭] 招商银行员工：可以写赶紧写一个啊，能拿科幻文学雨果奖。包清白：哦楼主：pei ！tui ！你也配姓龙楼主：@赵龙王呵呵 […]