我有一个pandas DataFrame样本对象,在下面对其进行分组相关计算。最后,我想查看Value1
和Value2
之间的时间序列相关性
data = [
(1, 'alpha', 3, 101, 2),
(1, 'beta', 2, 102, 3),
(1, 'gamma', 5, 103, 4),
(2, 'alpha', 2.5, 101, 1),
(2, 'beta', 2.2, 105, 2),
(2, 'gamma', 5, 100, 0),
(3, 'alpha', 2.1, 102, 0),
(3, 'beta', 2.0, 102, 3.3),
(3, 'gamma', 5, 100, 2),
]
datapd = pandas.DataFrame(data, columns=('Time', 'ID', 'Value1', 'Value2', 'Value3'))
corrvals = datapd.groupby('Time').corr()
因此,当我查看corrvals['Value1']
时,我只想选择所有Value2
项目。但是,它们在Time
之后。例如。 corrvals['Value1'].index.values
显示:
array([(1, 'Value1'), (1, 'Value2'), (1, 'Value3'), (2, 'Value1'),
(2, 'Value2'), (2, 'Value3'), (3, 'Value1'), (3, 'Value2'),
(3, 'Value3')], dtype=object)
我如何在第二个元组中要求索引为Value2
的所有值,而第一个元组中没有要求?
python大神给出的解决方案
您可以使用新的IndexSlice
:
In [17]:
idx = pd.IndexSlice
corrvals.loc[idx[:,'Value2']]
Out[17]:
Time
1 Value1 0.654654
Value2 1.000000
Value3 1.000000
2 Value1 -0.725288
Value2 1.000000
Value3 0.944911
3 Value1 -0.999569
Value2 1.000000
Value3 -0.121560
Name: Value2, dtype: float64
或Slice
:
In [18]:
corrvals.loc[slice(None),'Value2']
Out[18]:
Time
1 Value1 0.654654
Value2 1.000000
Value3 1.000000
2 Value1 -0.725288
Value2 1.000000
Value3 0.944911
3 Value1 -0.999569
Value2 1.000000
Value3 -0.121560
Name: Value2, dtype: float64
或将axis=0
传递给loc
:
In [19]:
corrvals.loc(axis=0)[:,'Value2']
Out[19]:
Value1 Value2 Value3
Time
1 Value2 0.654654 1 1.000000
2 Value2 -0.725288 1 0.944911
3 Value2 -0.999569 1 -0.121560