Pandas 数据框使用堆栈和堆栈进行重塑 - python

我试图弄乱大 Pandas 的堆放和堆放。我想知道是否可以通过这种方式重塑数据。

这是我正在练习的样本数据。

ID,Value1,Value2
1,3,12
1,4,13
1,5,14
1,6,15
1,7,16
2,8,17
2,9,18
2,10,19
2,11,20

我想以这种方式重塑。

ID 
1   Index(Extra Column) Value1, value2
    1                      3    12
    2                      4    13
    3                      5    14
    4                      6    15
    5                      7    16

2
    1                      8    17
    2                      9    18
    3                      10   19
    4                      11   20

我试过了

df1 = pd.DataFrame(df[['Value1', 'Value2']], index= df['ID']).stack()

要么

df1 = df.set_index(['ID']).stack()

这将Value1和Value2从列更改为我不需要的行。

有任何想法吗？

参考方案

我在这里建议set_index + cumcount:

df.set_index(['ID', df.groupby('ID').cumcount() + 1])

      Value1  Value2
ID                  
1  1       3      12
   2       4      13
   3       5      14
   4       6      15
   5       7      16
2  1       8      17
   2       9      18
   3      10      19
   4      11      20

另一种选择是使用concat:

pd.concat({k : g.reset_index(drop=True) for k, g in df.drop('ID', 1).groupby(df.ID)})

     Value1  Value2
1 0       3      12
  1       4      13
  2       5      14
  3       6      15
  4       7      16
2 0       8      17
  1       9      18
  2      10      19
  3      11      20

pandas DataFrame:根据另一列中的布尔值计算总和 - python

我对Python相当陌生，我尝试在pandas中模拟以下逻辑我目前正在循环抛出行，并希望对前几行的AMOUNT列中的值求和，但只求和最后一次看到的“ TRUE”值。实际数据似乎效率低下（我的数据框大约有500万行）？想知道用Python处理这种逻辑的有效方法是什么？逻辑：逻辑是，如果FLAG为TRUE，我想对前几行的AMOUNT列中的值求和，但只求和最后一次…

Pandas Dataframe:在越来越多的列上循环并计算均值和标准差 - python

基本上，我有一个包含20个属性和一个值的表。我想找到std = 0-（即粒度级别完美允许1：1）所需的最少数量的属性。我想建立一个循环如果使用列名进行硬编码，则看起来像这样：for iter in range(1,21): dfcalc = df.groupby("LINE_NUM")["RATIO"].agg([np…

pandas.DataFrame.replace更改列的dtype - python

因此，我试图用np.nan替换数据框中的None值，并注意到在此过程中，即使数据框中的float列的数据类型不包含任何丢失的数据，它们也都更改为object。举个例子：import pandas as pd import numpy as np data = pd.DataFrame({'A':np.nan,'B':1…

Python Pandas:按分组分组，平均？ - python

我有一个像这样的数据框:cluster org time 1 a 8 1 a 6 2 h 34 1 c 23 2 d 74 3 w 6 我想计算每个集群每个组织的平均时间。预期结果:cluster mean(time) 1 15 ((8+6)/2+23)/2 2 54 (74+34)/2 3 6 我不知道如何在熊猫中做到这一点，有人可以帮忙吗？参考方案如…

如何从'pandas.core.frame.DataFrame'中消除第一列 - python

我有以以下格式输出的代码。我应该如何删除第一列并可以将第二行的元素存储在列表中？输出类型为'pandas.core.frame.DataFrame'格式 speed lat lng 1 19.130506 12.616756 7.460664 2 63.595894 52.616838 7.460691 3 40.740044 72.616913 7.460…

腾讯的同事天天给我安利让我看《三体》，说马化腾和雷军也在…

腾讯的同事天天给我安利让我看《三体》，说马化腾和雷军也在看。自己强行看了两个月，全部给看完了。感觉这文笔也就我读初中的水平……而且写着国内的一些情况，外国人能理解吗？这书为什么会这么火？这水平我也可以去写呀[笑哭][笑哭][笑哭] 招商银行员工：可以写赶紧写一个啊，能拿科幻文学雨果奖。包清白：哦楼主：pei ！tui ！你也配姓龙楼主：@赵龙王呵呵 […]