我有一个像这样的数据框df:
trial id run rt acc
0 1 1 1 0.941836 1
1 2 1 1 0.913791 1
2 3 1 1 0.128986 1
3 4 1 1 0.155720 0
4 1 1 2 0.414175 0
5 2 1 2 0.699326 1
6 3 1 2 0.781877 1
7 4 1 2 0.554666 1
每个id有2个运行,每个运行有70多个试验。每行包含一个试验。因此,层次结构是ID-运行-试用。
我只想保留平均acc大于0.5的运行,所以我使用了temp = df.groupby(['id', 'run']).agg(np.average)
和keep = temp[temp['acc']] > 0.5
。
现在,我要从不保留的运行中删除所有试验。
我尝试使用df[df['id'].isin(keep['id'])&df['run'].isin(keep['run'])]
,但这似乎无法正常工作。 df.query似乎也不起作用,因为数据框之间的索引和列不同。
还有另一种方法吗?
参考方案
我只想保留平均acc大于0.5的跑步
使用groupby
+ transform
,可以使用单个布尔系列进行索引:
df = df[df.groupby(['id', 'run'])['acc'].transform('mean') > 0.5]
熊猫:从SettingWithCopyWarning到loc和iloc - python我试着做:input1['Signature_Fixed'] = 'NONE' i = 0 for row in input1['Signature']: if (row == 'Competitor'): input1['Signature_Fixed'][…
Python-Excel导出 - python我有以下代码:import pandas as pd import requests from bs4 import BeautifulSoup res = requests.get("https://www.bankier.pl/gielda/notowania/akcje") soup = BeautifulSoup(res.cont…
Python:如何根据另一列元素明智地查找一列中的空单元格计数? - pythondf = pd.DataFrame({'user': ['Bob', 'Jane', 'Alice','Jane', 'Alice','Bob', 'Alice'], 'income…
R'relaimpo'软件包的Python端口 - python我需要计算Lindeman-Merenda-Gold(LMG)分数,以进行回归分析。我发现R语言的relaimpo包下有该文件。不幸的是,我对R没有任何经验。我检查了互联网,但找不到。这个程序包有python端口吗?如果不存在,是否可以通过python使用该包? python参考方案 最近,我遇到了pingouin库。
如何用'-'解析字符串到节点js本地脚本? - python我正在使用本地节点js脚本来处理字符串。我陷入了将'-'字符串解析为本地节点js脚本的问题。render.js:#! /usr/bin/env -S node -r esm let argv = require('yargs') .usage('$0 [string]') .argv; console.log(argv…