熊猫,尝试从有太多行的数据框中仅对每个movie_id采样5行 - python

就总行数而言,我有一个巨大的数据框df
实际上,其中有太多行。而且我需要以合理的方式限制行数,同时仍然保持每部电影在数据帧中的评论数量相同(当前差异很大)

数据框具有这样的形状

第一列是用户ID,第二列是animeID(本质上是movieID),第三列只是该用户自己对该电影的电影评分。每行都是电影评论。 animeID列中应该有大约300个movieID。

我在熊猫中需要做的是限制行数,以便我对该数据帧进行重新采样以使每个animeID(即movieID)只有5行,而新的数据帧应仅包含那些新采样的行。我完全迷住了如何在熊猫中做到这一点,我可能可以轻松地在excel中做到这一点,但是我不想将所有预处理都分为excel阶段和熊猫阶段。

我很确定每个animeID至少应有1000行(每行是一个单独的电影评论,但可能是同一用户或不同用户)。我只需要限制行数(电影评论),以便所有电影仍然具有关于它们的评论,但是我仍然能够处理数据。

我将有大约300部电影(300个animeIDs),从中我知道这些电影将至少对它们有1000条评论,而我已经做到了。因此,主要问题是某些电影对它们的评论量很大,例如成千上万的评论。

ratingsDataframe

参考方案

我想不出任何适用于您的情况的功能。相反,您可以尝试以下几行,其中df是您要从中采样的原始数据帧:

current_row=0
df_sample=pd.DataFrame([],columns=df.columns)
for i in np.unique(df['animeID']):
      new_sample=df[df['animeID']==i].sample(n=5)
      df_sample=pd.concat([df_sample,new_sample],axis=0)

pandas.DataFrame.replace更改列的dtype - python

因此,我试图用np.nan替换数据框中的None值,并注意到在此过程中,即使数据框中的float列的数据类型不包含任何丢失的数据,它们也都更改为object。举个例子:import pandas as pd import numpy as np data = pd.DataFrame({'A':np.nan,'B':1…

Python GPU资源利用 - python

我有一个Python脚本在某些深度学习模型上运行推理。有什么办法可以找出GPU资源的利用率水平?例如,使用着色器,float16乘法器等。我似乎在网上找不到太多有关这些GPU资源的文档。谢谢! 参考方案 您可以尝试在像Renderdoc这样的GPU分析器中运行pyxthon应用程序。它将分析您的跑步情况。您将能够获得有关已使用资源,已用缓冲区,不同渲染状态上…

Python sqlite3数据库已锁定 - python

我在Windows上使用Python 3和sqlite3。我正在开发一个使用数据库存储联系人的小型应用程序。我注意到,如果应用程序被强制关闭(通过错误或通过任务管理器结束),则会收到sqlite3错误(sqlite3.OperationalError:数据库已锁定)。我想这是因为在应用程序关闭之前,我没有正确关闭数据库连接。我已经试过了: connectio…

Python:如何根据另一列元素明智地查找一列中的空单元格计数? - python

df = pd.DataFrame({'user': ['Bob', 'Jane', 'Alice','Jane', 'Alice','Bob', 'Alice'], 'income…

python:ConfigParser对象,然后再阅读一次 - python

场景:我有一个配置文件,其中包含要执行的自动化测试的列表。这些测试是长期循环执行的。   配置文件的设计方式使ConfigParser可以读取它。由于有两个三个参数,因此我需要通过每个测试。现在,此配置文件由script(s1)调用,并且按照配置文件中的列表执行测试。Script(s1)第一次读取配置,并且在每次测试完成后都会执行。阅读两次的要求:由于可能会…