熊猫，尝试从有太多行的数据框中仅对每个movie_id采样5行 - python

就总行数而言，我有一个巨大的数据框df
实际上，其中有太多行。而且我需要以合理的方式限制行数，同时仍然保持每部电影在数据帧中的评论数量相同（当前差异很大）

数据框具有这样的形状

第一列是用户ID，第二列是animeID（本质上是movieID），第三列只是该用户自己对该电影的电影评分。每行都是电影评论。 animeID列中应该有大约300个movieID。

我在熊猫中需要做的是限制行数，以便我对该数据帧进行重新采样以使每个animeID（即movieID）只有5行，而新的数据帧应仅包含那些新采样的行。我完全迷住了如何在熊猫中做到这一点，我可能可以轻松地在excel中做到这一点，但是我不想将所有预处理都分为excel阶段和熊猫阶段。

我很确定每个animeID至少应有1000行（每行是一个单独的电影评论，但可能是同一用户或不同用户）。我只需要限制行数（电影评论），以便所有电影仍然具有关于它们的评论，但是我仍然能够处理数据。

我将有大约300部电影（300个animeIDs），从中我知道这些电影将至少对它们有1000条评论，而我已经做到了。因此，主要问题是某些电影对它们的评论量很大，例如成千上万的评论。

ratingsDataframe

参考方案

我想不出任何适用于您的情况的功能。相反，您可以尝试以下几行，其中df是您要从中采样的原始数据帧：

current_row=0
df_sample=pd.DataFrame([],columns=df.columns)
for i in np.unique(df['animeID']):
      new_sample=df[df['animeID']==i].sample(n=5)
      df_sample=pd.concat([df_sample,new_sample],axis=0)

pandas.DataFrame.replace更改列的dtype - python

因此，我试图用np.nan替换数据框中的None值，并注意到在此过程中，即使数据框中的float列的数据类型不包含任何丢失的数据，它们也都更改为object。举个例子：import pandas as pd import numpy as np data = pd.DataFrame({'A':np.nan,'B':1…

Python GPU资源利用 - python

我有一个Python脚本在某些深度学习模型上运行推理。有什么办法可以找出GPU资源的利用率水平？例如，使用着色器，float16乘法器等。我似乎在网上找不到太多有关这些GPU资源的文档。谢谢！参考方案您可以尝试在像Renderdoc这样的GPU分析器中运行pyxthon应用程序。它将分析您的跑步情况。您将能够获得有关已使用资源，已用缓冲区，不同渲染状态上…

Python sqlite3数据库已锁定 - python

我在Windows上使用Python 3和sqlite3。我正在开发一个使用数据库存储联系人的小型应用程序。我注意到，如果应用程序被强制关闭（通过错误或通过任务管理器结束），则会收到sqlite3错误（sqlite3.OperationalError：数据库已锁定）。我想这是因为在应用程序关闭之前，我没有正确关闭数据库连接。我已经试过了： connectio…

Python:如何根据另一列元素明智地查找一列中的空单元格计数？ - python

df = pd.DataFrame({'user': ['Bob', 'Jane', 'Alice','Jane', 'Alice','Bob', 'Alice'], 'income…

python:ConfigParser对象，然后再阅读一次 - python

场景：我有一个配置文件，其中包含要执行的自动化测试的列表。这些测试是长期循环执行的。配置文件的设计方式使ConfigParser可以读取它。由于有两个三个参数，因此我需要通过每个测试。现在，此配置文件由script(s1)调用，并且按照配置文件中的列表执行测试。Script(s1)第一次读取配置，并且在每次测试完成后都会执行。阅读两次的要求：由于可能会…

腾讯的同事天天给我安利让我看《三体》，说马化腾和雷军也在…

腾讯的同事天天给我安利让我看《三体》，说马化腾和雷军也在看。自己强行看了两个月，全部给看完了。感觉这文笔也就我读初中的水平……而且写着国内的一些情况，外国人能理解吗？这书为什么会这么火？这水平我也可以去写呀[笑哭][笑哭][笑哭] 招商银行员工：可以写赶紧写一个啊，能拿科幻文学雨果奖。包清白：哦楼主：pei ！tui ！你也配姓龙楼主：@赵龙王呵呵 […]