在键上分​​割字典的numpy数组 - python

我正在一个机器学习项目中,该项目将数据分类为numpy数组。第一列是标签,第二列是特征及其值的字典,因为作为一个完整的矩阵,它非常稀疏,并且有大量特征和示例。

我发现使用以下方法从数据集中获取行的子集非常简单:

dataset[dataset[:, 0] == 1]

这将返回标签为1的所有行的numpy数组。我要执行的操作是这样的(此示例不起作用):

dataset[2 in dataset[:, 1]]

在其中返回字典中以2为键的所有行的numpy数组。更为有用的是一种对键值对进行过滤的方法(此当前设置是所有二进制功能,但是我还有其他具有多种可能性的项目)。

我正在使用python 3.6。
在此先感谢您的帮助!

这是我要解析的数据示例:

[1 {10: 1, 12: 1, 15: 1, 18: 1, 31: 1, 36: 1, 48: 1, 59: 1, 70: 1, 79: 1, 90: 1, 100: 1, 125: 1, 140: 1, 163: 1, 185: 1, 200: 1}]
[1 {9: 1, 11: 1, 14: 1, 18: 1, 29: 1, 36: 1, 48: 1, 59: 1, 68: 1, 79: 1, 89: 1, 103: 1, 120: 1, 143: 1, 160: 1, 180: 1, 200: 1}]
[-1 {10: 1, 11: 1, 14: 1, 18: 1, 29: 1, 35: 1, 46: 1, 57: 1, 68: 1, 79: 1, 90: 1, 104: 1, 124: 1, 143: 1, 163: 1, 183: 1, 203: 1}]
[1 {9: 1, 11: 1, 14: 1, 18: 1, 30: 1, 35: 1, 46: 1, 57: 1, 68: 1, 79: 1, 90: 1, 103: 1, 123: 1, 143: 1, 163: 1, 183: 1, 204: 1}]
[-1 {10: 1, 12: 1, 14: 1, 18: 1, 33: 1, 36: 1, 45: 1, 56: 1, 67: 1, 78: 1, 89: 1, 100: 1, 120: 1, 140: 1, 160: 1, 193: 1, 203: 1}]

第一个建议很有效,但是后来我意识到我也将不具有该功能的行切成薄片,但是除了一个超级慢的函数,该函数获取添加行的索引,然后将其他行添加到另一组中,我可以不能正常工作。当我尝试类似的东西:

helper2 = np.vectorize(not dict.__contains__)

它说“布尔对象不可调用”。

参考方案

这对性能没有帮助,但是您可以在np.vecorize上使用dict.__contains__来模仿numpy索引。

import numpy as np

xs = np.array([[1, {1: 1}], [2, {2: 2}]])

helper = np.vectorize(dict.__contains__)

res = xs[helper(xs[:,1], 1)]
# array([[1, {1: 1}]], dtype=object)

在这里,helper是两个参数的函数。第一个参数是np.ndarraydictdict。第二个参数是要测试的键的np.ndarray或单个键。

Python GPU资源利用 - python

我有一个Python脚本在某些深度学习模型上运行推理。有什么办法可以找出GPU资源的利用率水平?例如,使用着色器,float16乘法器等。我似乎在网上找不到太多有关这些GPU资源的文档。谢谢! 参考方案 您可以尝试在像Renderdoc这样的GPU分析器中运行pyxthon应用程序。它将分析您的跑步情况。您将能够获得有关已使用资源,已用缓冲区,不同渲染状态上…

Python uuid4,如何限制唯一字符的长度 - python

在Python中,我正在使用uuid4()方法创建唯一的字符集。但是我找不到将其限制为10或8个字符的方法。有什么办法吗?uuid4()ffc69c1b-9d87-4c19-8dac-c09ca857e3fc谢谢。 参考方案 尝试:x = uuid4() str(x)[:8] 输出:"ffc69c1b" Is there a way to…

Python sqlite3数据库已锁定 - python

我在Windows上使用Python 3和sqlite3。我正在开发一个使用数据库存储联系人的小型应用程序。我注意到,如果应用程序被强制关闭(通过错误或通过任务管理器结束),则会收到sqlite3错误(sqlite3.OperationalError:数据库已锁定)。我想这是因为在应用程序关闭之前,我没有正确关闭数据库连接。我已经试过了: connectio…

python:ConfigParser对象,然后再阅读一次 - python

场景:我有一个配置文件,其中包含要执行的自动化测试的列表。这些测试是长期循环执行的。   配置文件的设计方式使ConfigParser可以读取它。由于有两个三个参数,因此我需要通过每个测试。现在,此配置文件由script(s1)调用,并且按照配置文件中的列表执行测试。Script(s1)第一次读取配置,并且在每次测试完成后都会执行。阅读两次的要求:由于可能会…

Python exchangelib在子文件夹中读取邮件 - python

我想从Outlook邮箱的子文件夹中读取邮件。Inbox ├──myfolder 我可以使用account.inbox.all()阅读收件箱,但我想阅读myfolder中的邮件我尝试了此页面folder部分中的内容,但无法正确完成https://pypi.python.org/pypi/exchangelib/ 参考方案 您需要首先掌握Folder的myfo…