在快速本地集群上管理工作人员内存 - python

我试图用dask加载数据集,但是当需要计算我的数据集时,我总是遇到这样的问题:

警告-工作者超出了95%的内存预算。正在重新启动。

我只是在本地计算机上工作,因此启动了dask,如下所示:

if __name__ == '__main__':
    libmarket.config.client = Client()  # use dask.distributed by default

现在,在错误消息中,我继续看到对“ memory_limit =”关键字参数的引用。但是,我已经彻底搜索了dask文档,无法弄清楚如何在单机配置中增加流血的worker内存限制。我有256GB的RAM,在将其转换回pandas数据帧之前,我将删除将来的大多数列(20GB的csv文件),因此我知道它将适合内存。我只需要从代码中增加每个工人的内存限制(不使用dask-worker),以便可以处理它。

拜托,有人帮我。

参考方案

可以将参数memory_limit提供给__init()__ClientLocalCluster函数。

一般性评论

仅调用Client()是先调用LocalCluster(),然后再调用创建的群集(Dask: Single Machine)的Client的快捷方式。如果在没有Client实例的情况下调用LocalCluster,则可以将LocalCluster.__init()__的所有可能参数提供给Client的初始化调用。因此,memory_limit类的API文档中未记录参数n_workers(以及其他参数,例如Client)。

但是,参数memory_limit似乎在LocalCluster的API文档中没有正确记录(请参见Dask GitHub Issue #4118)。

下面是一个工作示例。我添加了更多的论据,这可能对发现此问题/答案的人们很有用。

# load/import classes
from dask.distributed import Client, LocalCluster

# set up cluster and workers
cluster = LocalCluster(n_workers=4, 
                       threads_per_worker=1,
                       memory_limit='64GB')
client = Client(cluster)

# have a look at your workers
client

# do some work
## ... 

# close workers and cluster
client.close()
cluster.close()

快捷方式是

# load/import classes
from dask.distributed import Client

# set up cluster and workers
client = Client(n_workers=4, 
                threads_per_worker=1,
                memory_limit='64GB')

# have a look at your workers
client

# do some work
## ... 

# close workers and cluster
client.close()

进一步阅读

https://distributed.dask.org/en/latest/local-cluster.html
https://github.com/dask/dask/issues/4118

Python GPU资源利用 - python

我有一个Python脚本在某些深度学习模型上运行推理。有什么办法可以找出GPU资源的利用率水平?例如,使用着色器,float16乘法器等。我似乎在网上找不到太多有关这些GPU资源的文档。谢谢! 参考方案 您可以尝试在像Renderdoc这样的GPU分析器中运行pyxthon应用程序。它将分析您的跑步情况。您将能够获得有关已使用资源,已用缓冲区,不同渲染状态上…

Python sqlite3数据库已锁定 - python

我在Windows上使用Python 3和sqlite3。我正在开发一个使用数据库存储联系人的小型应用程序。我注意到,如果应用程序被强制关闭(通过错误或通过任务管理器结束),则会收到sqlite3错误(sqlite3.OperationalError:数据库已锁定)。我想这是因为在应用程序关闭之前,我没有正确关闭数据库连接。我已经试过了: connectio…

python:ConfigParser对象,然后再阅读一次 - python

场景:我有一个配置文件,其中包含要执行的自动化测试的列表。这些测试是长期循环执行的。   配置文件的设计方式使ConfigParser可以读取它。由于有两个三个参数,因此我需要通过每个测试。现在,此配置文件由script(s1)调用,并且按照配置文件中的列表执行测试。Script(s1)第一次读取配置,并且在每次测试完成后都会执行。阅读两次的要求:由于可能会…

Python exchangelib在子文件夹中读取邮件 - python

我想从Outlook邮箱的子文件夹中读取邮件。Inbox ├──myfolder 我可以使用account.inbox.all()阅读收件箱,但我想阅读myfolder中的邮件我尝试了此页面folder部分中的内容,但无法正确完成https://pypi.python.org/pypi/exchangelib/ 参考方案 您需要首先掌握Folder的myfo…

Python Pickle调用构造函数 - python

我想使用Python的pickle序列化器提供缺少值的默认值。由于类很简单,因此默认值自然存在于类的__init__方法中。我从pickle documentation看到有__getnewargs__。但是,这仅适用于在“酸洗”之前存在__getnewargs__的情况。有什么方法可以让python pickle始终调用构造函数,而不是从未初始化的对象开始…