我试图用dask加载数据集,但是当需要计算我的数据集时,我总是遇到这样的问题:
警告-工作者超出了95%的内存预算。正在重新启动。
我只是在本地计算机上工作,因此启动了dask,如下所示:
if __name__ == '__main__':
libmarket.config.client = Client() # use dask.distributed by default
现在,在错误消息中,我继续看到对“ memory_limit =”关键字参数的引用。但是,我已经彻底搜索了dask文档,无法弄清楚如何在单机配置中增加流血的worker内存限制。我有256GB的RAM,在将其转换回pandas数据帧之前,我将删除将来的大多数列(20GB的csv文件),因此我知道它将适合内存。我只需要从代码中增加每个工人的内存限制(不使用dask-worker),以便可以处理它。
拜托,有人帮我。
参考方案
可以将参数memory_limit
提供给__init()__
和Client
的LocalCluster
函数。
一般性评论
仅调用Client()
是先调用LocalCluster()
,然后再调用创建的群集(Dask: Single Machine)的Client
的快捷方式。如果在没有Client
实例的情况下调用LocalCluster
,则可以将LocalCluster.__init()__
的所有可能参数提供给Client
的初始化调用。因此,memory_limit
类的API文档中未记录参数n_workers
(以及其他参数,例如Client
)。
但是,参数memory_limit
似乎在LocalCluster
的API文档中没有正确记录(请参见Dask GitHub Issue #4118)。
解
下面是一个工作示例。我添加了更多的论据,这可能对发现此问题/答案的人们很有用。
# load/import classes
from dask.distributed import Client, LocalCluster
# set up cluster and workers
cluster = LocalCluster(n_workers=4,
threads_per_worker=1,
memory_limit='64GB')
client = Client(cluster)
# have a look at your workers
client
# do some work
## ...
# close workers and cluster
client.close()
cluster.close()
快捷方式是
# load/import classes
from dask.distributed import Client
# set up cluster and workers
client = Client(n_workers=4,
threads_per_worker=1,
memory_limit='64GB')
# have a look at your workers
client
# do some work
## ...
# close workers and cluster
client.close()
进一步阅读
https://distributed.dask.org/en/latest/local-cluster.html
https://github.com/dask/dask/issues/4118
我有一个Python脚本在某些深度学习模型上运行推理。有什么办法可以找出GPU资源的利用率水平?例如,使用着色器,float16乘法器等。我似乎在网上找不到太多有关这些GPU资源的文档。谢谢! 参考方案 您可以尝试在像Renderdoc这样的GPU分析器中运行pyxthon应用程序。它将分析您的跑步情况。您将能够获得有关已使用资源,已用缓冲区,不同渲染状态上…
Python sqlite3数据库已锁定 - python我在Windows上使用Python 3和sqlite3。我正在开发一个使用数据库存储联系人的小型应用程序。我注意到,如果应用程序被强制关闭(通过错误或通过任务管理器结束),则会收到sqlite3错误(sqlite3.OperationalError:数据库已锁定)。我想这是因为在应用程序关闭之前,我没有正确关闭数据库连接。我已经试过了: connectio…
python:ConfigParser对象,然后再阅读一次 - python场景:我有一个配置文件,其中包含要执行的自动化测试的列表。这些测试是长期循环执行的。 配置文件的设计方式使ConfigParser可以读取它。由于有两个三个参数,因此我需要通过每个测试。现在,此配置文件由script(s1)调用,并且按照配置文件中的列表执行测试。Script(s1)第一次读取配置,并且在每次测试完成后都会执行。阅读两次的要求:由于可能会…
Python exchangelib在子文件夹中读取邮件 - python我想从Outlook邮箱的子文件夹中读取邮件。Inbox ├──myfolder 我可以使用account.inbox.all()阅读收件箱,但我想阅读myfolder中的邮件我尝试了此页面folder部分中的内容,但无法正确完成https://pypi.python.org/pypi/exchangelib/ 参考方案 您需要首先掌握Folder的myfo…
Python Pickle调用构造函数 - python我想使用Python的pickle序列化器提供缺少值的默认值。由于类很简单,因此默认值自然存在于类的__init__方法中。我从pickle documentation看到有__getnewargs__。但是,这仅适用于在“酸洗”之前存在__getnewargs__的情况。有什么方法可以让python pickle始终调用构造函数,而不是从未初始化的对象开始…