使用Dask读取多个文件 - python

我正在尝试简单地并行读取24个科学数据文件,每个文件约250MB,因此总计约6GB。数据为2D数组格式。它存储在并行文件系统中,并从群集中读取,尽管我现在仅从单个节点读取。数据采用类似于HDF5(称为Adios)的格式,并且类似于h5py包进行读取。每个文件大约需要4秒钟才能读取。我正在阅读此处(http://docs.dask.org/en/latest/array-creation.html)的skimage示例。但是,无论有多少工人,我都没有提速。我以为可能我使用的是错误的,也许仍然只使用了1个工人,但是当我分析它时,似乎确实有24个工人。如何提高读取数据的速度?
使用Dask读取多个文件 - python

import adios as ad
import numpy as np
import dask.array as da
import dask

bpread = dask.delayed(lambda f: ad.file(f)['data'][...],pure=True)
lazy_datas = [bpread(path) for path in paths]
sample = lazy_datas[0].compute()

#read in data
arrays = [da.from_delayed(lazy_data,dtype=sample.dtype,shape=sample.shape) for lazy_data in lazy_datas]
datas = da.stack(arrays,axis=0)
datas2 = datas.compute(scheduler='processes',num_workers=24)

参考方案

我建议查看调度程序的仪表板的/profile选项卡。这将告诉您哪些代码行占用最多的时间。

我的第一个猜测是,您已经最大限度地利用了磁盘为您提供数据的能力。您不受CPU的限制,因此添加更多内核将无济于事。不过,这只是一个猜测,与往常一样,您必须概要分析并进一步调查您的情况才能确定。

Python GPU资源利用 - python

我有一个Python脚本在某些深度学习模型上运行推理。有什么办法可以找出GPU资源的利用率水平?例如,使用着色器,float16乘法器等。我似乎在网上找不到太多有关这些GPU资源的文档。谢谢! 参考方案 您可以尝试在像Renderdoc这样的GPU分析器中运行pyxthon应用程序。它将分析您的跑步情况。您将能够获得有关已使用资源,已用缓冲区,不同渲染状态上…

Python sqlite3数据库已锁定 - python

我在Windows上使用Python 3和sqlite3。我正在开发一个使用数据库存储联系人的小型应用程序。我注意到,如果应用程序被强制关闭(通过错误或通过任务管理器结束),则会收到sqlite3错误(sqlite3.OperationalError:数据库已锁定)。我想这是因为在应用程序关闭之前,我没有正确关闭数据库连接。我已经试过了: connectio…

Python exchangelib在子文件夹中读取邮件 - python

我想从Outlook邮箱的子文件夹中读取邮件。Inbox ├──myfolder 我可以使用account.inbox.all()阅读收件箱,但我想阅读myfolder中的邮件我尝试了此页面folder部分中的内容,但无法正确完成https://pypi.python.org/pypi/exchangelib/ 参考方案 您需要首先掌握Folder的myfo…

python-docx应该在空单元格已满时返回空单元格 - python

我试图遍历文档中的所有表并从中提取文本。作为中间步骤,我只是尝试将文本打印到控制台。我在类似的帖子中已经看过scanny提供的其他代码,但是由于某种原因,它并没有提供我正在解析的文档的预期输出可以在https://www.ontario.ca/laws/regulation/140300中找到该文档from docx import Document from…

Python ThreadPoolExecutor抑制异常 - python

from concurrent.futures import ThreadPoolExecutor, wait, ALL_COMPLETED def div_zero(x): print('In div_zero') return x / 0 with ThreadPoolExecutor(max_workers=4) as execut…