标签:dask-distributed

  • Streamz / Dask:收集不等待缓冲区的所有结果 - python

    时间:2020-8-15

    进口: from dask.distributed import Client import streamz import time 模拟的工作量: def increment(x): time.sleep(0.5) return x + 1 假设我想在本地Dask客户端上处理一些工作负载: if __name__ == "__main__ […]

  • 使用Dask读取多个文件 - python

    时间:2020-7-27

    我正在尝试简单地并行读取24个科学数据文件,每个文件约250MB,因此总计约6GB。数据为2D数组格式。它存储在并行文件系统中,并从群集中读取,尽管我现在仅从单个节点读取。数据采用类似于HDF5(称为Adios)的格式,并且类似于h5py包进行读取。每个文件大约需要4秒钟才能读取。我正在阅读此处(http://docs.dask.org/en/latest/ […]