标签:dask

  • 将dask数据帧保存到csv并找出其长度,而无需计算两次 - python

    时间:2020-8-31

    说,我有一些dask数据框。我想对它进行一些操作,而不是保存到csv并打印其len。 据我了解,以下代码会使dask两次计算df,对吗? df = dd.read_csv('path/to/file', dtype=some_dtypes) #some operations... df.to_csv("path/to/out/* […]

  • Streamz / Dask:收集不等待缓冲区的所有结果 - python

    时间:2020-8-15

    进口: from dask.distributed import Client import streamz import time 模拟的工作量: def increment(x): time.sleep(0.5) return x + 1 假设我想在本地Dask客户端上处理一些工作负载: if __name__ == "__main__ […]

  • 在快速本地集群上管理工作人员内存 - python

    时间:2020-7-31

    我试图用dask加载数据集,但是当需要计算我的数据集时,我总是遇到这样的问题: 警告-工作者超出了95%的内存预算。正在重新启动。 我只是在本地计算机上工作,因此启动了dask,如下所示: if __name__ == '__main__': libmarket.config.client = Client() # use dask.di […]

  • 使用Dask读取多个文件 - python

    时间:2020-7-27

    我正在尝试简单地并行读取24个科学数据文件,每个文件约250MB,因此总计约6GB。数据为2D数组格式。它存储在并行文件系统中,并从群集中读取,尽管我现在仅从单个节点读取。数据采用类似于HDF5(称为Adios)的格式,并且类似于h5py包进行读取。每个文件大约需要4秒钟才能读取。我正在阅读此处(http://docs.dask.org/en/latest/ […]

  • 在dask数据框中添加一列,并通过滚动窗口对其进行计算 - python

    时间:2020-7-24

    假设我有以下代码,生成一个虚拟的dask数据帧: import pandas as pd import dask.dataframe as dd pandas_dataframe = pd.DataFrame({'A' : [0,500,1000], 'B': [-100, 200, 300] , 'C� […]

  • 将dask数据框中的列转换为Doc2Vec的TaggedDocument - python

    时间:2020-7-17

    介绍目前,我正在尝试与gensim一起使用dask进行NLP文档计算,并且在将我的语料库转换为“ TaggedDocument”时遇到了问题。因为我已经尝试了多种解决该问题的方法,所以将列出我的尝试。每次处理此问题的尝试都会遇到一些稍有不同的麻烦。首先是一些初始给定。数据 df.info() <class 'dask.dataframe.co […]

  • 快捷项目分配。无法将loc用于项目分配 - python

    时间:2020-7-8

    我有一个无法容纳在内存中的镶木地板文件文件夹,因此我正在使用dask来执行数据清理操作。我有一个要执行项目分配的功能,但似乎找不到任何在线解决方案可作为该特定功能的解决方案。以下是在熊猫中起作用的功能。如何在dask数据框中获得相同的结果?我认为延迟可能会有所帮助,但是我尝试编写的所有解决方案都没有起作用。 def item_assignment(df): […]

  • 并行dask for循环比常规循环慢? - python

    时间:2020-7-8

    如果我尝试用dask并行化for循环,它的执行速度将比常规版本慢。基本上,我只是按照dask教程中的介绍性示例进行操作,但是由于某种原因,它最终还是失败了。我究竟做错了什么? In [1]: import numpy as np ...: from dask import delayed, compute ...: import dask.multiproc […]