dask - 45码

标签：dask

将dask数据帧保存到csv并找出其长度，而无需计算两次 - python

时间：2020-8-31

说，我有一些dask数据框。我想对它进行一些操作，而不是保存到csv并打印其len。据我了解，以下代码会使dask两次计算df，对吗？ df = dd.read_csv('path/to/file', dtype=some_dtypes) #some operations... df.to_csv("path/to/out/* […]

标签：dask, dataframe, python
Streamz / Dask:收集不等待缓冲区的所有结果 - python

时间：2020-8-15

进口： from dask.distributed import Client import streamz import time 模拟的工作量： def increment(x): time.sleep(0.5) return x + 1 假设我想在本地Dask客户端上处理一些工作负载： if __name__ == "__main__ […]

标签：dask, dask-distributed, python, stream, streamz
在快速本地集群上管理工作人员内存 - python

时间：2020-7-31

我试图用dask加载数据集，但是当需要计算我的数据集时，我总是遇到这样的问题：警告-工作者超出了95％的内存预算。正在重新启动。我只是在本地计算机上工作，因此启动了dask，如下所示： if __name__ == '__main__': libmarket.config.client = Client() # use dask.di […]

标签：dask, pandas, python
使用Dask读取多个文件 - python

时间：2020-7-27

我正在尝试简单地并行读取24个科学数据文件，每个文件约250MB，因此总计约6GB。数据为2D数组格式。它存储在并行文件系统中，并从群集中读取，尽管我现在仅从单个节点读取。数据采用类似于HDF5（称为Adios）的格式，并且类似于h5py包进行读取。每个文件大约需要4秒钟才能读取。我正在阅读此处（http://docs.dask.org/en/latest/ […]

标签：dask, dask-distributed, python
在dask数据框中添加一列，并通过滚动窗口对其进行计算 - python

时间：2020-7-24

假设我有以下代码，生成一个虚拟的dask数据帧： import pandas as pd import dask.dataframe as dd pandas_dataframe = pd.DataFrame({'A' : [0,500,1000], 'B': [-100, 200, 300] , 'C� […]

标签：dask, numpy, pandas, python, rolling-computation
将dask数据框中的列转换为Doc2Vec的TaggedDocument - python

时间：2020-7-17

介绍目前，我正在尝试与gensim一起使用dask进行NLP文档计算，并且在将我的语料库转换为“ TaggedDocument”时遇到了问题。因为我已经尝试了多种解决该问题的方法，所以将列出我的尝试。每次处理此问题的尝试都会遇到一些稍有不同的麻烦。首先是一些初始给定。数据 df.info() <class 'dask.dataframe.co […]

标签：dask, doc2vec, gensim, python
快捷项目分配。无法将loc用于项目分配 - python

时间：2020-7-8

我有一个无法容纳在内存中的镶木地板文件文件夹，因此我正在使用dask来执行数据清理操作。我有一个要执行项目分配的功能，但似乎找不到任何在线解决方案可作为该特定功能的解决方案。以下是在熊猫中起作用的功能。如何在dask数据框中获得相同的结果？我认为延迟可能会有所帮助，但是我尝试编写的所有解决方案都没有起作用。 def item_assignment(df): […]

标签：dask, pandas, python, series
并行dask for循环比常规循环慢？ - python

时间：2020-7-8

如果我尝试用dask并行化for循环，它的执行速度将比常规版本慢。基本上，我只是按照dask教程中的介绍性示例进行操作，但是由于某种原因，它最终还是失败了。我究竟做错了什么？ In [1]: import numpy as np ...: from dask import delayed, compute ...: import dask.multiproc […]

标签：dask, numpy, parallel-processing, python