标签:pyspark
-
无法导入pyspark统计信息模块 - python
Python 2.7,Apache Spark 2.1.0,Ubuntu 14.04在pyspark shell中,出现以下错误: >>>从pyspark.mllib.stat导入统计信息追溯(最近一次通话): 文件“”,第1行,在ImportError:没有名为stat的模块 解决方法 类似地 >>>从pyspark.m […]
-
将scala.collection.Seq <String>的Java对象转换为python列表 - java
在pyspark sparkSession中,以sc作为我的sparkContext,调用getRDDStorageInfo() Java sparkContext _jsc.sc(),该方法返回一个我可以在python中进行迭代的RDDInfo[]的JavaObject实例。 sc._jsc.sc().getRDDStorageInfo()返回JavaOb […]
-
在PySpark中爆炸 - python
我想从包含单词列表的DataFrame转换为每个单词都在其自己行中的DataFrame。 如何在DataFrame中的列上爆炸? 这是我尝试的一些示例,您可以在其中取消注释每行代码并获取以下注释中列出的错误。我在带有Spark 1.6.1的Python 2.7中使用PySpark。 from pyspark.sql.functions import spli […]
-
GroupBy列和筛选器行在Pyspark中具有最大值 - python
我几乎可以肯定,这已经被问过了,但是a search through stackoverflow没有回答我的问题。不是[2]的副本,因为我想要最大值,而不是最常用的项目。我是pyspark的新手,并尝试做一些非常简单的事情:我想对“A”列进行分组,然后仅将每个组中具有最大值的行保留在“B”列中。像这样: df_cleaned = df.groupBy( […]
-
Kafka结构化流KafkaSourceProvider无法实例化 - java
我正在一个流项目中,我有这样的ping统计信息的kafka流: 64 bytes from vas.fractalanalytics.com (192.168.30.26): icmp_seq=1 ttl=62 time=0.913 ms 64 bytes from vas.fractalanalytics.com (192.168.30.26): icmp […]
-
环境变量PYSPARK_PYTHON和PYSPARK_DRIVER_PYTHON - python
我最近安装了pyspark。它已正确安装。当我在python中使用以下简单程序时,出现错误。 >>from pyspark import SparkContext >>sc = SparkContext() >>data = range(1,1000) >>rdd = sc.parallelize(data) […]
-
何时缓存DataFrame? - python
我的问题是,什么时候应该做dataframe.cache()以及什么时候有用? 另外,在我的代码中是否应将数据帧缓存在注释行中? 注意:我的数据帧是从Redshift DB加载的。 非常感谢 这是我的代码: def sub_tax_transfer_pricing_eur_aux(manager, dataframe, seq_recs, seq_reser […]
-
在pyspark中groupBy之后如何计算唯一ID - python
我正在使用以下代码每年汇总学生。目的是了解每年的学生总数。 from pyspark.sql.functions import col import pyspark.sql.functions as fn gr = Df2.groupby(['Year']) df_grouped = gr.agg(fn.count(col('S […]
-
Spark使用上一行的值将新列添加到数据框 - python
我想知道如何在Spark(Pyspark)中实现以下目标 初始数据框: +--+---+ |id|num| +--+---+ |4 |9.0| +--+---+ |3 |7.0| +--+---+ |2 |3.0| +--+---+ |1 |5.0| +--+---+ 结果数据框: +--+---+-------+ |id|num|new_Col| +--+ […]
-
Spark Dataframe在性能方面如何优于Pandas Dataframe? - python
Closed. This question needs to be more focused。它当前不接受答案。 想改善这个问题吗?更新问题,使其仅通过editing this post专注于一个问题。 去年关闭。 Improve this question 任何人都可以解释一下,Spark Dataframe在执行时间方面比Pandas Dataframe […]