pyspark - 45码

标签：pyspark

无法导入pyspark统计信息模块 - python

时间：2020-9-3

Python 2.7，Apache Spark 2.1.0，Ubuntu 14.04在pyspark shell中，出现以下错误： >>>从pyspark.mllib.stat导入统计信息追溯（最近一次通话）：文件“”，第1行，在ImportError：没有名为stat的模块解决方法类似地 >>>从pyspark.m […]

标签：pyspark, python
将scala.collection.Seq <String>的Java对象转换为python列表 - java

时间：2020-8-30

在pyspark sparkSession中，以sc作为我的sparkContext，调用getRDDStorageInfo() Java sparkContext _jsc.sc()，该方法返回一个我可以在python中进行迭代的RDDInfo[]的JavaObject实例。 sc._jsc.sc().getRDDStorageInfo()返回JavaOb […]

标签：apache-spark, java, pyspark, python, scala
在PySpark中爆炸 - python

时间：2020-8-29

我想从包含单词列表的DataFrame转换为每个单词都在其自己行中的DataFrame。如何在DataFrame中的列上爆炸？这是我尝试的一些示例，您可以在其中取消注释每行代码并获取以下注释中列出的错误。我在带有Spark 1.6.1的Python 2.7中使用PySpark。 from pyspark.sql.functions import spli […]

标签：apache-spark, apache-spark-sql, pyspark, python
GroupBy列和筛选器行在Pyspark中具有最大值 - python

时间：2020-8-23

我几乎可以肯定，这已经被问过了，但是a search through stackoverflow没有回答我的问题。不是[2]的副本，因为我想要最大值，而不是最常用的项目。我是pyspark的新手，并尝试做一些非常简单的事情:我想对“A”列进行分组，然后仅将每个组中具有最大值的行保留在“B”列中。像这样: df_cleaned = df.groupBy(� […]

标签：apache-spark, apache-spark-sql, pyspark, python
Kafka结构化流KafkaSourceProvider无法实例化 - java

时间：2020-8-19

我正在一个流项目中，我有这样的ping统计信息的kafka流: 64 bytes from vas.fractalanalytics.com (192.168.30.26): icmp_seq=1 ttl=62 time=0.913 ms 64 bytes from vas.fractalanalytics.com (192.168.30.26): icmp […]

标签：apache-kafka, apache-spark, java, pyspark, python
环境变量PYSPARK_PYTHON和PYSPARK_DRIVER_PYTHON - python

时间：2020-8-15

我最近安装了pyspark。它已正确安装。当我在python中使用以下简单程序时，出现错误。 >>from pyspark import SparkContext >>sc = SparkContext() >>data = range(1,1000) >>rdd = sc.parallelize(data) […]

标签：apache-spark, pyspark, python, python-3.x
何时缓存DataFrame？ - python

时间：2020-8-8

我的问题是，什么时候应该做dataframe.cache（）以及什么时候有用？另外，在我的代码中是否应将数据帧缓存在注释行中？注意：我的数据帧是从Redshift DB加载的。非常感谢这是我的代码： def sub_tax_transfer_pricing_eur_aux(manager, dataframe, seq_recs, seq_reser […]

标签：apache-spark, apache-spark-sql, pyspark, python
在pyspark中groupBy之后如何计算唯一ID - python

时间：2020-8-8

我正在使用以下代码每年汇总学生。目的是了解每年的学生总数。 from pyspark.sql.functions import col import pyspark.sql.functions as fn gr = Df2.groupby(['Year']) df_grouped = gr.agg(fn.count(col('S […]

标签：pyspark, pyspark-sql, python, spark-dataframe
Spark使用上一行的值将新列添加到数据框 - python

时间：2020-8-2

我想知道如何在Spark（Pyspark）中实现以下目标初始数据框： +--+---+ |id|num| +--+---+ |4 |9.0| +--+---+ |3 |7.0| +--+---+ |2 |3.0| +--+---+ |1 |5.0| +--+---+ 结果数据框： +--+---+-------+ |id|num|new_Col| +--+ […]

标签：apache-spark, apache-spark-sql, dataframe, pyspark, python
Spark Dataframe在性能方面如何优于Pandas Dataframe？ - python

时间：2020-7-28

Closed. This question needs to be more focused。它当前不接受答案。想改善这个问题吗？更新问题，使其仅通过editing this post专注于一个问题。去年关闭。 Improve this question 任何人都可以解释一下，Spark Dataframe在执行时间方面比Pandas Dataframe […]

标签：apache-spark, databricks, dataframe, pyspark, python