apache-spark-sql

标签：apache-spark-sql

在PySpark中爆炸 - python

时间：2020-8-29

我想从包含单词列表的DataFrame转换为每个单词都在其自己行中的DataFrame。如何在DataFrame中的列上爆炸？这是我尝试的一些示例，您可以在其中取消注释每行代码并获取以下注释中列出的错误。我在带有Spark 1.6.1的Python 2.7中使用PySpark。 from pyspark.sql.functions import spli […]

标签：apache-spark, apache-spark-sql, pyspark, python
GroupBy列和筛选器行在Pyspark中具有最大值 - python

时间：2020-8-23

我几乎可以肯定，这已经被问过了，但是a search through stackoverflow没有回答我的问题。不是[2]的副本，因为我想要最大值，而不是最常用的项目。我是pyspark的新手，并尝试做一些非常简单的事情:我想对“A”列进行分组，然后仅将每个组中具有最大值的行保留在“B”列中。像这样: df_cleaned = df.groupBy(� […]

标签：apache-spark, apache-spark-sql, pyspark, python
Spark Java-合并同一列多行 - java

时间：2020-8-10

我正在使用Java Spark，并且有1个这样的数据框 +---+-----+------+ |id |color|datas | +----------------+ |1 |blue |data1| |1 |red |data2| |1 |orange|data3| |2 |black |data4| |2 | |data5| |2 |yellow| | […]

标签：apache-spark, apache-spark-sql, java
何时缓存DataFrame？ - python

时间：2020-8-8

我的问题是，什么时候应该做dataframe.cache（）以及什么时候有用？另外，在我的代码中是否应将数据帧缓存在注释行中？注意：我的数据帧是从Redshift DB加载的。非常感谢这是我的代码： def sub_tax_transfer_pricing_eur_aux(manager, dataframe, seq_recs, seq_reser […]

标签：apache-spark, apache-spark-sql, pyspark, python
Spark使用上一行的值将新列添加到数据框 - python

时间：2020-8-2

我想知道如何在Spark（Pyspark）中实现以下目标初始数据框： +--+---+ |id|num| +--+---+ |4 |9.0| +--+---+ |3 |7.0| +--+---+ |2 |3.0| +--+---+ |1 |5.0| +--+---+ 结果数据框： +--+---+-------+ |id|num|new_Col| +--+ […]

标签：apache-spark, apache-spark-sql, dataframe, pyspark, python
PySpark:TypeError:条件应为字符串或列 - python

时间：2020-7-27

我正在尝试过滤基于RDD，如下所示： spark_df = sc.createDataFrame(pandas_df) spark_df.filter(lambda r: str(r['target']).startswith('good')) spark_df.take(5) 但是出现以下错误： TypeErrorT […]

标签：apache-spark, apache-spark-sql, dataframe, pyspark, python
无法查看通过Spark SQL创建的新数据 - java

时间：2020-7-18

我遇到一个问题，我无法查看Hive的某些数据。重现此问题的步骤。建立表格 drop table if exists hive_parquet_nulls_test ; create table hive_parquet_nulls_test ( name String ) partitioned by (report_date DATE) stored as […]

标签：apache-spark, apache-spark-sql, hive, java

标签：apache-spark-sql

在PySpark中爆炸 - python

GroupBy列和筛选器行在Pyspark中具有最大值 - python

Spark Java-合并同一列多行 - java

何时缓存DataFrame？ - python

Spark使用上一行的值将新列添加到数据框 - python

PySpark:TypeError:条件应为字符串或列 - python

无法查看通过Spark SQL创建的新数据 - java