标签:apache-spark-sql
-
在PySpark中爆炸 - python
我想从包含单词列表的DataFrame转换为每个单词都在其自己行中的DataFrame。 如何在DataFrame中的列上爆炸? 这是我尝试的一些示例,您可以在其中取消注释每行代码并获取以下注释中列出的错误。我在带有Spark 1.6.1的Python 2.7中使用PySpark。 from pyspark.sql.functions import spli […]
-
GroupBy列和筛选器行在Pyspark中具有最大值 - python
我几乎可以肯定,这已经被问过了,但是a search through stackoverflow没有回答我的问题。不是[2]的副本,因为我想要最大值,而不是最常用的项目。我是pyspark的新手,并尝试做一些非常简单的事情:我想对“A”列进行分组,然后仅将每个组中具有最大值的行保留在“B”列中。像这样: df_cleaned = df.groupBy( […]
-
Spark Java-合并同一列多行 - java
我正在使用Java Spark,并且有1个这样的数据框 +---+-----+------+ |id |color|datas | +----------------+ |1 |blue |data1| |1 |red |data2| |1 |orange|data3| |2 |black |data4| |2 | |data5| |2 |yellow| | […]
-
何时缓存DataFrame? - python
我的问题是,什么时候应该做dataframe.cache()以及什么时候有用? 另外,在我的代码中是否应将数据帧缓存在注释行中? 注意:我的数据帧是从Redshift DB加载的。 非常感谢 这是我的代码: def sub_tax_transfer_pricing_eur_aux(manager, dataframe, seq_recs, seq_reser […]
-
Spark使用上一行的值将新列添加到数据框 - python
我想知道如何在Spark(Pyspark)中实现以下目标 初始数据框: +--+---+ |id|num| +--+---+ |4 |9.0| +--+---+ |3 |7.0| +--+---+ |2 |3.0| +--+---+ |1 |5.0| +--+---+ 结果数据框: +--+---+-------+ |id|num|new_Col| +--+ […]
-
PySpark:TypeError:条件应为字符串或列 - python
我正在尝试过滤基于RDD,如下所示: spark_df = sc.createDataFrame(pandas_df) spark_df.filter(lambda r: str(r['target']).startswith('good')) spark_df.take(5) 但是出现以下错误: TypeErrorT […]
-
无法查看通过Spark SQL创建的新数据 - java
我遇到一个问题,我无法查看Hive的某些数据。重现此问题的步骤。建立表格 drop table if exists hive_parquet_nulls_test ; create table hive_parquet_nulls_test ( name String ) partitioned by (report_date DATE) stored as […]