apache-spark

标签：apache-spark

将scala.collection.Seq <String>的Java对象转换为python列表 - java

时间：2020-8-30

在pyspark sparkSession中，以sc作为我的sparkContext，调用getRDDStorageInfo() Java sparkContext _jsc.sc()，该方法返回一个我可以在python中进行迭代的RDDInfo[]的JavaObject实例。 sc._jsc.sc().getRDDStorageInfo()返回JavaOb […]

标签：apache-spark, java, pyspark, python, scala
在PySpark中爆炸 - python

时间：2020-8-29

我想从包含单词列表的DataFrame转换为每个单词都在其自己行中的DataFrame。如何在DataFrame中的列上爆炸？这是我尝试的一些示例，您可以在其中取消注释每行代码并获取以下注释中列出的错误。我在带有Spark 1.6.1的Python 2.7中使用PySpark。 from pyspark.sql.functions import spli […]

标签：apache-spark, apache-spark-sql, pyspark, python
Spark:不支持的类版本错误 - java

时间：2020-8-27

我试图在所有节点都安装了Java 1.7的群集上使用spark-submit运行Java Spark作业。作业失败，并出现java.lang.UnsupportedClassVersionError:com / windlogics / dmf / wether / MyClass:不支持的major.minor 51.0版本。该错误似乎是由于使用较低版 […]

标签：apache-spark, java, java-7
检查RDD是否相等 - java

时间：2020-8-24

我在JUnit中进行了一些测试，我需要检查两个Spark RDD的相等性。我想到的一种方法是: JavaRDD<SomeClass> expResult = ...; JavaRDD<SomeClass> result = ...; assertEquals(expResult.collect(), result.collect() […]

标签：apache-spark, equals, java, junit
GroupBy列和筛选器行在Pyspark中具有最大值 - python

时间：2020-8-23

我几乎可以肯定，这已经被问过了，但是a search through stackoverflow没有回答我的问题。不是[2]的副本，因为我想要最大值，而不是最常用的项目。我是pyspark的新手，并尝试做一些非常简单的事情:我想对“A”列进行分组，然后仅将每个组中具有最大值的行保留在“B”列中。像这样: df_cleaned = df.groupBy(� […]

标签：apache-spark, apache-spark-sql, pyspark, python
我可以在运行时更改Spark的执行程序内存吗？ - java

时间：2020-8-22

是否可以在运行时在Spark中更改执行程序内存的值？我要这样做的原因是，对于某些映射任务，我希望纱线调度程序将每个任务放在单独的节点上。通过将执行程序的内存增加到一个节点的总内存附近，可以确保它们分布在每个节点上。稍后，我想在每个节点上运行多个任务，因此我将降低它们的执行器内存。参考方案不，你不能。每个执行程序都在各自的JVM上启动，并且您无法在运行时 […]

标签：apache-spark, hadoop, java, scala, yarn
Kafka结构化流KafkaSourceProvider无法实例化 - java

时间：2020-8-19

我正在一个流项目中，我有这样的ping统计信息的kafka流: 64 bytes from vas.fractalanalytics.com (192.168.30.26): icmp_seq=1 ttl=62 time=0.913 ms 64 bytes from vas.fractalanalytics.com (192.168.30.26): icmp […]

标签：apache-kafka, apache-spark, java, pyspark, python
apache spark MLLib:如何为字符串特征建立标记点？ - java

时间：2020-8-16

我正在尝试使用Spark的MLLib构建NaiveBayes分类器，该分类器将一组文档作为输入。我想将一些东西作为特征(即作者，显式标签，隐式关键字，类别)，但查看the documentation似乎LabeledPoint仅包含双精度字，即看起来像LabeledPoint[Double, List[Pair[Double,Double]]。相反，我从 […]

标签：apache-spark, apache-spark-mllib, feature-selection, java, machine-learning
环境变量PYSPARK_PYTHON和PYSPARK_DRIVER_PYTHON - python

时间：2020-8-15

我最近安装了pyspark。它已正确安装。当我在python中使用以下简单程序时，出现错误。 >>from pyspark import SparkContext >>sc = SparkContext() >>data = range(1,1000) >>rdd = sc.parallelize(data) […]

标签：apache-spark, pyspark, python, python-3.x
如何在齐柏林飞艇中使用水蟒？ - python

时间：2020-8-11

我想在齐柏林飞艇中使用水蟒。所以我修改了/zeppelin/conf/zeppelin-env.sh中的配置文件像下面一样。 export SPARK_HOME=/home/jin/spark export PYTHONPATH=/home/jin/anaconda3/bin/python export PYSPARK_PYTHON=/home/jin/s […]

标签：anaconda, apache-spark, apache-zeppelin, python