标签:apache-spark
-
将scala.collection.Seq <String>的Java对象转换为python列表 - java
在pyspark sparkSession中,以sc作为我的sparkContext,调用getRDDStorageInfo() Java sparkContext _jsc.sc(),该方法返回一个我可以在python中进行迭代的RDDInfo[]的JavaObject实例。 sc._jsc.sc().getRDDStorageInfo()返回JavaOb […]
-
在PySpark中爆炸 - python
我想从包含单词列表的DataFrame转换为每个单词都在其自己行中的DataFrame。 如何在DataFrame中的列上爆炸? 这是我尝试的一些示例,您可以在其中取消注释每行代码并获取以下注释中列出的错误。我在带有Spark 1.6.1的Python 2.7中使用PySpark。 from pyspark.sql.functions import spli […]
-
Spark:不支持的类版本错误 - java
我试图在所有节点都安装了Java 1.7的群集上使用spark-submit运行Java Spark作业。 作业失败,并出现java.lang.UnsupportedClassVersionError:com / windlogics / dmf / wether / MyClass:不支持的major.minor 51.0版本。 该错误似乎是由于使用较低版 […]
-
检查RDD是否相等 - java
我在JUnit中进行了一些测试,我需要检查两个Spark RDD的相等性。 我想到的一种方法是: JavaRDD<SomeClass> expResult = ...; JavaRDD<SomeClass> result = ...; assertEquals(expResult.collect(), result.collect() […]
-
GroupBy列和筛选器行在Pyspark中具有最大值 - python
我几乎可以肯定,这已经被问过了,但是a search through stackoverflow没有回答我的问题。不是[2]的副本,因为我想要最大值,而不是最常用的项目。我是pyspark的新手,并尝试做一些非常简单的事情:我想对“A”列进行分组,然后仅将每个组中具有最大值的行保留在“B”列中。像这样: df_cleaned = df.groupBy( […]
-
我可以在运行时更改Spark的执行程序内存吗? - java
是否可以在运行时在Spark中更改执行程序内存的值?我要这样做的原因是,对于某些映射任务,我希望纱线调度程序将每个任务放在单独的节点上。通过将执行程序的内存增加到一个节点的总内存附近,可以确保它们分布在每个节点上。稍后,我想在每个节点上运行多个任务,因此我将降低它们的执行器内存。 参考方案 不,你不能。 每个执行程序都在各自的JVM上启动,并且您无法在运行时 […]
-
Kafka结构化流KafkaSourceProvider无法实例化 - java
我正在一个流项目中,我有这样的ping统计信息的kafka流: 64 bytes from vas.fractalanalytics.com (192.168.30.26): icmp_seq=1 ttl=62 time=0.913 ms 64 bytes from vas.fractalanalytics.com (192.168.30.26): icmp […]
-
apache spark MLLib:如何为字符串特征建立标记点? - java
我正在尝试使用Spark的MLLib构建NaiveBayes分类器,该分类器将一组文档作为输入。 我想将一些东西作为特征(即作者,显式标签,隐式关键字,类别),但查看the documentation似乎LabeledPoint仅包含双精度字,即看起来像LabeledPoint[Double, List[Pair[Double,Double]]。 相反,我从 […]
-
环境变量PYSPARK_PYTHON和PYSPARK_DRIVER_PYTHON - python
我最近安装了pyspark。它已正确安装。当我在python中使用以下简单程序时,出现错误。 >>from pyspark import SparkContext >>sc = SparkContext() >>data = range(1,1000) >>rdd = sc.parallelize(data) […]
-
如何在齐柏林飞艇中使用水蟒? - python
我想在齐柏林飞艇中使用水蟒。 所以我修改了/zeppelin/conf/zeppelin-env.sh中的配置文件像下面一样。 export SPARK_HOME=/home/jin/spark export PYTHONPATH=/home/jin/anaconda3/bin/python export PYSPARK_PYTHON=/home/jin/s […]