标签:hadoop

  • 使用ArrayWritable进行序列化似乎很有趣 - java

    时间:2020-8-24

    我正在使用ArrayWritable,有时需要检查Hadoop如何序列化ArrayWritable,这是通过设置job.setNumReduceTasks(0)获得的: 0    [email protected] 3    [email protected] 6    [email protected] 8    In […]

  • 我可以在运行时更改Spark的执行程序内存吗? - java

    时间:2020-8-22

    是否可以在运行时在Spark中更改执行程序内存的值?我要这样做的原因是,对于某些映射任务,我希望纱线调度程序将每个任务放在单独的节点上。通过将执行程序的内存增加到一个节点的总内存附近,可以确保它们分布在每个节点上。稍后,我想在每个节点上运行多个任务,因此我将降低它们的执行器内存。 参考方案 不,你不能。 每个执行程序都在各自的JVM上启动,并且您无法在运行时 […]

  • Hadoop如何获取未存储在HDFS上的输入数据? - java

    时间:2020-8-22

    我试图将自己的脑筋围绕Hadoop,阅读this excellent tutorial并仔细阅读official Hadoop docs。但是,在所有这些文献中,我都找不到对非常基本的东西的简单解释: 在所有人为的“Hello World!”中(单词计数)MR入门示例,输入数据直接存储在文本文件中。但是,在我看来,在现实世界中很少出现这种情况。我可以想象,实 […]

  • 设置类路径后,包org.apache.hadoop.conf不存在 - java

    时间:2020-8-19

    我是hadoop的初学者,使用hadoop的初学者指南作为教程。 我正在使用Mac OS X 10.9.2和Hadoop版本1.2.1 在终端中调用echo $ PATH时,我已经设置了所有适当的类路径: 这是我得到的结果: /Library/Frameworks/Python.framework/Versions/2.7/bin:/Users/oladot […]

  • Elastic Storm拓扑/ Storm-Hadoop共存 - java

    时间:2020-8-19

    我们正在评估采用Storm进行部署,但我有点担心。我们目前正在运行Hadoop MapReduce,并且希望将某些处理从MapReduce过渡到Storm进程。请注意,这只是一部分,但不是全部。我们仍然会有一些MapReduce功能。 我发现Mesos可以(潜在地)使我们能够在同一硬件上维护Storm和Hadoop部署,但是还存在其他一些问题: 我设想理想的 […]

  • Hadoop是否适合运行模拟? - java

    时间:2020-8-17

    用Java编写了一个随机模拟,该模拟从磁盘上的几个CSV文件加载数据(总计约100MB),并将结果写入另一个输出文件(数据不多,只有布尔值和几个数字)。还有一个参数文件,对于不同的参数,模拟输出的分布可能会发生变化。为了确定正确/最佳的输入参数,我需要针对多个输入参数配置运行多个模拟,并查看每组中输出的分布。根据参数和随机性,每次仿真需要0.1-10分钟。 […]

  • Hadoop发行差异 - java

    时间:2020-8-16

    有人可以概述可用的各种Hadoop发行版之间的各种差异吗? Cloudera -http://www.cloudera.com/hadoop 雅虎-http://developer.yahoo.net/blogs/hadoop/ 以Apache Hadoop发行版为基准。 在标准Apache Hadoop发行版上使用这些发行版之一,是否有充分理由? 参考方案 […]

  • 在对hadoop进行任何操作之前,我应该调用ugi.checkTGTAndReloginFromKeytab()吗? - java

    时间:2020-8-13

    在服务器应用程序中,我正在从Java应用程序连接到Kerberos安全的Hadoop群集。我正在使用HDFS文件系统,Oozie,Hive等各种组件。在应用程序启动时,我确实打电话给 UserGroupInformation.loginUserFromKeytabAndReturnUGI( ... ); 这将返回我UserGroupInformation实例 […]

  • Hadoop Mapreduce:是否可以将mapper输出写入单独的输出文件(而非中间文件),而无需将reducer的数量设置为零? - java

    时间:2020-8-5

    我需要匿名化包含数千个文件的GB数据。这样做通常需要永远。因此,我计划在服务器上使用一个已经安装的伪分布式Hadoop集群。 每个文件中的每个记录都需要在几列上进行匿名化,这些匿名化的列将存储在哈希图中。 理想情况下,我希望一个映射器实例处理每个文件并生成一个相应的匿名输出文件。此外,映射器应吐出匿名列作为键值对,reducer将这些键值对聚合到单个文件中。 […]

  • 在这种情况下,如何为Hadoop编写分区程序? - java

    时间:2020-7-29

    我有一个像“签名[空白]日期[空白]时间”这样的钥匙,但我希望所有在同一容器中具有相同签名的钥匙。对于这种情况如何写一个partioner? 最好的祝福, 参考方案 默认情况下,使用HashParititioner,整个哈希码用于计算reducer数量。为了完成您的任务,您可以仅散列部分密钥(在您的情况下为签名),并且具有相同签名的所有密钥都将分配给同一re […]