mapreduce - 45码

标签：mapreduce

使用ArrayWritable进行序列化似乎很有趣 - java

时间：2020-8-24

我正在使用ArrayWritable，有时需要检查Hadoop如何序列化ArrayWritable，这是通过设置job.setNumReduceTasks(0)获得的: 0 IntArrayWritable@10f11b8 3 IntArrayWritable@544ec1 6 IntArrayWritable@fe748f 8 In […]

标签：hadoop, java, mapreduce
Elastic Storm拓扑/ Storm-Hadoop共存 - java

时间：2020-8-19

我们正在评估采用Storm进行部署，但我有点担心。我们目前正在运行Hadoop MapReduce，并且希望将某些处理从MapReduce过渡到Storm进程。请注意，这只是一部分，但不是全部。我们仍然会有一些MapReduce功能。我发现Mesos可以(潜在地)使我们能够在同一硬件上维护Storm和Hadoop部署，但是还存在其他一些问题: 我设想理想的 […]

标签：apache-storm, distributed-computing, hadoop, java, mapreduce
Hadoop发行差异 - java

时间：2020-8-16

有人可以概述可用的各种Hadoop发行版之间的各种差异吗？ Cloudera -http://www.cloudera.com/hadoop 雅虎-http://developer.yahoo.net/blogs/hadoop/ 以Apache Hadoop发行版为基准。在标准Apache Hadoop发行版上使用这些发行版之一，是否有充分理由？参考方案 […]

标签：hadoop, java, mapreduce
Hadoop Mapreduce:是否可以将mapper输出写入单独的输出文件(而非中间文件)，而无需将reducer的数量设置为零？ - java

时间：2020-8-5

我需要匿名化包含数千个文件的GB数据。这样做通常需要永远。因此，我计划在服务器上使用一个已经安装的伪分布式Hadoop集群。每个文件中的每个记录都需要在几列上进行匿名化，这些匿名化的列将存储在哈希图中。理想情况下，我希望一个映射器实例处理每个文件并生成一个相应的匿名输出文件。此外，映射器应吐出匿名列作为键值对，reducer将这些键值对聚合到单个文件中。 […]

标签：apache, hadoop, java, mapreduce, python
在这种情况下，如何为Hadoop编写分区程序？ - java

时间：2020-7-29

我有一个像“签名[空白]日期[空白]时间”这样的钥匙，但我希望所有在同一容器中具有相同签名的钥匙。对于这种情况如何写一个partioner？最好的祝福，参考方案默认情况下，使用HashParititioner，整个哈希码用于计算reducer数量。为了完成您的任务，您可以仅散列部分密钥（在您的情况下为签名），并且具有相同签名的所有密钥都将分配给同一re […]

标签：hadoop, java, mapreduce, python

标签：mapreduce

使用ArrayWritable进行序列化似乎很有趣 - java

Elastic Storm拓扑/ Storm-Hadoop共存 - java

Hadoop发行差异 - java

Hadoop Mapreduce:是否可以将mapper输出写入单独的输出文件(而非中间文件)，而无需将reducer的数量设置为零？ - java

在这种情况下，如何为Hadoop编写分区程序？ - java