Hadoop Mapreduce:是否可以将mapper输出写入单独的输出文件(而非中间文件),而无需将reducer的数量设置为零? - java

我需要匿名化包含数千个文件的GB数据。这样做通常需要永远。因此,我计划在服务器上使用一个已经安装的伪分布式Hadoop集群。

每个文件中的每个记录都需要在几列上进行匿名化,这些匿名化的列将存储在哈希图中。

理想情况下,我希望一个映射器实例处理每个文件并生成一个相应的匿名输出文件。此外,映射器应吐出匿名列作为键值对,reducer将这些键值对聚合到单个文件中。

在hadoop框架中可以实现上述过程吗?如果没有,还有什么更好的方法吗?任何帮助或建议,表示赞赏。谢谢。

参考方案

检出MultipleOutputs。它允许您为Mapper或Reducer的输出定义多个文件名。

至于匿名化,只需确保您要的文件名已匿名化,并且映射器输出匿名化的密钥即可。 context.write(anonymized(key), value);

在这种情况下,如何为Hadoop编写分区程序? - java

我有一个像“签名[空白]日期[空白]时间”这样的钥匙,但我希望所有在同一容器中具有相同签名的钥匙。对于这种情况如何写一个partioner?最好的祝福, 参考方案 默认情况下,使用HashParititioner,整个哈希码用于计算reducer数量。为了完成您的任务,您可以仅散列部分密钥(在您的情况下为签名),并且具有相同签名的所有密钥都将分配给同一red…

Java:线程池如何将线程映射到可运行对象 - java

试图绕过Java并发问题,并且很难理解线程池,线程以及它们正在执行的可运行“任务”之间的关系。如果我创建一个有10个线程的线程池,那么我是否必须将相同的任务传递给池中的每个线程,或者池化的线程实际上只是与任务无关的“工人无人机”可用于执行任何任务?无论哪种方式,Executor / ExecutorService如何将正确的任务分配给正确的线程? 参考方案 …

JAVA:字节码和二进制有什么区别? - java

java字节代码(已编译的语言,也称为目标代码)与机器代码(当前计算机的本机代码)之间有什么区别?我读过一些书,他们将字节码称为二进制指令,但我不知道为什么。 参考方案 字节码是独立于平台的,在Windows中运行的编译器编译的字节码仍将在linux / unix / mac中运行。机器代码是特定于平台的,如果在Windows x86中编译,则它将仅在Win…

java:继承 - java

有哪些替代继承的方法? java大神给出的解决方案 有效的Java:偏重于继承而不是继承。 (这实际上也来自“四人帮”)。他提出的理由是,如果扩展类未明确设计为继承,则继承会引起很多不正常的副作用。例如,对super.someMethod()的任何调用都可以引导您通过未知代码的意外路径。取而代之的是,持有对本来应该扩展的类的引用,然后委托给它。这是与Eric…

Java:BigInteger,如何通过OutputStream编写它 - java

我想将BigInteger写入文件。做这个的最好方式是什么。当然,我想从输入流中读取(使用程序,而不是人工)。我必须使用ObjectOutputStream还是有更好的方法?目的是使用尽可能少的字节。谢谢马丁 参考方案 Java序列化(ObjectOutputStream / ObjectInputStream)是将对象序列化为八位字节序列的一种通用方法。但…