Elastic Storm拓扑/ Storm-Hadoop共存 - java

我们正在评估采用Storm进行部署,但我有点担心。我们目前正在运行Hadoop MapReduce,并且希望将某些处理从MapReduce过渡到Storm进程。请注意,这只是一部分,但不是全部。我们仍然会有一些MapReduce功能。

我发现Mesos可以(潜在地)使我们能够在同一硬件上维护Storm和Hadoop部署,但是还存在其他一些问题:

  • 我设想理想的情况是能够在Storm和Hadoop之间任意“借用”插槽。例如两者都将根据需要使用相同的资源。不幸的是,这是一个固定的部署,并且不像EC2那样“基于云”。
  • 我想避免在Storm环境中出现瓶颈。理想的情况是根据需要“启动”(或相反)更多的Bolt实例。这可能/现实吗?
  • “重新启动”拓扑似乎是一项相当昂贵的操作,但我不确定是否确实是一种选择。理想情况下,我希望它尽可能地无缝。
  • 我们是否正确地解决了这个问题?本质上,Storm拓扑将“提供” MapReduce批处理作业。我们的某些处理可以以流方式处理,并且作为Storm拓扑会更好,而其中一些则需要批处理。

    任何一般性反馈,即使没有解决我的特定问题,也将受到欢迎。在这一点上,这更多是一个探索阶段,我可能完全以错误的方式来对待。

    参考方案

    到目前为止,在做类似的实验时有一些想法和经验(在Sprint的Spike中完成):

  • 根据我的经验(我可能是错的),您并没有真正随着需求的增加而增加螺栓,而是调整了拓扑中每个节点的并行性配置。不能通过添加更多的螺栓来扩展拓扑,而是通过增加瓶颈的并行性来扩展拓扑。以单词计数问题为例:
  • builder.setBolt(4, new MyBolt(), 12)
        .shuffleGrouping(1)
        .shuffleGrouping(2)
        .fieldsGrouping(3, new Fields("id1", "id2"));
    

    最后一个参数(“12”)是该螺栓的平行度。如果这是拓扑中的瓶颈,并且您需要扩展以满足需求,则可以增加它。并行度为12表示将导致12个线程在风暴集群中并行执行螺栓。

  • 在0.8.0中,您可以使用“执行器”,它也可以“即时”进行调整,以帮助放大/缩小螺栓/等。示例:
  • builder.setBolt(new MyBolt(),3)
    .setNumTasks(64)
    .shuffleGrouping(“someSpout”);

    此处,MyBolt()的执行程序(线程)数为3,您可以动态更改线程数而不会影响拓扑。 storm rebalance用于此目的:

    $ storm rebalance someTopology -n 6 -e mySpout=4 -e myBolt=6
    

    这会将“someTopology”拓扑的工作程序数更改为6,将mySpout的执行程序/线程数更改为4,并将myBolt的执行程序/线程数更改为6。

  • 听起来您的风暴拓扑将在流数据上进行处理。需要批处理的数据将被持久化到您正在使用的任何数据存储(HDFS)之后,便会开始。在这种情况下,您需要包装一个螺栓以对需要的任何数据进行持久化。
  • 另一方面,如果您想在已有的任何数据存储(并保持有状态)的基础上进行某种增量处理,请使用Trident(https://github.com/nathanmarz/storm/wiki/Trident-tutorial)。三叉戟实际上可以解决您遇到的许多问题。
  • Java:线程池如何将线程映射到可运行对象 - java

    试图绕过Java并发问题,并且很难理解线程池,线程以及它们正在执行的可运行“任务”之间的关系。如果我创建一个有10个线程的线程池,那么我是否必须将相同的任务传递给池中的每个线程,或者池化的线程实际上只是与任务无关的“工人无人机”可用于执行任何任务?无论哪种方式,Executor / ExecutorService如何将正确的任务分配给正确的线程? 参考方案 …

    JAVA:字节码和二进制有什么区别? - java

    java字节代码(已编译的语言,也称为目标代码)与机器代码(当前计算机的本机代码)之间有什么区别?我读过一些书,他们将字节码称为二进制指令,但我不知道为什么。 参考方案 字节码是独立于平台的,在Windows中运行的编译器编译的字节码仍将在linux / unix / mac中运行。机器代码是特定于平台的,如果在Windows x86中编译,则它将仅在Win…

    java:继承 - java

    有哪些替代继承的方法? java大神给出的解决方案 有效的Java:偏重于继承而不是继承。 (这实际上也来自“四人帮”)。他提出的理由是,如果扩展类未明确设计为继承,则继承会引起很多不正常的副作用。例如,对super.someMethod()的任何调用都可以引导您通过未知代码的意外路径。取而代之的是,持有对本来应该扩展的类的引用,然后委托给它。这是与Eric…

    Java:BigInteger,如何通过OutputStream编写它 - java

    我想将BigInteger写入文件。做这个的最好方式是什么。当然,我想从输入流中读取(使用程序,而不是人工)。我必须使用ObjectOutputStream还是有更好的方法?目的是使用尽可能少的字节。谢谢马丁 参考方案 Java序列化(ObjectOutputStream / ObjectInputStream)是将对象序列化为八位字节序列的一种通用方法。但…

    Java DefaultSslContextFactory密钥库动态更新 - java

    我有一个使用org.restlet.engine.ssl.DefaultSslContextFactory的现有应用程序和一个在服务器启动时加载的密钥库文件。我有另一个应用程序,该应用程序创建必须添加的证书服务器运行时动态地更新到密钥库文件。为此,我在代码中创建了证书和私钥,然后将其写入到目录。该目录由bash脚本监视,该脚本检查是否有新文件,如果出现,它将…