我们正在评估采用Storm进行部署,但我有点担心。我们目前正在运行Hadoop MapReduce,并且希望将某些处理从MapReduce过渡到Storm进程。请注意,这只是一部分,但不是全部。我们仍然会有一些MapReduce功能。
我发现Mesos可以(潜在地)使我们能够在同一硬件上维护Storm和Hadoop部署,但是还存在其他一些问题:
我们是否正确地解决了这个问题?本质上,Storm拓扑将“提供” MapReduce批处理作业。我们的某些处理可以以流方式处理,并且作为Storm拓扑会更好,而其中一些则需要批处理。
任何一般性反馈,即使没有解决我的特定问题,也将受到欢迎。在这一点上,这更多是一个探索阶段,我可能完全以错误的方式来对待。
参考方案
到目前为止,在做类似的实验时有一些想法和经验(在Sprint的Spike中完成):
builder.setBolt(4, new MyBolt(), 12)
.shuffleGrouping(1)
.shuffleGrouping(2)
.fieldsGrouping(3, new Fields("id1", "id2"));
最后一个参数(“12”)是该螺栓的平行度。如果这是拓扑中的瓶颈,并且您需要扩展以满足需求,则可以增加它。并行度为12表示将导致12个线程在风暴集群中并行执行螺栓。
builder.setBolt(new MyBolt(),3)
.setNumTasks(64)
.shuffleGrouping(“someSpout”);
此处,MyBolt()
的执行程序(线程)数为3,您可以动态更改线程数而不会影响拓扑。 storm rebalance
用于此目的:
$ storm rebalance someTopology -n 6 -e mySpout=4 -e myBolt=6
这会将“someTopology”拓扑的工作程序数更改为6,将mySpout的执行程序/线程数更改为4,并将myBolt的执行程序/线程数更改为6。
试图绕过Java并发问题,并且很难理解线程池,线程以及它们正在执行的可运行“任务”之间的关系。如果我创建一个有10个线程的线程池,那么我是否必须将相同的任务传递给池中的每个线程,或者池化的线程实际上只是与任务无关的“工人无人机”可用于执行任何任务?无论哪种方式,Executor / ExecutorService如何将正确的任务分配给正确的线程? 参考方案 …
JAVA:字节码和二进制有什么区别? - javajava字节代码(已编译的语言,也称为目标代码)与机器代码(当前计算机的本机代码)之间有什么区别?我读过一些书,他们将字节码称为二进制指令,但我不知道为什么。 参考方案 字节码是独立于平台的,在Windows中运行的编译器编译的字节码仍将在linux / unix / mac中运行。机器代码是特定于平台的,如果在Windows x86中编译,则它将仅在Win…
java:继承 - java有哪些替代继承的方法? java大神给出的解决方案 有效的Java:偏重于继承而不是继承。 (这实际上也来自“四人帮”)。他提出的理由是,如果扩展类未明确设计为继承,则继承会引起很多不正常的副作用。例如,对super.someMethod()的任何调用都可以引导您通过未知代码的意外路径。取而代之的是,持有对本来应该扩展的类的引用,然后委托给它。这是与Eric…
Java:BigInteger,如何通过OutputStream编写它 - java我想将BigInteger写入文件。做这个的最好方式是什么。当然,我想从输入流中读取(使用程序,而不是人工)。我必须使用ObjectOutputStream还是有更好的方法?目的是使用尽可能少的字节。谢谢马丁 参考方案 Java序列化(ObjectOutputStream / ObjectInputStream)是将对象序列化为八位字节序列的一种通用方法。但…
Java DefaultSslContextFactory密钥库动态更新 - java我有一个使用org.restlet.engine.ssl.DefaultSslContextFactory的现有应用程序和一个在服务器启动时加载的密钥库文件。我有另一个应用程序,该应用程序创建必须添加的证书服务器运行时动态地更新到密钥库文件。为此,我在代码中创建了证书和私钥,然后将其写入到目录。该目录由bash脚本监视,该脚本检查是否有新文件,如果出现,它将…