Clojure / Java的分布式计算框架 - java

我正在开发一个应用程序,需要在一组可能非常大的不同计算机集群上分配一组任务。

理想情况下,我希望在Clojure中使用一种非常简单,惯用的方式来执行此操作,例如就像是:

; create a clustered set of machines
(def my-cluster (new-cluster list-of-ip-addresses))

; define a task to be executed
(deftask my-task (my-function arg1 arg2))

; run a task 10000 times on the cluster
(def my-job (run-task my-cluster my-task {:repeat 10000})

; do something with the results:
(some-function (get-results my-job))

如果它还可以在群集上执行Map-Reduce之类的活动,则可获赠.....

实现这种目标的最佳方法是什么?也许我可以包装一个合适的Java库?

更新:

感谢Apache Hadoop的所有建议-看起来似乎很合适,但是由于我不需要像Hadoop使用的分布式数据存储系统(即,我不需要处理数十亿条记录),因此看起来有点过头了)...如果存在的话,更轻量且仅专注于计算任务的内容才是可取的。

参考方案

尽管有比直接使用Hadoop更好的方法,但Hadoop是当今Clojure世界中几乎所有大型大数据活动的基础。

Cascalog是一个非常流行的前端:

Cascalog是使用Clojure简洁明了地在Hadoop上处理数据的工具
表达方式。 Cascalog在Clojure中结合了两种前沿技术
和Hadoop,并在Datalog中恢复旧版本。 Cascalog是高性能的
灵活而强大。

还请查看基于RabbitMQ构建的Amit Rathor的swarmiji分布式工作者框架。它不太关注数据处理,而更多地关注于将一定数量的任务分配给可用的计算能力池。 (附:在他的书Clojure in Action中)

Java与Clojure的良好并发示例 - java

据说Clojure是一种使多线程编程更容易的语言。从Clojure.org网站: Clojure简化了多线程 以几种方式进行编程。现在,我正在寻找用Java和Clojure解决的非平凡问题,以便我可以比较/对比它们的简单性。任何人? 参考方案 我建议也看看克里斯托弗·格兰德(Christophe Grand)的thread safe blocking que…

Java:线程池如何将线程映射到可运行对象 - java

试图绕过Java并发问题,并且很难理解线程池,线程以及它们正在执行的可运行“任务”之间的关系。如果我创建一个有10个线程的线程池,那么我是否必须将相同的任务传递给池中的每个线程,或者池化的线程实际上只是与任务无关的“工人无人机”可用于执行任何任务?无论哪种方式,Executor / ExecutorService如何将正确的任务分配给正确的线程? 参考方案 …

JAVA:字节码和二进制有什么区别? - java

java字节代码(已编译的语言,也称为目标代码)与机器代码(当前计算机的本机代码)之间有什么区别?我读过一些书,他们将字节码称为二进制指令,但我不知道为什么。 参考方案 字节码是独立于平台的,在Windows中运行的编译器编译的字节码仍将在linux / unix / mac中运行。机器代码是特定于平台的,如果在Windows x86中编译,则它将仅在Win…

java:继承 - java

有哪些替代继承的方法? java大神给出的解决方案 有效的Java:偏重于继承而不是继承。 (这实际上也来自“四人帮”)。他提出的理由是,如果扩展类未明确设计为继承,则继承会引起很多不正常的副作用。例如,对super.someMethod()的任何调用都可以引导您通过未知代码的意外路径。取而代之的是,持有对本来应该扩展的类的引用,然后委托给它。这是与Eric…

Java:BigInteger,如何通过OutputStream编写它 - java

我想将BigInteger写入文件。做这个的最好方式是什么。当然,我想从输入流中读取(使用程序,而不是人工)。我必须使用ObjectOutputStream还是有更好的方法?目的是使用尽可能少的字节。谢谢马丁 参考方案 Java序列化(ObjectOutputStream / ObjectInputStream)是将对象序列化为八位字节序列的一种通用方法。但…