Hadoop如何获取未存储在HDFS上的输入数据? - java

我试图将自己的脑筋围绕Hadoop,阅读this excellent tutorial并仔细阅读official Hadoop docs。但是,在所有这些文献中,我都找不到对非常基本的东西的简单解释:

在所有人为的“Hello World!”中(单词计数)MR入门示例,输入数据直接存储在文本文件中。但是,在我看来,在现实世界中很少出现这种情况。我可以想象,实际上,输入数据将存在于大型数据存储中,例如关系数据库,Mongo,Cassandra,或者只能通过REST API等获得。

所以我问:在现实世界中,Hadoop如何获取其输入数据? 我确实看到有像Sqoop和Flume这样的项目,并且想知道这些框架的全部目的是否只是将输入数据简单地ETL输入到HDFS上以运行MR作业。

参考方案

实际上,由于多种原因,实际应用程序中需要HDFS。

  • 非常高的带宽以支持Map减少工作量和可伸缩性。
  • 数据可靠性和容错能力。由于复制和分布式性质。关键数据系统必需。
  • 灵活性-您无需预处理数据即可将其存储在HDFS中。
  • Hadoop被设计为一次写入和多次读取的概念。通常用于提取的Kafka,Flume和Sqoop本身具有很高的容错能力,并为将数据提取到HDFS提供高带宽。有时,每分钟需要从数千个数据源中提取数据(以GB为单位)。为此,需要这些工具以及容错存储系统HDFS。

    Java:线程池如何将线程映射到可运行对象 - java

    试图绕过Java并发问题,并且很难理解线程池,线程以及它们正在执行的可运行“任务”之间的关系。如果我创建一个有10个线程的线程池,那么我是否必须将相同的任务传递给池中的每个线程,或者池化的线程实际上只是与任务无关的“工人无人机”可用于执行任何任务?无论哪种方式,Executor / ExecutorService如何将正确的任务分配给正确的线程? 参考方案 …

    JAVA:字节码和二进制有什么区别? - java

    java字节代码(已编译的语言,也称为目标代码)与机器代码(当前计算机的本机代码)之间有什么区别?我读过一些书,他们将字节码称为二进制指令,但我不知道为什么。 参考方案 字节码是独立于平台的,在Windows中运行的编译器编译的字节码仍将在linux / unix / mac中运行。机器代码是特定于平台的,如果在Windows x86中编译,则它将仅在Win…

    java:继承 - java

    有哪些替代继承的方法? java大神给出的解决方案 有效的Java:偏重于继承而不是继承。 (这实际上也来自“四人帮”)。他提出的理由是,如果扩展类未明确设计为继承,则继承会引起很多不正常的副作用。例如,对super.someMethod()的任何调用都可以引导您通过未知代码的意外路径。取而代之的是,持有对本来应该扩展的类的引用,然后委托给它。这是与Eric…

    Java:BigInteger,如何通过OutputStream编写它 - java

    我想将BigInteger写入文件。做这个的最好方式是什么。当然,我想从输入流中读取(使用程序,而不是人工)。我必须使用ObjectOutputStream还是有更好的方法?目的是使用尽可能少的字节。谢谢马丁 参考方案 Java序列化(ObjectOutputStream / ObjectInputStream)是将对象序列化为八位字节序列的一种通用方法。但…

    Java DefaultSslContextFactory密钥库动态更新 - java

    我有一个使用org.restlet.engine.ssl.DefaultSslContextFactory的现有应用程序和一个在服务器启动时加载的密钥库文件。我有另一个应用程序,该应用程序创建必须添加的证书服务器运行时动态地更新到密钥库文件。为此,我在代码中创建了证书和私钥,然后将其写入到目录。该目录由bash脚本监视,该脚本检查是否有新文件,如果出现,它将…