如何在没有额外信息的情况下有效地从一堆网页中提取文本 - java

我有大约一百万个网页列表,我想高效地从这些页面中提取文本。目前,我正在使用Python中的BeautifulSoup库从HTML获取文本,并使用request命令获取网页的html。这种方法除了提取文本之外还提取了一些额外的信息,例如正文中是否列出了任何javascript。

您能否建议我任何合适且有效的方式来完成任务。我看着草木,但看起来像是在爬特定的网站。我们可以通过它的特定网页列表来获取信息吗?

先感谢您。

参考方案

是的,您可以使用Scrapy以通用方式抓取一组URL。

您只需要在蜘蛛的start_urls列表属性上设置它们,或重新实现start_requests蜘蛛方法以从任何数据源产生请求,然后实现parse回调以执行所需的通用内容提取。

您可以使用html-text从其中提取文本,并使用常规的Scrapy选择器提取其他数据(如您提到的数据)。

Java:正则表达式模式匹配器是否有大小限制? - java

我的模式类似于OR:“word1 | word2 | word3”我大约有800个字。可能有问题吗? 参考方案 您仅受记忆和理智的限制。 :)

Java:找到特定字符并获取子字符串 - java

我有一个字符串4.9.14_05_29_16_21,我只需要获取4.9。数字各不相同,所以我不能简单地获得此char数组的前三个元素。我必须找到最正确的.并将其子字符串化直到那里。我来自Python,因此我将展示Python的实现方法。def foobar(some_string): location = some_string.rfind('.&…

Java:线程池如何将线程映射到可运行对象 - java

试图绕过Java并发问题,并且很难理解线程池,线程以及它们正在执行的可运行“任务”之间的关系。如果我创建一个有10个线程的线程池,那么我是否必须将相同的任务传递给池中的每个线程,或者池化的线程实际上只是与任务无关的“工人无人机”可用于执行任何任务?无论哪种方式,Executor / ExecutorService如何将正确的任务分配给正确的线程? 参考方案 …

Java:我可以在Hashmaps中使用数组吗? - java

我可以在Hashmaps中使用数组吗?如果是这样,则声明这种哈希图的确切语法是什么?谢谢 参考方案 数组也是对象。甚至像int[]这样的原始数组。Map<String,String[]> map = new HashMap<String,String[]>();

JAVA:字节码和二进制有什么区别? - java

java字节代码(已编译的语言,也称为目标代码)与机器代码(当前计算机的本机代码)之间有什么区别?我读过一些书,他们将字节码称为二进制指令,但我不知道为什么。 参考方案 字节码是独立于平台的,在Windows中运行的编译器编译的字节码仍将在linux / unix / mac中运行。机器代码是特定于平台的,如果在Windows x86中编译,则它将仅在Win…