标签:web-crawler
-
如何使用PHP从HTML文档中仅提取某些标签? - php
我正在使用搜寻器来检索网络上某些页面的HTML内容。我目前将整个HTML存储在一个PHP变量中: $string = "<PRE>".htmlspecialchars($crawler->results)."</PRE>\n"; 我想做的是选择所有“ p”标签(例如)并将其存储在数组中。这 […]
-
有谁知道我可以使用的基于Python的网络爬虫? - python
Locked. This question and its answers are locked,因为该问题是题外话,但具有历史意义。它目前不接受新的答案或互动。 我很想写自己的书,但是现在我真的没有足够的时间。我看过Wikitia列表的open source crawlers,但是我更喜欢用Python编写的东西。我意识到我可以只使用Wikipedia页面 […]
-
使用python / selenium保存完整的网页(包括CSS,图像) - python
我正在使用Python / Selenium将遗传序列提交到在线数据库,并希望保存返回的完整页面。以下是使我获得所需结果的代码: from selenium import webdriver URL = 'https://blast.ncbi.nlm.nih.gov/Blast.cgi?PROGRAM=blastx&PAGE_TYPE=Bl […]
-
具有多种解析方法的草签合同 - python
为具有多种解析响应的方法的Scrapy Spider编写合同的最佳方法是什么?我看到了这个answer,但对我来说听起来不太清楚。 我当前的示例:我有一个名为parse_product的方法,该方法可以提取页面上的信息,但是我需要为另一页面中的同一产品提取更多的数据,因此在此末尾我yield提出了一个新请求发出新请求并让新的回调提取这些字段并返回该项目的方法 […]
-
为什么python模块报纸3k只为腾讯,新浪和wallettreetcn返回0篇文章? - python
news3k图书馆很棒。我上瘾了。 我想问一下,为什么Source和build()只从大多数中国金融新闻页面返回0篇文章? 我的代码有问题吗? from newspaper import Article, Source url='https://wallstreetcn.com/live/global' result=newspaper. […]
-
使用beautifulSoup,Python在h3和div标签中刮取文本 - python
我没有使用python,BeautifulSoup,Selenium等的经验,但是我很想从网站上抓取数据并将其存储为csv文件。我需要的单个数据样本编码如下(一行数据)。 <div class="box effect"> <div class="row"> <div class=" […]
-
使用scrapy,如何使用具有onclick属性的复选框对页面进行爬网? - javascript
我正在使用Scrapy从网页中抓取一些数据。该页面具有一个包含多个复选框和下拉菜单的表单,需要选中所有这些复选框以生成数据表。所有复选框都具有调用javascript代码的onClick属性,并且它们处于层次结构中,即有5个主要复选框,每个复选框都包含7个作为子类别的复选框,依此类推。复选框具有4个级别的树结构。这是最低级别(叶)复选框之一: <inp […]