scrapy - 45码

标签：scrapy

使用Scrapy从抓取的数据构造DataFrame - python

时间：2020-8-31

我从抓取的数据构造csv类型数据文件时遇到问题。我已经设法从表中抓取数据，但是在编写数据时，我已经有好几天了。我正在使用物品，并尝试将其写入 Pandas 数据框。我正在使用物品清单。 import scrapy from wiki.items import WikiItem import pandas as pd class Spider(scrapy.S […]

标签：python, scrapy, web-scraping
Scrapy选择器不适用于飞溅响应 - python

时间：2020-8-31

我正在尝试使用Scrapy抓取一些动态内容。我已经成功设置了Splash并与其一起工作。但是，以下蜘蛛网的选择器将产生空结果: # -*- coding: utf-8 -*- import scrapy from scrapy.selector import Selector from scrapy_splash import SplashRequest c […]

标签：python, scrapy, scrapy-splash, splash-js-render, web-scraping
如何在没有额外信息的情况下有效地从一堆网页中提取文本 - java

时间：2020-8-30

我有大约一百万个网页列表，我想高效地从这些页面中提取文本。目前，我正在使用Python中的BeautifulSoup库从HTML获取文本，并使用request命令获取网页的html。这种方法除了提取文本之外还提取了一些额外的信息，例如正文中是否列出了任何javascript。您能否建议我任何合适且有效的方式来完成任务。我看着草木，但看起来像是在爬特定的网站 […]

标签：beautifulsoup, java, python, scrapy, web-scraping
刮掉\ n \ t \ r - python

时间：2020-8-25

我正在尝试使用刮y的蜘蛛去除\ r \ n \ t字符，然后制作一个json文件。我有一个充满新行的“描述”对象，它不能满足我的要求:将每个描述与标题匹配。我尝试了map(unicode.strip())，但实际上并没有用。刚开始抓狂我不知道是否还有另一种更简单的方法或地图unicode真正如何工作。这是我的代码: def parse(self, re […]

标签：python, scrapy, unicode
(python)列表索引超出范围-使用硒单击事件 - python

时间：2020-8-15

有41个类别复选框，其中12个可见，其余保持隐藏，需要单击显示更多以显示隐藏的复选框。此代码这样做：： 1-循环>> 2单击，如果我>显示更多，单击3复选框 # -*- coding: utf-8 -*- import time from selenium import webdriver driver = webdriver.Chrom […]

标签：css, python, scrapy, selenium, web-scraping
如何在Anaconda中使用Scrapy？ - python

时间：2020-8-15

我对编程很陌生，可能问了一个很愚蠢的问题。请多多包涵。我已经安装了Anaconda，并且已将Scrapy作为软件包安装。在Anaconda Navigator> Environments> roots中，可以将Scrapy作为一个包找到。现在，我开始遵循Scrapy教程（Link），并遇到以下说明：我可以知道，我应该在Anaconda Na […]

标签：anaconda, python, scrapy
将Privoxy代理用于Tor时，Scrapy会出现NoneType错误 - python

时间：2020-8-13

我正在使用Ubuntu 14.04 LTS。我尝试了Polipo，但即使我将自己添加为allowClient，也一直拒绝进行解决方案，但它始终拒绝Firefox的连接。因此，我转而安装了Privoxy，并通过访问Tor网站验证了它与Firefox兼容，并表示祝贺此浏览器配置为使用Tor。这证实了我应该能够抓取Tor网站。但是，当我使用Scrapy时，出现 […]

标签：polipo, proxy, python, scrapy
Scrapy-splash-lua_script中的splash:go(url)是否再次执行GET请求？ - javascript

时间：2020-8-6

我是Scrapy-splash的新手，我正在尝试抓取一个带有AJAX分页的表格的懒惰datatable。因此，我需要加载网站，等待执行JS，获取表格的html，然后在分页中单击“下一步”按钮。我的方法可行，但恐怕我要两次访问该网站。第一次生成SplashRequest时，然后执行lua_script时。是真的吗如果是，如何使其仅执行一次请求？ cla […]

标签：javascript, python, scrapy, scrapy-splash, splash-screen
如何将抓取的物品放入Pyqt5小部件？ - python

时间：2020-7-31

我正在尝试为Scrapy爬网程序创建一个简单的GUI，用户可以在其中按“开始”按钮以运行抓取，并在textBrowser（或其他qt小部件，请告知）中查看抓取的结果。我的蜘蛛： import scrapy, json class CarSpider(scrapy.Spider): name = 'car' start_urls = [& […]

标签：pyqt, pyqt5, python, scrapy
具有多种解析方法的草签合同 - python

时间：2020-7-31

为具有多种解析响应的方法的Scrapy Spider编写合同的最佳方法是什么？我看到了这个answer，但对我来说听起来不太清楚。我当前的示例：我有一个名为parse_product的方法，该方法可以提取页面上的信息，但是我需要为另一页面中的同一产品提取更多的数据，因此在此末尾我yield提出了一个新请求发出新请求并让新的回调提取这些字段并返回该项目的方法 […]

标签：contracts, python, scrapy, unit-testing, web-crawler