标签:web-scraping
-
在driver.execute_script()中使用伪选择器时,无法将某些元素滚动到视图中 - python
我已经使用硒创建了一个脚本来获取动态生成的文本。我必须使用硒,因此在这种情况下,我不想使用xhr。我正在尝试在硒中使用pseudo selector在其中定义explicit wait。由于硒不像pseudo selector中那样支持:contains(),因此我使用了javascript命令driver.execute_script()来达到目的。 现在 […]
-
使用Scrapy从抓取的数据构造DataFrame - python
我从抓取的数据构造csv类型数据文件时遇到问题。我已经设法从表中抓取数据,但是在编写数据时,我已经有好几天了。我正在使用物品,并尝试将其写入 Pandas 数据框。我正在使用物品清单。 import scrapy from wiki.items import WikiItem import pandas as pd class Spider(scrapy.S […]
-
Scrapy选择器不适用于飞溅响应 - python
我正在尝试使用Scrapy抓取一些动态内容。我已经成功设置了Splash并与其一起工作。但是,以下蜘蛛网的选择器将产生空结果: # -*- coding: utf-8 -*- import scrapy from scrapy.selector import Selector from scrapy_splash import SplashRequest c […]
-
如何在没有额外信息的情况下有效地从一堆网页中提取文本 - java
我有大约一百万个网页列表,我想高效地从这些页面中提取文本。目前,我正在使用Python中的BeautifulSoup库从HTML获取文本,并使用request命令获取网页的html。这种方法除了提取文本之外还提取了一些额外的信息,例如正文中是否列出了任何javascript。 您能否建议我任何合适且有效的方式来完成任务。我看着草木,但看起来像是在爬特定的网站 […]
-
抓取网页:从网页获取搜索结果 - javascript
我正在尝试使用python抓取网页。网页网址为:https://kollainkomster.se/postnummer/ 该网页包含一个搜索栏: <input type="text" name="cf-name" pattern="[0-9 ]+" value="" pl […]
-
Telegram机器人可以读取频道的消息吗 - python
电报机器人可以读取/访问我或该机器人都不是管理员的电报频道吗? 我知道直到去年11月还是不可能,但是我听说有人这样做了,但是到目前为止我还不能做到。 非常感谢您的投入和知识。 P.s.任何解决方法都很好。 参考方案 FAQ读取: 所有机器人,无论设置如何,都将收到: 所有服务消息。 来自与用户的私人聊天的所有消息。 来自其所属频道的所有消息。 禁用了隐私模式 […]
-
无法requests.get()网站,“远程终端关闭的连接,无响应” - python
当我尝试向该网站发送请求时: import requests requests.get('https://www.ldoceonline.com/') 返回异常 requests.exceptions.ConnectionError: ('Connection aborted.', RemoteDisconnected […]
-
网页抓取-如何识别网页上的主要内容 - python
给定一个新闻文章网页(来自任何主要新闻来源,例如Times或Bloomberg),我想确定该页面上的主要文章内容,并排除其他杂项元素,例如广告,菜单,边栏,用户评论。 有什么通用的方法可以在大多数主要新闻网站上使用? 有什么好的数据挖掘工具或库? (最好是基于python的) 参考方案 不能保证一定能做到这一点,但是您可能会使用的一种策略是尝试查找其中包含最 […]
-
使用python / selenium保存完整的网页(包括CSS,图像) - python
我正在使用Python / Selenium将遗传序列提交到在线数据库,并希望保存返回的完整页面。以下是使我获得所需结果的代码: from selenium import webdriver URL = 'https://blast.ncbi.nlm.nih.gov/Blast.cgi?PROGRAM=blastx&PAGE_TYPE=Bl […]
-
(python)列表索引超出范围-使用硒单击事件 - python
有41个类别复选框,其中12个可见,其余保持隐藏,需要单击显示更多以显示隐藏的复选框。 此代码这样做:: 1-循环>> 2单击,如果我>显示更多,单击3复选框 # -*- coding: utf-8 -*- import time from selenium import webdriver driver = webdriver.Chrom […]