html-parsing

标签：html-parsing

使用.net从html页面解析(提取)内容 - c#

时间：2020-8-25

我需要从html页面解析/提取信息。基本上，我正在做的事情是使用System.Net.WebClient并使用HTML Agility Pack将页面作为字符串加载，以在html标签（表单，标签，归因等）中获取内容。但是，某些内容位于javascript脚本标记内，如下所示： <script type="text/javascript� […]

标签：.net, c, html-parsing, javascript
使用jsoup相对转换为绝对链接 - java

时间：2020-8-24

我正在使用jsoup清理html页面，问题是当我在本地保存html时，图像不显示，因为它们都是相对链接。这是一些示例代码: import org.jsoup.Jsoup; import org.jsoup.nodes.Document; public class so2 { public static void main(String[] args) { […]

标签：html, html-parsing, java, jsoup
PHP- HTML解析::如何通过简单的html dom解析器获取网页的字符集值？ - php

时间：2020-8-21

PHP ：：如何通过简单的html dom parser（utf-8，windows-255等）获取网页的字符集值？备注：必须使用html dom解析器http://simplehtmldom.sourceforge.net完成 Example1网页字符集输入： <meta content="text/html; charset=utf-8 […]

标签：html-parsing, parsing, php, php-parser, simple-html-dom
从网址或HTML获取所有图像名称，然后保存在文件夹中 - php

时间：2020-8-21

如果我有一个字符串 <div> balah balah <img src='image/www.png' /> balah balah</div> <div> balah balah <img src='image/ttt.png' /> balah bala […]

标签：html-parsing, php
网页抓取-如何识别网页上的主要内容 - python

时间：2020-8-19

给定一个新闻文章网页(来自任何主要新闻来源，例如Times或Bloomberg)，我想确定该页面上的主要文章内容，并排除其他杂项元素，例如广告，菜单，边栏，用户评论。有什么通用的方法可以在大多数主要新闻网站上使用？有什么好的数据挖掘工具或库？ (最好是基于python的) 参考方案不能保证一定能做到这一点，但是您可能会使用的一种策略是尝试查找其中包含最 […]

标签：html-parsing, python, web-scraping, webpage
您如何在PHP中解析和处理HTML / XML？ - php

时间：2020-8-12

如何解析HTML / XML并从中提取信息？参考方案本机XML扩展我更喜欢使用native XML extensions之一，因为它们与PHP捆绑在一起，通常比所有第三方库都快，并为我提供了所需的所有标记控制权。 DOM DOM扩展使您可以通过带有PHP 5的DOM API通过XML文档进行操作。它是W3C文档对象模型核心级别3的实现，该模型是与平台和 […]

标签：html-parsing, parsing, php, xml, xml-parsing
从页面获取所有链接Beautiful Soup - python

时间：2020-8-8

我正在使用beautifulsoup从页面获取所有链接。我的代码是： import requests from bs4 import BeautifulSoup url = 'http://www.acontecaeventos.com.br/marketing-promocional-sao-paulo' r = requests.ge […]

标签：beautifulsoup, html-parsing, python, web-scraping
dl dd的xpath查询不起作用 - php

时间：2020-8-2

到目前为止，这是我的代码： $htmlString = file_get_contents("http://developer.adition/rAD41126"); $domDocument = new DOMDocument(); $domDocument->loadHTML($htmlString); $xpath = new […]

标签：html, html-parsing, php, xpath
DOMDocument从HTML源代码中删除脚本标签 - php

时间：2020-7-28

我使用@Alex's approach here使用内置的DOMDocument从HTML文档中删除脚本标签。问题是，如果我有一个包含Javascript内容的脚本标签，然后又有一个链接到外部Javascript源文件的脚本标签，则不是所有的脚本标签都已从HTML中删除。 $result = ' <!doctype html> […]

标签：domdocument, html-parsing, php, script-tag, xss
如何从Microsoft更新目录网页获取更新二进制URL？ - javascript

时间：2020-7-23

我正在尝试从Microsoft更新目录网页中获取更新二进制文件的下载URL。下载按钮将我带到新窗口，在该窗口中我有目标二进制URL。如何通过解析目录网页来获取二进制URL。我尝试了以下方法 import urllib.request def main(): url = 'https://catalog.update.microsoft.com/ […]

标签：beautifulsoup, html-parsing, javascript, python, web-scraping