标签:lxml

  • 对大型XML文件使用Python Iterparse - python

    时间:2020-8-25

    我需要用Python编写一个解析器,该解析器可以在没有太多内存(只有2 GB)的计算机上处​​理一些非常大的文件(> 2 GB)。我想在lxml中使用iterparse做到这一点。 我的文件格式为: <item> <title>Item 1</title> <desc>Description 1</ […]

  • 在lxml中更改元素名称空间 - python

    时间:2020-8-12

    使用lxml,我不确定如何正确删除现有元素的名称空间并设置一个新元素。 例如,我正在解析这个最小的xml文件: <myroot xmlns="http://myxml.com/somevalue"> <child1>blabla</child1> <child2>blablabla</ […]

  • python lxml元素的属性问题 - python

    时间:2020-8-8

    我必须构建一个如下所示的XML文件: <?xml version='1.0' encoding='ISO-8859-1'?> <Document protocol="OCI" xmlns="C"> <sessionId>xmlns=874587 […]

  • 如何选择带有右箭头的链接作为带有xpath的文本? - python

    时间:2020-7-28

    我正在尝试选择网站上的下一个按钮,它的链接文本带有向右箭头。当我使用“ scrappy shell”查看源代码时,会向我显示该字符作为其Unicode文字“ \ u2192”。由此,我开发了以下Scrapy CrawlSpider: # -*- coding: utf-8 -*- import scrapy from scrapy.contrib.linke […]

  • 创建XML内联xmlns - python

    时间:2020-7-13

    我正在使用lxml创建XML输出的Python中工作,最终项目将需要将xml导入Strava,因此在导入之前需要正确的模式。下面是我创建的模式,我的问题是,如果我包含如下所示的XMLNS文本,我似乎无法正确设置格式。 <Extensions> <TPX xmlns="http://www.garmin.com/xmlschemas […]

  • 从html检索尾文本 - python

    时间:2020-7-11

    使用lxml的Python 2.7 我有一些恼人的html看起来像这样: <td> <b>"John" </b> <br> "123 Main st. " <br> "New York " <b> "Sally […]

  • 在python lxml prettyprint中更改标签间距 - python

    时间:2020-7-7

    我有一个小的脚本,可以创建xml文档,并使用prettyprint=true可以创建格式正确的xml文档。但是,制表符的缩进是2个空格,我想知道是否有办法将其更改为4个空格(我认为4个空格看起来更好)。有没有简单的方法来实现这一目标? 程式码片段: doc = lxml.etree.SubElement(root, 'dependencies� […]

  • Python 2.7中的lxml输出 - python

    时间:2020-6-20

    这可能是一个完全愚蠢的问题,但谷歌无济于事。首先,我需要导入库: from lxml import html from lxml import etree import requests 很简单。现在运行并解析一些代码。在这种情况下,该链接是本地餐厅的每周午餐菜单。在这里,我们准备从中提取位的代码。 page = requests.get("http […]

  • 停止pyquery在源HTML中没有空格的地方插入空格? - python

    时间:2020-6-19

    我正在尝试使用pyquery 1.2从元素中获取一些文本。显示的文本中没有空格,但是pyquery正在插入空格。 这是我的代码: from pyquery import PyQuery as pq html = '<h1><span class="highlight" style="background-co […]