Python从XML树中删除重复的元素 - python

我有一个XML结构，其中有些元素不是唯一的。因此，我设法对子树进行排序，并且可以对多次拥有的元素进行过滤。但是删除功能似乎不适用。

我的XML结构看起来像这样简化：

<root>
  <page>
    <text>blabla blub unique</text>
    <text>blabla blub not unique</text>
    <text>blabla blub not unique</text><!-- line should be removed -->
    <text>blabla blub not unique</text><!-- line should be removed -->
    <text>blabla blub not unique</text><!-- line should be removed -->
    <text>blabla blub again unique</text>
  </page>
  <page>
    <text>2nd blabla blub unique</text>
    <text>2nd blabla blub not unique</text>
    <text>2nd blabla blub not unique</text><!-- line should be removed -->
    <text>2nd blabla blub again unique</text>
  </page>
</root>

我想删除每个页面上的双字符串，所以我在两个for循环中遍历页面和页面中的元素：（提取重要的行，希望不要忘记任何东西）

import xml.etree.ElementTree as ET
self.tree = ET.parse(path)
self.root = self.tree.getroot()
self.prev = None
# [...]
for page in self.root:                     # iterate over pages
    for elem in page:
        if elements_equal(elem, self.prev):
            print("found duplicate: %s" % elem.text)   # equal function works well
            page.remove(elem) # <---- removes just one line
            continue
        self.prev = elem
# [...]
self.tree.write("out.xml") # 2 duplicate lines still there....

更新：该代码似乎可以正常工作，但是它只删除了一个重复项，而不是全部

python大神给出的解决方案

我不知道您如何定义elements_equal，但是（对Testing Equivalence of xml.etree.ElementTree进行了无耻的改编）对我来说有效：

编辑：在遍历page的同时存储要删除的每个元素的列表，然后删除它们，而不是在一个循环内进行删除。

编辑：在元素标记的比较中注意到代码中的一个小错字并进行了更正。

import xml.etree.ElementTree as ET

path = 'in.xml'

tree = ET.parse(path)
root = tree.getroot()
prev = None

def elements_equal(e1, e2):
    if type(e1) != type(e2):
        return False
    if e1.tag != e2.tag: return False
    if e1.text != e2.text: return False
    if e1.tail != e2.tail: return False
    if e1.attrib != e2.attrib: return False
    if len(e1) != len(e2): return False
    return all([elements_equal(c1, c2) for c1, c2 in zip(e1, e2)])

for page in root:                     # iterate over pages
    elems_to_remove = []
    for elem in page:
        if elements_equal(elem, prev):
            print("found duplicate: %s" % elem.text)   # equal function works well
            elems_to_remove.append(elem)
            continue
        prev = elem
    for elem_to_remove in elems_to_remove:
        page.remove(elem_to_remove)
# [...]
tree.write("out.xml")

给出：

$ python undupe.py
found duplicate: blabla blub not unique
found duplicate: 2nd blabla blub not unique
$ cat out.xml
<root>
  <page>
    <text>blabla blub unique</text>
    <text>blabla blub not unique</text>
    <text>blabla blub again unique</text>
  </page>
  <page>
    <text>2nd blabla blub unique</text>
    <text>2nd blabla blub not unique</text>
    <text>2nd blabla blub again unique</text>
  </page>

Python numpy数据指针地址无需更改即可更改 - python

编辑经过一些摆弄之后，到目前为止，我已经隔离了以下状态：一维数组在直接输入变量时提供两个不同的地址，而在使用print()时仅提供一个地址2D数组（或矩阵）在直接输入变量时提供三个不同的地址，在使用print()时提供两个地址3D数组在直接输入变量时提供两个不同的地址，而在使用print()时仅给出一个（显然与一维数组相同）像这样：>>> …

Python pytz时区函数返回的时区为9分钟 - python

由于某些原因，我无法从以下代码中找出原因：>>> from pytz import timezone >>> timezone('America/Chicago') 我得到：<DstTzInfo 'America/Chicago' LMT-1 day, 18:09:00 STD…

在Mac上的终端中停止python - python

在Mac上的终端中使用python，键入ctrl-z 将停止python，但不退出它，给出如下输出：>>> [34]+ Stopped python 如您所见，我已经停止了34个python调用。虽然我可以用>>> exit() 退出python，问题是：是否有一个快捷键可以真正在终端中退出（而不只是停止）python？而…

Python sqlite3数据库已锁定 - python

我在Windows上使用Python 3和sqlite3。我正在开发一个使用数据库存储联系人的小型应用程序。我注意到，如果应用程序被强制关闭（通过错误或通过任务管理器结束），则会收到sqlite3错误（sqlite3.OperationalError：数据库已锁定）。我想这是因为在应用程序关闭之前，我没有正确关闭数据库连接。我已经试过了： connectio…

用大写字母拆分字符串，但忽略AAA Python Regex - python

我的正则表达式：vendor = "MyNameIsJoe. I'mWorkerInAAAinc." ven = re.split(r'(?<=[a-z])[A-Z]|[A-Z](?=[a-z])', vendor) 以大写字母分割字符串，例如：'我的名字是乔。 I'mWorkerInAAAinc”变成…

Python从XML树中删除重复的元素 - python

腾讯的同事天天给我安利让我看《三体》，说马化腾和雷军也在…