我有一个XML结构,其中有些元素不是唯一的。因此,我设法对子树进行排序,并且可以对多次拥有的元素进行过滤。但是删除功能似乎不适用。
我的XML结构看起来像这样简化:
<root>
<page>
<text>blabla blub unique</text>
<text>blabla blub not unique</text>
<text>blabla blub not unique</text><!-- line should be removed -->
<text>blabla blub not unique</text><!-- line should be removed -->
<text>blabla blub not unique</text><!-- line should be removed -->
<text>blabla blub again unique</text>
</page>
<page>
<text>2nd blabla blub unique</text>
<text>2nd blabla blub not unique</text>
<text>2nd blabla blub not unique</text><!-- line should be removed -->
<text>2nd blabla blub again unique</text>
</page>
</root>
我想删除每个页面上的双字符串,所以我在两个for循环中遍历页面和页面中的元素:(提取重要的行,希望不要忘记任何东西)
import xml.etree.ElementTree as ET
self.tree = ET.parse(path)
self.root = self.tree.getroot()
self.prev = None
# [...]
for page in self.root: # iterate over pages
for elem in page:
if elements_equal(elem, self.prev):
print("found duplicate: %s" % elem.text) # equal function works well
page.remove(elem) # <---- removes just one line
continue
self.prev = elem
# [...]
self.tree.write("out.xml") # 2 duplicate lines still there....
更新:该代码似乎可以正常工作,但是它只删除了一个重复项,而不是全部
python大神给出的解决方案
我不知道您如何定义elements_equal
,但是(对Testing Equivalence of xml.etree.ElementTree进行了无耻的改编)对我来说有效:
编辑:在遍历page
的同时存储要删除的每个元素的列表,然后删除它们,而不是在一个循环内进行删除。
编辑:在元素标记的比较中注意到代码中的一个小错字并进行了更正。
import xml.etree.ElementTree as ET
path = 'in.xml'
tree = ET.parse(path)
root = tree.getroot()
prev = None
def elements_equal(e1, e2):
if type(e1) != type(e2):
return False
if e1.tag != e2.tag: return False
if e1.text != e2.text: return False
if e1.tail != e2.tail: return False
if e1.attrib != e2.attrib: return False
if len(e1) != len(e2): return False
return all([elements_equal(c1, c2) for c1, c2 in zip(e1, e2)])
for page in root: # iterate over pages
elems_to_remove = []
for elem in page:
if elements_equal(elem, prev):
print("found duplicate: %s" % elem.text) # equal function works well
elems_to_remove.append(elem)
continue
prev = elem
for elem_to_remove in elems_to_remove:
page.remove(elem_to_remove)
# [...]
tree.write("out.xml")
给出:
$ python undupe.py
found duplicate: blabla blub not unique
found duplicate: 2nd blabla blub not unique
$ cat out.xml
<root>
<page>
<text>blabla blub unique</text>
<text>blabla blub not unique</text>
<text>blabla blub again unique</text>
</page>
<page>
<text>2nd blabla blub unique</text>
<text>2nd blabla blub not unique</text>
<text>2nd blabla blub again unique</text>
</page>
Python numpy数据指针地址无需更改即可更改 - python编辑经过一些摆弄之后,到目前为止,我已经隔离了以下状态:一维数组在直接输入变量时提供两个不同的地址,而在使用print()时仅提供一个地址2D数组(或矩阵)在直接输入变量时提供三个不同的地址,在使用print()时提供两个地址3D数组在直接输入变量时提供两个不同的地址,而在使用print()时仅给出一个(显然与一维数组相同)像这样:>>> …
Python pytz时区函数返回的时区为9分钟 - python由于某些原因,我无法从以下代码中找出原因:>>> from pytz import timezone >>> timezone('America/Chicago') 我得到:<DstTzInfo 'America/Chicago' LMT-1 day, 18:09:00 STD…
在Mac上的终端中停止python - python在Mac上的终端中使用python,键入ctrl-z 将停止python,但不退出它,给出如下输出:>>> [34]+ Stopped python 如您所见,我已经停止了34个python调用。虽然我可以用>>> exit() 退出python,问题是:是否有一个快捷键可以真正在终端中退出(而不只是停止)python?而…
Python sqlite3数据库已锁定 - python我在Windows上使用Python 3和sqlite3。我正在开发一个使用数据库存储联系人的小型应用程序。我注意到,如果应用程序被强制关闭(通过错误或通过任务管理器结束),则会收到sqlite3错误(sqlite3.OperationalError:数据库已锁定)。我想这是因为在应用程序关闭之前,我没有正确关闭数据库连接。我已经试过了: connectio…
用大写字母拆分字符串,但忽略AAA Python Regex - python我的正则表达式:vendor = "MyNameIsJoe. I'mWorkerInAAAinc." ven = re.split(r'(?<=[a-z])[A-Z]|[A-Z](?=[a-z])', vendor) 以大写字母分割字符串,例如:'我的名字是乔。 I'mWorkerInAAAinc”变成…