正则表达式中的字符串操作似乎有太多异常 - python

在这篇文章中,我将(x1,...,xn)形式的字符串称为序列,将{y1,...,yn}形式的字符串称为集合。其中每个xi和yi可以是数字[0-9]+,单词[a-zA-Z]+,数字/单词[a-zA-Z0-9]+,序列或集合。

我想知道使用Regex处理以下内容是否完全可能(如果可以,请帮助弄清楚如何使用):

我想将(x1,...,xn,xn + 1)形式的序列转换为((x1,...,xn),xn + 1)。

例子:

(1,2,3,4,5)将更改为((1,2,3,4),5)

((1,2,3,4),5)将更改为(((1,2,3),4),5),因为形式内唯一的字符串(x1,...,xn,xn + 1)是内部的(1,2,3,4)

(((1,2,3),4),5)将更改为((((1,2),3),4),5),因为形式内唯一的字符串(x1,...,xn,xn + 1)是内部的(1,2,3)

(1,(2,3),4)将更改为((1,(2,3)),4)

({1},{2},{3})将更改为(({1},{2}),{3})

根据要求,更多示例:

((1,2),(3,4),5)将更改为(((1,2),(3,4)),5)

((1,2),3,(4,5))将更改为(((1,2),3),(4,5))

(1,(2,(3,4),5))将更改为(1,((2,(3,4)),5)),因为形式(x1,...,xn,xn + 1)的唯一序列是内部的(2,(3,4),5)

这是我到目前为止的内容:

re.sub(r'([(][{}a-zA-Z0-9,()]+,[{}a-zA-Z0-9,]+),', r'(\g<1>),', string)

您可以看到它适用于here的字符串。

它不适用于(1,(2,3),4),不适用于({{x},{x,y}},z)之类的东西。任何帮助是极大的赞赏;我觉得可以在Regex中使用它,但是似乎有很多特殊情况需要Regex非常精确。

参考方案

对于python中的任何递归,您都必须使用PyPi regex module(如anubhava in his answer所述)。您可以使用以下模式:

See regex in use here

(\((({(?:[^{}]+|(?-1))+})|\((?:[^(),]+,[^(),]+)\)|[^(){},]+)(?:,(?2))+),

替换为(\1),

这个怎么运作:

(\((({(?:[^{}]+|(?-1))+})|\((?:[^(),]+,[^(),]+)\)|[^(){},]+)(?:,(?2))+),将以下内容捕获到捕获组1中,然后匹配,

\(从字面上匹配(
(({(?:[^{}]+|(?-1))+})|\((?:[^(),]+,[^(),]+)\)|[^(){},]+)一次或多次匹配以下选项之一(并将其捕获到捕获组2中)

({(?:[^{}]+|(?-1))+})将以下内容捕获到捕获组3中
{(?:[^{}]+|(?-1))+}匹配{,然后选择以下选项之一或多次,然后}

[^{}]+匹配除{}以外的任何字符一次或多次
(?-1)递归先前的捕获组(捕获组3)

\((?:[^(),]+,[^(),]+)\)匹配(,然后是以下内容,然后是)
[^(),]+一次或多次匹配除(),以外的任何字符
,从字面上匹配逗号,字符
[^(),]+一次或多次匹配除(),以外的任何字符
[^(){},]+一次或多次匹配除(){},以外的任何字符

(?:,(?2))+匹配以下一次或多次

,(?2)匹配,,然后递归捕获组2

用更简单的术语来说,捕获组2定义了术语是什么。它...:

任意匹配{y1, ..., yn}和+的任何集合:{{y1, ..., yn},..., xn}
匹配正好两个元素的任何完整序列:(x1, x2)
匹配任何字符串对象(数字,单词等)12,... xy,...

然后,捕获组1使用捕获组2中定义明确的术语来匹配尽可能多的术语,其中字符串包含至少两个术语和一个逗号(x,x,并具有尽可能多的x,)。替换将使用此捕获组,将其包含在()中并追加,。因此,对于(x,x,x,x),我们得到((x,x,x),x)

编辑

通过使非捕获组所有格(?:[^{}]+|(?-1))++(防止回溯)并更改选项的顺序(最普遍),可以提高模式的效率(764-> 662个步骤):

See regex in use here

(\(([^(){},]+|\((?:[^(),]+,[^(),]+)\)|({(?:[^{}]+|(?-1))++}))(?:,(?2))+),

用大写字母拆分字符串,但忽略AAA Python Regex - python

我的正则表达式:vendor = "MyNameIsJoe. I'mWorkerInAAAinc." ven = re.split(r'(?<=[a-z])[A-Z]|[A-Z](?=[a-z])', vendor) 以大写字母分割字符串,例如:'我的名字是乔。 I'mWorkerInAAAinc”变成…

Python GPU资源利用 - python

我有一个Python脚本在某些深度学习模型上运行推理。有什么办法可以找出GPU资源的利用率水平?例如,使用着色器,float16乘法器等。我似乎在网上找不到太多有关这些GPU资源的文档。谢谢! 参考方案 您可以尝试在像Renderdoc这样的GPU分析器中运行pyxthon应用程序。它将分析您的跑步情况。您将能够获得有关已使用资源,已用缓冲区,不同渲染状态上…

Python sqlite3数据库已锁定 - python

我在Windows上使用Python 3和sqlite3。我正在开发一个使用数据库存储联系人的小型应用程序。我注意到,如果应用程序被强制关闭(通过错误或通过任务管理器结束),则会收到sqlite3错误(sqlite3.OperationalError:数据库已锁定)。我想这是因为在应用程序关闭之前,我没有正确关闭数据库连接。我已经试过了: connectio…

python-docx应该在空单元格已满时返回空单元格 - python

我试图遍历文档中的所有表并从中提取文本。作为中间步骤,我只是尝试将文本打印到控制台。我在类似的帖子中已经看过scanny提供的其他代码,但是由于某种原因,它并没有提供我正在解析的文档的预期输出可以在https://www.ontario.ca/laws/regulation/140300中找到该文档from docx import Document from…

Python:集群作业管理 - python

我在具有两个阶段的计算群集(Slurm)上运行python脚本,它们是顺序的。我编写了两个python脚本,一个用于阶段1,另一个用于阶段2。每天早上,我检查所有第1阶段的工作是否都以视觉方式完成。只有这样,我才开始第二阶段。通过在单个python脚本中组合所有阶段和作业管理,是否有一种更优雅/自动化的方法?我如何知道工作是否完成?工作流程类似于以下内容:w…