在这篇文章中,我将(x1,...,xn)形式的字符串称为序列,将{y1,...,yn}形式的字符串称为集合。其中每个xi和yi可以是数字[0-9]+
,单词[a-zA-Z]+
,数字/单词[a-zA-Z0-9]+
,序列或集合。
我想知道使用Regex处理以下内容是否完全可能(如果可以,请帮助弄清楚如何使用):
我想将(x1,...,xn,xn + 1)形式的序列转换为((x1,...,xn),xn + 1)。
例子:
(1,2,3,4,5)
将更改为((1,2,3,4),5)
((1,2,3,4),5)
将更改为(((1,2,3),4),5)
,因为形式内唯一的字符串(x1,...,xn,xn + 1)是内部的(1,2,3,4)
。
(((1,2,3),4),5)
将更改为((((1,2),3),4),5)
,因为形式内唯一的字符串(x1,...,xn,xn + 1)是内部的(1,2,3)
。
(1,(2,3),4)
将更改为((1,(2,3)),4)
({1},{2},{3})
将更改为(({1},{2}),{3})
根据要求,更多示例:
((1,2),(3,4),5)
将更改为(((1,2),(3,4)),5)
((1,2),3,(4,5))
将更改为(((1,2),3),(4,5))
(1,(2,(3,4),5))
将更改为(1,((2,(3,4)),5))
,因为形式(x1,...,xn,xn + 1)的唯一序列是内部的(2,(3,4),5)
。
这是我到目前为止的内容:
re.sub(r'([(][{}a-zA-Z0-9,()]+,[{}a-zA-Z0-9,]+),', r'(\g<1>),', string)
您可以看到它适用于here的字符串。
它不适用于(1,(2,3),4)
,不适用于({{x},{x,y}},z)
之类的东西。任何帮助是极大的赞赏;我觉得可以在Regex中使用它,但是似乎有很多特殊情况需要Regex非常精确。
参考方案
对于python中的任何递归,您都必须使用PyPi regex module(如anubhava in his answer所述)。您可以使用以下模式:
See regex in use here
(\((({(?:[^{}]+|(?-1))+})|\((?:[^(),]+,[^(),]+)\)|[^(){},]+)(?:,(?2))+),
替换为(\1),
这个怎么运作:
(\((({(?:[^{}]+|(?-1))+})|\((?:[^(),]+,[^(),]+)\)|[^(){},]+)(?:,(?2))+),
将以下内容捕获到捕获组1中,然后匹配,
\(
从字面上匹配(
(({(?:[^{}]+|(?-1))+})|\((?:[^(),]+,[^(),]+)\)|[^(){},]+)
一次或多次匹配以下选项之一(并将其捕获到捕获组2中)
({(?:[^{}]+|(?-1))+})
将以下内容捕获到捕获组3中{(?:[^{}]+|(?-1))+}
匹配{
,然后选择以下选项之一或多次,然后}
[^{}]+
匹配除{
或}
以外的任何字符一次或多次(?-1)
递归先前的捕获组(捕获组3)
\((?:[^(),]+,[^(),]+)\)
匹配(
,然后是以下内容,然后是)
[^(),]+
一次或多次匹配除(
,)
或,
以外的任何字符,
从字面上匹配逗号,
字符[^(),]+
一次或多次匹配除(
,)
或,
以外的任何字符[^(){},]+
一次或多次匹配除(
,)
,{
,}
或,
以外的任何字符
(?:,(?2))+
匹配以下一次或多次
,(?2)
匹配,
,然后递归捕获组2
用更简单的术语来说,捕获组2定义了术语是什么。它...:
任意匹配{y1, ..., yn}
和+的任何集合:{{y1, ..., yn},..., xn}
匹配正好两个元素的任何完整序列:(x1, x2)
匹配任何字符串对象(数字,单词等)1
,2
,... x
,y
,...
然后,捕获组1使用捕获组2中定义明确的术语来匹配尽可能多的术语,其中字符串包含至少两个术语和一个逗号(x,x,
并具有尽可能多的x,
)。替换将使用此捕获组,将其包含在()
中并追加,
。因此,对于(x,x,x,x)
,我们得到((x,x,x),x)
。
编辑
通过使非捕获组所有格(?:[^{}]+|(?-1))++
(防止回溯)并更改选项的顺序(最普遍),可以提高模式的效率(764-> 662个步骤):
See regex in use here
(\(([^(){},]+|\((?:[^(),]+,[^(),]+)\)|({(?:[^{}]+|(?-1))++}))(?:,(?2))+),
用大写字母拆分字符串,但忽略AAA Python Regex - python我的正则表达式:vendor = "MyNameIsJoe. I'mWorkerInAAAinc." ven = re.split(r'(?<=[a-z])[A-Z]|[A-Z](?=[a-z])', vendor) 以大写字母分割字符串,例如:'我的名字是乔。 I'mWorkerInAAAinc”变成…
Python GPU资源利用 - python我有一个Python脚本在某些深度学习模型上运行推理。有什么办法可以找出GPU资源的利用率水平?例如,使用着色器,float16乘法器等。我似乎在网上找不到太多有关这些GPU资源的文档。谢谢! 参考方案 您可以尝试在像Renderdoc这样的GPU分析器中运行pyxthon应用程序。它将分析您的跑步情况。您将能够获得有关已使用资源,已用缓冲区,不同渲染状态上…
Python sqlite3数据库已锁定 - python我在Windows上使用Python 3和sqlite3。我正在开发一个使用数据库存储联系人的小型应用程序。我注意到,如果应用程序被强制关闭(通过错误或通过任务管理器结束),则会收到sqlite3错误(sqlite3.OperationalError:数据库已锁定)。我想这是因为在应用程序关闭之前,我没有正确关闭数据库连接。我已经试过了: connectio…
python-docx应该在空单元格已满时返回空单元格 - python我试图遍历文档中的所有表并从中提取文本。作为中间步骤,我只是尝试将文本打印到控制台。我在类似的帖子中已经看过scanny提供的其他代码,但是由于某种原因,它并没有提供我正在解析的文档的预期输出可以在https://www.ontario.ca/laws/regulation/140300中找到该文档from docx import Document from…
Python:集群作业管理 - python我在具有两个阶段的计算群集(Slurm)上运行python脚本,它们是顺序的。我编写了两个python脚本,一个用于阶段1,另一个用于阶段2。每天早上,我检查所有第1阶段的工作是否都以视觉方式完成。只有这样,我才开始第二阶段。通过在单个python脚本中组合所有阶段和作业管理,是否有一种更优雅/自动化的方法?我如何知道工作是否完成?工作流程类似于以下内容:w…