Java Regex挂在很长的字符串上 - java

我正在尝试编写一个REGEX来验证字符串。它应符合以下要求:仅包含大写和小写英文字母(a到z,A到Z)(ASCII:65到90、97到122)和/或数字0到9(ASCII:48到57)AND字符-_〜(ASCII:45、95、126)。前提是它们不是第一个或最后一个字符。它也可以具有角色。 (点,句号,句号)(ASCII:46),前提是它不是第一个或最后一个字符,并且还没有连续出现两次或多次。我尝试使用以下

Pattern.compile("^[^\\W_*]+((\\.?[\\w\\~-]+)*\\.?[^\\W_*])*$");

它适用于较小的字符串,但不适用于长字符串,因为我遇到了线程挂起问题和cpu的峰值。请帮忙。

无效字符串的测试用例:

"aB78."
"aB78..ab"
"aB78,1"
"aB78 abc"
".Abc12"

有效字符串的测试用例:

"abc-def"
"a1b2c~3"
"012_345"

参考方案

问题

这是由于灾难性的回溯。让我通过将正则表达式简化为与原始正则表达式的子集匹配的正则表达式来说明发生的地方:

^[^\W_*]+((\.?[\w\~-]+)*\.?[^\W_*])*$

由于[^\W_*][\w\~-]可以匹配[a-z],因此让我们将它们替换为[a-z]

^[a-z]+((\.?[a-z]+)*\.?[a-z])*$

由于\.?是可选的,因此让我们删除它们:

^[a-z]+(([a-z]+)*[a-z])*$

您可以看到([a-z]+)*,这是正则表达式的经典示例,该正则表达式会导致灾难性的回溯(A*)*,而最外面的重复(([a-z]+)*[a-z])*可以扩展为([a-z]+)*[a-z]([a-z]+)*[a-z]([a-z]+)*[a-z]的事实进一步加剧了该问题(想象一下要分解的排列数输入字符串以匹配您的正则表达式可以具有的所有扩展)。这前面没有提到[a-z]+,因为它的形式为A*A*,这会加重对人的伤害。

您可以使用此正则表达式根据您的条件验证字符串:

^(?=[a-zA-Z0-9])[a-zA-Z0-9_~-]++(\.[a-zA-Z0-9_~-]++)*+(?<=[a-zA-Z0-9])$

作为Java字符串文字:

"^(?=[a-zA-Z0-9])[a-zA-Z0-9_~-]++(\\.[a-zA-Z0-9_~-]++)*+(?<=[a-zA-Z0-9])$"

正则表达式的细分:

^                                      # Assert beginning of the string
(?=[a-zA-Z0-9])                        # Must start with alphanumeric, no special
[a-zA-Z0-9_~-]++(\.[a-zA-Z0-9_~-]++)*+
(?<=[a-zA-Z0-9])                       # Must end with alphanumeric, no special
$                                      # Assert end of the string

由于.不能连续出现,并且不能以字符串开头或结尾,因此我们可以将其视为[a-zA-Z0-9_~-]+字符串之间的分隔符。所以我们可以这样写:

[a-zA-Z0-9_~-]++(\.[a-zA-Z0-9_~-]++)*+

所有量词都具有所有权,以减少Oracle实施中的堆栈使用量,并使匹配更快。请注意,不适合在任何地方使用它们。由于我的正则表达式的编写方式,即使没有所有格量词,也只有一种匹配特定字符串的方法。

速记

由于这是Java且处于默认模式,因此您可以将a-zA-Z0-9_缩短为\w,将[a-zA-Z0-9]缩短为[^\W_](尽管第二个对于其他程序员来说有点难以理解):

^(?=[^\W_])[\w~-]++(\.[\w~-]++)*+(?<=[^\W_])$

作为Java字符串文字:

"^(?=[^\\W_])[\\w~-]++(\\.[\\w~-]++)*+(?<=[^\\W_])$"

如果将正则表达式与String.matches()一起使用,则可以删除锚点^$

Java-搜索字符串数组中的字符串 - java

在Java中,我们是否有任何方法可以发现特定字符串是字符串数组的一部分。我可以避免出现一个循环。例如String [] array = {"AA","BB","CC" }; string x = "BB" 我想要一个if (some condition to tell wheth…

Java:线程池如何将线程映射到可运行对象 - java

试图绕过Java并发问题,并且很难理解线程池,线程以及它们正在执行的可运行“任务”之间的关系。如果我创建一个有10个线程的线程池,那么我是否必须将相同的任务传递给池中的每个线程,或者池化的线程实际上只是与任务无关的“工人无人机”可用于执行任何任务?无论哪种方式,Executor / ExecutorService如何将正确的任务分配给正确的线程? 参考方案 …

JAVA:字节码和二进制有什么区别? - java

java字节代码(已编译的语言,也称为目标代码)与机器代码(当前计算机的本机代码)之间有什么区别?我读过一些书,他们将字节码称为二进制指令,但我不知道为什么。 参考方案 字节码是独立于平台的,在Windows中运行的编译器编译的字节码仍将在linux / unix / mac中运行。机器代码是特定于平台的,如果在Windows x86中编译,则它将仅在Win…

java:继承 - java

有哪些替代继承的方法? java大神给出的解决方案 有效的Java:偏重于继承而不是继承。 (这实际上也来自“四人帮”)。他提出的理由是,如果扩展类未明确设计为继承,则继承会引起很多不正常的副作用。例如,对super.someMethod()的任何调用都可以引导您通过未知代码的意外路径。取而代之的是,持有对本来应该扩展的类的引用,然后委托给它。这是与Eric…

Java:BigInteger,如何通过OutputStream编写它 - java

我想将BigInteger写入文件。做这个的最好方式是什么。当然,我想从输入流中读取(使用程序,而不是人工)。我必须使用ObjectOutputStream还是有更好的方法?目的是使用尽可能少的字节。谢谢马丁 参考方案 Java序列化(ObjectOutputStream / ObjectInputStream)是将对象序列化为八位字节序列的一种通用方法。但…