【发布时间】:2016-01-19 12:03:23
【问题描述】:
是否存在涵盖地球上所有字符突变的通用(非)单词正则表达式?我正在开发一个应该处理所有语言的应用程序。 从技术上讲,我想按单词拆分句子。用非单词字符 (\W) 分割它们也用 'ä' 分割。 static workaround 不是一个选项,因为明确地覆盖这个世界上的所有突变(éçḮñ 和数千个)是不可能的。
【问题讨论】:
-
那么,它是 JavaScript 吗?使用 XRegExp
[^\pL]或\PL。 -
你为什么不按
\s分割?你能提供输入和所需的输出吗? -
所以您想将
it's拆分为it和s?分割空格和非连接标点符号不是很有意义吗?无论如何,您肯定需要告诉我们您使用的是哪个正则表达式引擎。 -
不是 C++/Qt 应用程序。我想索引单词。因此,由于标点符号,按空格分割也不是最佳选择。但是一组静态分隔符确实是一种更好的方法。这几乎解决了我的问题,谢谢,但不是 SO 问题。
-
您的意思是“元音变音”(特别是德语字符 ä、ö‚ 和 ü 中的标记)还是任何重音符号(即 ̈ 、̂ 等)或任何重音符号(Ö、ê , ñ 等)?