复杂的正则表达式匹配词（有可能吗？）答案

【问题标题】：complicate regexp matching words (is it possible?)复杂的正则表达式匹配词（有可能吗？）
【发布时间】：2012-12-15 08:45:44
【问题描述】：

我想要一个正则表达式来匹配所有不匹配的希腊 (utf-8) 单词：

这可能吗？为了匹配希腊词，我使用\p{Greek}{3,}，它匹配至少有 3 个字符的希腊 UTF-8 词。

我用 ruby 编写程序，但如果可以用 perl 或任何其他 cli 工具/语言完成，我将编写一个脚本以将输出转储到文本文件中。

【问题讨论】：

标签： regex utf-8

【解决方案1】：

(?<!\S)(?=\S*\p{Greek})(?![-,.\p{Lu}])(?![\p{Lu}\P{L}]+\b)\S+(?<![-.'1-9])(?!\S)

让我们打破这个野兽：

【讨论】：

这是一个起点，但对我不起作用：d.pr/i/zbCN 但是它可以是一个起点。
@atmosx 哪些词不正确（不）匹配？你能把它们贴在这里让我测试吗？
我有this text。在rubular 上使用您的正则表达式我匹配以下不需要的单词：[ΕΤΥΜ - 它有一个[ 和它的大写，< 不是一个词，avantare 它是英语而不是希腊语，(η) 有(和)，等等。
已修复，因此它与 [ETYM 或 < 不匹配。添加了至少一个希腊字母的检查。
与您的代码无关，但似乎 Ruby 的拉丁脚本实现存在错误 - 大写英文字母字符不匹配。