【发布时间】:2017-09-18 17:37:48
【问题描述】:
我目前正在我的 Java 类中做一个项目,该项目涉及扫描文本文件,然后用 java 正则表达式分解每一行。文本文件中的其中一行的示例如下所示:
我一直在尝试将其分解,以便我可以得到“超液体漂白剂”和“山新鲜”之类的词相,但不能得到两者之间的空白。我目前的代码是:
([\\w]+|[ ]?)\\b
而且我不能比这更进一步。前两个词的词数不同,因此任何针对特定词数的表达式都不起作用。我是在正确的轨道上还是有更好的方法来做我想做的事情?
【问题讨论】:
-
如果您不知道会出现多少字并且没有提供其他规则,那么计算机如何知道您想要
Ultra Liquid Bleach/Mountain Fresh而不是Ultra Liquid/Bleach Mountain Fresh解析? -
为什么“Ultra Liquid Bleach”和“Mountain Fresh”是两个词组?什么算作一个短语?
-
你的栏目之间的区别是什么?
-
也许这是一个 tsv? stackoverflow.com/questions/19575308/… stackoverflow.com/questions/18331696/… stackoverflow.com/questions/14361650/…
(.*?)(?:\t|$)假设是 tsv 呢?