【发布时间】:2017-07-15 17:03:22
【问题描述】:
我有这样的文字
'自去年 5 月以来,Lapindo Brantas Inc. 运营的东爪哇泗水附近的一口气井喷出热气腾腾的泥浆,淹没了村庄、工业和田野。PT Lapindo Brantas 运营的东爪哇泗水附近的一口气井自去年 5 月以来,喷出热气腾腾的泥浆,淹没了村庄、工厂和田野。上周,印度尼西亚社会福利协调部长阿布里扎尔·巴克里 (Aburizal Bakrie) 表示,这座火山是与钻探活动无关的“自然灾害”。 .总统 Susilo Bambang Yudhoyono 上个月命令 Lapindo 支付 3.8 万亿印尼盾(4.207 亿美元)的赔偿和费用'
我想把它分成句子。 NLTK 或我在网上找到的任何标准正则表达式都失败了。
【问题讨论】:
-
句子,如列表?还是您只想插入新行?
-
一切都好。
-
句尾的语法描述是什么?也许是句号(句号)后跟一个大写字母?
-
\.\"?[A-Z]\w+应该匹配一个以大写字母开头的单词,可以在句号后引用。 -
您无法使用正则表达式解析 NLTK 句子。这是不可能的。