【发布时间】:2012-04-20 05:55:08
【问题描述】:
在进一步处理之前,我需要将电子邮件中自然、连贯的文本/句子与列表、签名、问候语等分开。
示例:
嗨,汤姆,
上周一我们做了 bla bla,lore Lorem ipsum dolor sit amet,consectetur adipisici elit,sed eiusmod tempor incidunt ut labore et dolore magna aliqua。
- 列出项目 2
- 列出项目 3
- 列出项目 3
Ut enim ad minim veniam, quis nostrud exercitation ullamco laboris nisi ut aliquid x ea commodi consequat。 Quis aute iure reprehenderit 在 voluptate velit
问候,K。
---有趣的字符行-#######
示例公司
伦敦邪恶街 33 号
手机:00 234534/234345
理想情况下,算法只匹配粗体部分。
是否有任何推荐的方法 - 或者是否有针对该问题的现有算法?我应该根据标点符号的数量、长度等尝试近似正则表达式还是更多的统计数据?
【问题讨论】:
标签: python regex algorithm nlp