【发布时间】:2013-06-26 12:47:13
【问题描述】:
我有数千封以纯文本或 HTML 格式存储的电子邮件。所有纯文本电子邮件的格式都几乎相同,因此仅提取实际电子邮件非常简单。
但是 HTML 电子邮件到处都是,我发现很难想出一个只提取正文消息的方法。电子邮件中还有很多我不想要的其他垃圾内容,例如“这封电子邮件是由...生成的”以及一堆其他非用户生成的文本,这些文本会随着电子邮件的变化而变化。
Python 是否有某种方法可以识别类似于正文或完整句子的内容?
我已经尝试过使用这里的正则表达式: a Regex for extracting sentence from a paragraph in python
但问题在于我有很多这样的行:
头衔*:先生
正则表达式认为是一个句子,我不想提取。
我还尝试将该正则表达式与 NLTK 的词性标注器结合起来,只打印出同时具有名词和动词的句子,但我似乎效果不佳,因为它只是内置的词性标注器和没有在任何数据集上训练。
所以我想我的问题是:我该如何解决我的问题?我错过了什么吗?
【问题讨论】:
-
您是否正在构建一个火腿/垃圾邮件分类器?您可以将非句子视为垃圾邮件,将句子视为火腿。
标签: python nlp extract html-email text-processing