【发布时间】:2018-08-31 03:18:18
【问题描述】:
如何去除单词(或单词序列)边缘的噪音。我所说的噪音是指:'s、're、.、?、,、; 等。换句话说,punctuation 和 abbreviations强>。但它只需要来自左右边缘,单词内的噪音应该保留。
例子:
Apple. Apple
Donald Trump's Trump
They're They
I'm I
¿Hablas espanol? Hablas espanhol
$12 12
H4ck3r H4ck3r
What's up What's up
所以基本上删除撇号、动词缩写和标点符号,但仅适用于字符串边缘(右/左)。似乎strip 不适用于完全匹配,并且找不到仅适用于边缘的re 合适的方法。
【问题讨论】:
-
您需要完全定义问题。什么原则或类使
$成为标点符号?你会如何处理“I would have”的收缩:I'd've?
标签: python regex nltk text-processing