【发布时间】:2020-08-02 13:31:50
【问题描述】:
我刚刚从网站上抓取文本数据,该数据包含数字、特殊字符和标点符号。拆分数据后,我尝试保留纯文本,但我得到了 spcaes、数字、特殊字符。如何删除所有这些东西并保持文本不受上面的东西影响。
url = 'www.example.com'
html = urllib.request.urlopen(url).read().decode('utf-8')
text = get_text(html)
extracted_data = text.split()
refined_data = []
SYMBOLS = '{}()[].,:;+-*/&|<>=~0123456789'
for i in extracted_data:
if i not in SYMBOLS:
refined_data.append(i)
print("\n", "$" * 50, "HEYAAA we got arround: ", len(refined_data), " of keywords! Here are they: ","$" * 50, "\n")
print(type(refined_data))
output:
1.My
2.system
3.showing
4.error
5.404
6.I
7.don't
8.understand
9.why
10. it
11. showing ,
12.like
13.this?
14.53251
15.$45
【问题讨论】:
-
由于您所问的情况很多,最好显示示例文本和所需的输出
-
@ashishmishra 我刚刚添加了一个示例输出。提取的文本包含更多的标点符号、空格、数字和特殊字符。所以我想从我的文本中清除所有这些并保持我的文本简单。
标签: python-3.x urllib