【发布时间】:2020-11-23 03:30:34
【问题描述】:
这是我为西班牙语中的停用词制作的文本文件,然后我将其上传到 google collab: srop_words_spanish.txt
这是我的代码:
from google.colab import files
spa = files.upload()
如您所见,导入成功:
srop_words_spanish.txt(text/plain) - 3391 bytes, last modified: 11/22/2020 - 100% done
Saving srop_words_spanish.txt to srop_words_spanish (4).txt
但是,它作为字典上传。
{'srop_words_spanish.txt': b'alg\xc3\xban\r\nalguna\r\nalgunas\r\nalguno\r\nalgunos\r\nambos\r\nampleamos\r\nante\r\nantes\r\naquel\r\naquellas\r\naquellos\r\naqui\r\narriba\r\natras\r\nbajo\r\nbastante\r\nbien\r\ncada\r\ncierta\r\nciertas\r\ncierto\r\nciertos\r\ncomo\r\ncon\r\nconseguimos\r\nconseguir\r\nconsigo\r\nconsigue\r\nconsiguen\r\nconsigues\r\ncual\r\ncuando\r\ndentro\r\ndesde\r\ndonde\r\ndos\r\nel\r\nellas\r\nellos\r\nempleais\r\nem.....
我的目标是将字典转换为一组没有 \r 或 \n 的单词,或者直接打开文本文件,如下所示:
stopspa=set(line.strip() for line in open("srop_words_spanish.txt",
encoding='UTF-8'))
我想知道如何做这两件事。
【问题讨论】:
标签: python dictionary text set