【发布时间】:2019-03-14 17:41:26
【问题描述】:
我正在使用 Python、TextBlob 和 NLTK 做一个快速情绪分析控制台应用程序。
目前我正在使用指向西班牙语 wiki 文章的链接,所以我不需要翻译它,我可以使用 nltk 西班牙语停用词列表,但是如果我想让这段代码适用于不同的语言链接怎么办?
如果我使用textFinal=TextBlob(texto) 下方的TextFinal=TextFinal.translate(to="es") 行(下面的代码),我会收到一个错误,因为它无法将西班牙语翻译成西班牙语。
我可以通过使用 try/catch 来防止这种情况吗?有没有办法让代码尝试翻译成不同的语言(以及使用不同的停用词列表)取决于我提供给应用程序的链接的语言?
import nltk
nltk.download('stopwords')
from nltk import word_tokenize
from nltk.corpus import stopwords
import string
from textblob import TextBlob, Word
import urllib.request
from bs4 import BeautifulSoup
response = urllib.request.urlopen('https://es.wikipedia.org/wiki/Valencia')
html = response.read()
soup = BeautifulSoup(html,'html5lib')
text = soup.get_text(strip = True)
tokens = word_tokenize(text)
tokens = [w.lower() for w in tokens]
table = str.maketrans('', '', string.punctuation)
stripped = [w.translate(table) for w in tokens]
words = [word for word in stripped if word.isalpha()]
stop_words = set(stopwords.words('spanish'))
words = [w for w in words if not w in stop_words]
with open('palabras.txt', 'w') as f:
for word in words:
f.write(" " + word)
with open('palabras.txt', 'r') as myfile:
texto=myfile.read().replace('\n', '')
textFinal=TextBlob(texto)
print (textFinal.sentiment)
freq = nltk.FreqDist(words)
freq.plot(20, cumulative=False)
【问题讨论】:
标签: python nltk sentiment-analysis textblob