【发布时间】:2015-08-13 20:18:00
【问题描述】:
我正在开发一个 python NLTK 标记程序。 我的输入文件是包含多行的印地语文本。 在标记文本并使用 pos_tag 时,我得到的输出仅带有 NN 标签。 但是以英文句子作为输入,它会进行正确的标记。 请帮助。 版本 - Python 3.4.1,来自 NLTK 3.0 文档
请帮忙! 这是我尝试过的。
word_to_be_tagged = u“ताजोस्वासआनीचकचकीतदांततुमचेंतुमचेंव्यक्तीमत्वपरजळायतातव्यक्तीमत्वव्यक्तीमत्वव्यक्तीमत्वव्यक्तीमत्वव्यक्तीमत्वव्यक्तीमत्वव्यक्तीमत्वव्यक्तीमत्वव्यक्तीमत्वव्यक्तीमत्वव्यक्तीमत्वव्यक्तीमत्वव्यक्तीमत्वव्यक्तीमत्वव्यक्तीमत्वव्यक्तीमत्वव्यक्तीमत्वव्यक्तीमत्वव्यक्तीमत्वव्यक्तीमत्वव्यक्तीमत्वव्यक्तीमत्वव्यक्तीमत्वव्यक्तीमत्वव्यक्तीमत्वव्यक्तीमत्वव्यक्तीमत्व
from nltk.corpus import indian
train_data = indian.tagged_sents('hindi.pos')[:300]
test_data = indian.tagged_sents('hindi.pos')[301:]
print(word_to_be_tagged)
print (train_data)
我得到的输出是不同的。
ताजो स्वास आनी चकचकीत दांत तुमचें व्यक्तीमत्व परजळायतात.
[[('पूर्ण', 'JJ'), ('प्रतिबंध', 'NN'), ('हटाओ', 'VFM'), (':', 'SYM'), ('इराक', 'NNP')], [('संयुक्त', 'NNC'), ('राष्ट्र', 'NN'), ('।', 'SYM')], ...]
【问题讨论】:
-
我的代码是 - 作为单个句子输入
import nltk s=nltk.pos_tag(nltk.word_tokenize("ताजो स्वास आनी चकचकीत दांत तुमचें व्यक्तीमत्व परजळायतात.")) print(s)输出 - >>> [('ताजो', 'NN'), ('स्वास', 'NN'), ('आनी ','nn'),('चकचकीत','nn'),('दांत','nn'),('तुमचें','nn'),('व्यक्तीमत्व','nn'),('परजळायतात ', 'NN'), ('.', '.')]
标签: python nltk python-3.4