【发布时间】:2021-10-18 15:14:57
【问题描述】:
我有一个无法单独解决的问题。我目前正在构建一个 NLP 预处理管道,虽然关于将 wordninja 与西里尔语言(俄语和乌克兰语)一起使用,但我已经按照描述设置了字典,一切看起来都很好,但我可以让它工作。
import wordninja
wordninja.DEFAULT_LANGUAGE_MODEL = wordninja.LanguageModel('setup/ru_ninja_dict.txt.gz')
wordninja.split("приветпока")
(输出是一个空列表 [],而应该是 ["привет", "пока"])
我的主要假设是编码存在问题。但是,我自己不知道如何检查。
如果您有任何想法,请告诉我!
【问题讨论】: