【发布时间】:2021-01-06 02:32:30
【问题描述】:
我正在尝试使用翻译的 LIWC 词典对文本进行分类。但是我正在使用的库($pip install liwc) 无法解析包含特殊土耳其字符的单词,例如“ü”。
这是我用于测试目的的 .dic 文件。
%
4 sad
19 health
%
terketmek 4
kürtaj 19
所以当我尝试解析这句话“kabul terketmek naber yawru a asit kürtaj yapabilmek”时。它不会对单词“kürtaj”进行分类,因为它包含“ü”。
我试图自己解决它,但我发现我正在使用的库在读取我提供的 .dic 文件中的行时会像“kürtaj”一样解析单词“kürtaj”。
所以,这可能就是图书馆没有对“kürtaj”这个词进行分类的原因,因为它在翻译中丢失了:)
提前致谢!
【问题讨论】:
标签: python utf-8 character-encoding special-characters