【发布时间】:2020-09-04 09:44:59
【问题描述】:
对于以研究为目的的工作,我应该:
- 读取 .csv 文件
- 通过标题检测文本的语言
- 通过一些关键字识别文本的参数 前任。脑叶切开术 --> 大脑
我正在尝试使用 Python 及其库 NLTK 来完成第二点和第三点, 如果你做过类似的事情,能给我一些建议吗?
提前谢谢你!
【问题讨论】:
-
我的意思是文件中列的标题。
对于以研究为目的的工作,我应该:
我正在尝试使用 Python 及其库 NLTK 来完成第二点和第三点, 如果你做过类似的事情,能给我一些建议吗?
提前谢谢你!
【问题讨论】:
它不是万能的,但您可以尝试多种语言识别工具。
langid.py
最流行和最容易使用的一种,是langid.pyhttps://github.com/saffsd/langid.py
要安装:python -m pip install -U langid
>>> import langid
>>> text = "Hallo, wie gehts?"
>>> lang, log_prob = langid.classify(text)
>>> print(lang)
de
pyCLD2
pycld2 是chromium-compact-language-detector 的包装,请参阅https://github.com/aboSamoor/pycld2
安装:python -m pip install -U pycld2
>>> import pycld2 as cld2
>>> text = "Hallo, wie gehts?"
>>> isReliable, textBytesFound, details = cld2.detect(text)
>>> lang = details[0][1]
>>> print(lang)
de
cld3
安装:python -m pip install -U pycld3
>>> import cld3
>>> text = "Hallo, wie gehts?"
>>> prediction = cld3.get_language(text)
>>> print(prediction.language)
de
这是来自https://arxiv.org/pdf/1910.06748.pdf 的近期摘要(2019 年)
【讨论】: