huanghaocs

jieba

Python下中文分词工具
地址:https://github.com/fxsjy/jieba , 安装:pip install jieba
功能:中文分词、词性标注、TF-IDF和TextRank关键词抽取

ansj

Java下中文分词工具
地址:https://github.com/NLPchina/ansj_seg ,maven使用:

	<dependency>
	     <groupId>org.ansj</groupId>
	     <artifactId>ansj_seg</artifactId>
	     <version>5.1.1</version>
	</dependency>

功能:中文分词、词性标注

hanlp处理包

支持Python和Java
Python版:https://github.com/hankcs/pyhanlp , 安装:pip install pyhanlp
Java版:https://github.com/hankcs/HanLP ,maven使用:

	<dependency>
    	<groupId>com.hankcs</groupId>
    	<artifactId>hanlp</artifactId>
    	<version>portable-1.7.3</version>
	</dependency>

功能:中文分词、词性标注、依存句法分析、命名实体识别、短语提取、自动摘要、文本分类聚类

NLPIR中科院分词系统

官方网站:http://ictclas.nlpir.org/
GitHub:https://github.com/NLPIR-team/NLPIR
Python版: https://github.com/tsroten/pynlpir
功能:中文分词、词性标注

LTP语言技术平台

支持C++、Java和Python
C++版:https://github.com/HIT-SCIR/ltp , examples中有实例
Java版:https://github.com/HIT-SCIR/ltp4j
Python版:https://github.com/HIT-SCIR/pyltp
需要加载训练好的模型,下载地址:http://ltp.ai/download.html
功能:中文分词、词性标注、依存句法分析、语义角色标注、命名实体识别

THULAC清华词法分析工具

支持C++、Java和Python
C++版:https://github.com/thunlp/THULAC
Java版:https://github.com/thunlp/THULAC-Java
Python版:https://github.com/thunlp/THULAC-Python
功能:中文分词、词性标注

StanfordNLP

支持Java和Python,支持多种语言
Java版:https://github.com/stanfordnlp/CoreNLP
Python版:https://github.com/stanfordnlp/stanfordnlp
功能:中文分词、词性标注、依存句法分析、命名实体识别,支持多种语言

NLTK自然语言处理工具包

NLTK英文支持很好
官方网站:http://www.nltk.org/
GitHub:https://github.com/nltk/nltk
功能:英文分词,词性标注等预处理

分类:

技术点:

相关文章:

  • 2021-11-09
  • 2021-12-23
  • 2021-08-26
  • 2022-02-24
  • 2021-12-01
  • 2021-07-11
  • 2022-12-23
猜你喜欢
  • 2021-11-20
  • 2022-02-02
  • 2021-07-29
  • 2021-09-06
  • 2021-11-28
  • 2021-06-16
  • 2022-12-23
相关资源
相似解决方案