xiao02fang

  分词,即将连续的字序列按照一定的规范重新组合成词序列的过程,它是一种自然语言处理技术,这里的分词指中文分词,其本质是提取一个字符串中的词组或者字。

其详细代码非常简单,如下:

#导入jieba分词模块
import jieba
#记录输入的文件路径
filepath = input(\'请输入要读取的文件:\')
#打开文件
with open(filepath,encoding=\'utf-8\') as f:
#读取文件内容并分词
words = jieba.lcut(f.read())
#替换换行符
print(words)

结果:

[\'1\', \'.\', \'\', \'代码\', \'行数\', \'\', \'评估\', \'程序\', \'\', \'开发进度\', \'\', \'\', \'好比\', \'\', \'重量\', \'\', \'评估\', \'一个\', \'飞机\', \'\', \'建造\', \'进度\', \'\n\', \'2\', \'.\', \'程序\', \'不是\', \'年轻\', \'\', \'专利\', \'\', \'但是\', \'\', \'\', \'属于\', \'年轻\', \'\n\', \'3\', \'.\', \'作为\', \'一个\', \'程序员\', \'\', \'郁闷\', \'\', \'事情\', \'\', \'\', \'面对\', \'一个\', \'代码\', \'\', \'\', \'\', \'不敢\', \'\', \'修改\', \'\', \'\', \'糟糕\', \'\', \'\', \'\', \'这个\', \'代码\', \'\', \'还是\', \'自己\', \'\', \'\']

分类:

技术点:

相关文章:

  • 2021-11-06
  • 2021-06-01
  • 2021-10-05
  • 2021-09-25
  • 2022-01-04
  • 2021-10-16
  • 2021-12-19
  • 2021-12-15
猜你喜欢
  • 2021-09-25
  • 2021-09-25
  • 2021-09-25
  • 2021-09-25
  • 2021-09-25
  • 2021-10-05
相关资源
相似解决方案