1.在spark与结巴结合使用时,在主节点load一次字典,该字典只存在于spark的driver里面,但是worker进程无法共享这段内存,会导致分词时字典没用上,解决方法,在每个mapPartitions函数里添加jieba字典标识位(jieba.dt.initialized):

if not jieba.dt.initialized:
    jieba.load_userdict('user_dict.txt')

 

2.jiaba的字典也可以直接传入set形式,因其源码书写并不规范化:

使用jieba所遇到的bug

3.repr()函数的作用是将dict或set等形式转为string

相关文章:

  • 2021-10-25
  • 2021-11-18
  • 2022-02-14
  • 2021-05-26
  • 2021-10-02
  • 2022-12-23
  • 2021-05-03
猜你喜欢
  • 2021-06-19
  • 2021-11-09
  • 2022-01-01
  • 2022-12-23
  • 2022-12-23
  • 2021-04-11
  • 2022-01-13
相关资源
相似解决方案