megachen

机器学习常用工具

  • jieba分词器

    • jieba.cut(content): 返回一个生成器, 迭代可以返回文本
    • jieba.lcut(content): 直接返回文本
    • jieba.cut_for_search(content): 搜索引擎模式
    • jieba.analyse
      • extract_tags(content, topK=, withWeight=)
  • wordcloud

    • 使用步骤:
      • wordcloud=WordCloud(font_path="simhei.ttf",background_color="white",max_font_size=100)
      • word_frequence = {x[0]:x[1] for x in words_count.head(100).values}
      • wordcloud=wordcloud.fit_words(word_frequence)
      • plt.imshow()
  • matplotlib

    • rcParams: 动态配置参数, 主要配置图像的分辨率与像素
      • matplotlib.rcParams[‘figure.figsize’]# 图片像素
      • matplotlib.rcParams[‘savefig.dpi’]# 分辨率
      • plt.savefig(‘plot123_2.png’, dpi=200)# 指定分辨率
  • pandas

    • DataFrame的对象
      • set_index(): 指明最左列是什么, 默认是id号, 从0开始, 使用df.loc[0]等选择行的
      • reset_index(): 重置到id号的index
      • groupby(by=): 将行按照某一类合并在一起, 方便求和, 均值等
      • df[[\'col1\', \'col2\']].agg([\'sum\', \'mean\'])
      • groupby与agg常常联合使用: df.groupby(by\'col1\')[\'col1\'].agg([\'sum\', \'std\', \'mean\']) 方便:-)
      • apply: 传入一个函数参数, 对df中指定的列的每一个元素执行该函数
      • sort_values: 根据指定的列进行排序
      • sort_index: 根据index进行排序, 有set_index指定, 默认为id号, 从0开始
      • iloc: 只能参数int类型, index是从当前开始计算的
      • loc: 可以是bool类型和int类型, index是从原始数据得到的
    • read_table
    • read_csv
  • collections

    • defaultdict(func): 设置一个

分类:

技术点:

相关文章:

  • 2021-11-12
  • 2021-10-16
  • 2021-11-02
  • 2021-11-02
  • 2021-04-10
  • 2021-07-21
  • 2022-12-23
  • 2022-01-03
猜你喜欢
  • 2021-11-02
  • 2022-12-23
  • 2021-11-23
  • 2021-11-02
  • 2021-09-01
  • 2021-11-02
相关资源
相似解决方案