多项式转化 PolynomialExpansion

degree=3 时,x ,xx ,xxx ,y ,xy ,xxy ,yy ,xyy ,yyy

pyspark

 

类别型数据常用独热编码:

字符转换成数字索引 StringIndexer

在转换成独热编码  OneHotEncoder

使用stringindex将category转换成categoryIndex  之后,本来a,b,c是没有大小顺序的,但是转换成数字索引后数字0,1,2有了大小关系,因此使用onehotencoder再次转换

pyspark

一般只在测试集上进行独热编码,测试数据中可能会出现新的类别,比如‘e’,因此,编码时可以先预留一种‘rare’类别,新的类别都归进去

 

文本处理

基于DataFrame的StopWordsRemover处理

停止词的词表一般不需要自己制作,有很多可选项可以自己下载选用。中文暂时没有词表。

remover.transform(sentenceData).show(truncate=False)

truncate=False:结果show的时候太长也不会做截断,属性为True时会截断

pyspark

 

Tokenize 将一句话转换成一个单词的序列

pyspark

pyspark

Count Vectorizer

pyspark

说明features中第一行id为1 的数据[0,1,2],[1,1,1],含义,左边是值,右边是出现次数,表示0出现1次,1出现1次,2出现一次。

 

要先使用fit对数据进行扫描,才知道数据的出现次数,进行编码,然后才能transport

 

TF-IDF

pyspark

相关文章:

  • 2021-06-02
  • 2021-09-10
  • 2022-12-23
  • 2022-12-23
  • 2021-11-21
  • 2021-08-19
  • 2021-07-20
猜你喜欢
  • 2022-12-23
  • 2021-06-15
  • 2021-09-04
  • 2018-06-02
  • 2021-09-30
  • 2021-09-22
相关资源
相似解决方案