特征工程是将原始数据转化为更好的代表预测模型的潜在问题的特征的过程,从未提高对未知数据的预测准确性。

scikit-learn库  安装需要numpy,pandas等库

特征抽取对文本数据进行特征值化,方便计算机去理解数据。

 

字典特征抽取:对字典数据进行特征值化

# Author:song
from sklearn.feature_extraction import DictVectorizer

def dictvec():
    """字典数据抽取"""
    dict_vec = DictVectorizer(sparse=False)
    data = dict_vec.fit_transform([{'city':'A市','num':100},{'city':'D市','num':100},{'city':'B市','num':80},{'city':'C市','num':56}])
    print(data)#sparse矩阵
    print(dict_vec.get_feature_names())
    print(dict_vec.inverse_transform(data))
    return None

if __name__ =="__main__":
    dictvec()


结果:
[[   1.    0.    0.    0.  100.]
 [   0.    0.    0.    1.  100.]
 [   0.    1.    0.    0.   80.]
 [   0.    0.    1.    0.   56.]]
['city=A市', 'city=B市', 'city=C市', 'city=D市', 'num']
[{'num': 100.0, 'city=A市': 1.0}, {'city=D市': 1.0, 'num': 100.0}, {'city=B市': 1.0, 'num': 80.0}, {'city=C市': 1.0, 'num': 56.0}]
View Code

相关文章: