【发布时间】:2019-09-25 16:49:53
【问题描述】:
我需要将序列作为训练数据,将输出列作为标签。但在我必须对序列应用一种热编码之前,如您所见,序列的长度各不相同 请建议我如何对所有氨基酸应用一种热编码以分配不同的整数值
【问题讨论】:
-
分享您的研究对每个人都有帮助。告诉我们您尝试了什么以及为什么它不能满足您的需求。这表明您已经花时间尝试帮助自己,它使我们免于重复明显的答案,最重要的是它可以帮助您获得更具体和相关的答案!另见:How to Ask
-
from sklearn.preprocessing import LabelEncoder from sklearn.preprocessing import OneHotEncoder from numpy import array #define example values = array(data) print(values) # integer encode label_encoder = LabelEncoder() integer_encoded = label_encoder.fit_transform (值)打印(整数编码)
-
我使用的第二个代码是 df= pd.read_csv('C:/Users/alpha/Desktop/DATASET2.csv',names=('X1','Y'),delimiter=' ,') X=df.iloc[:,0].values Y=df.iloc[:,1:2].values from sklearn.preprocessing import LabelEncoder,OneHotEncoder labelencoder_X = LabelEncoder() # 编码值在0到之间的标签n_classes-1。 X[ : , 0] = labelencoder_X.fit_transform(X[ : , 0]) # 所有行和第一列 onehotencoder = OneHotEncoder(categorical_features = [0]) X = onehotencoder.fit_transform(X).toarray() labelencoder_Y = LabelEncoder () Y = labelencoder_Y.fit_transform(Y)
-
请不要在 cmets 中发布代码 - 它实际上是不可读的!代码首先应该是您问题的一部分,因此请相应地编辑和更新您的问题!
标签: python machine-learning one-hot-encoding