【发布时间】:2019-08-01 21:31:49
【问题描述】:
我对机器学习很陌生,所以这个问题听起来可能很愚蠢。 我正在关注tutorial on Text Classification,但我遇到了一个我不知道如何解决的错误。
这是我的代码(基本上是在教程中找到的)
import pandas as pd
filepath_dict = {'yelp': 'data/yelp_labelled.txt',
'amazon': 'data/amazon_cells_labelled.txt',
'imdb': 'data/imdb_labelled.txt'}
df_list = []
for source, filepath in filepath_dict.items():
df = pd.read_csv(filepath, names=['sentence', 'label'], sep='\t')
df['source'] = source
df_list.append(df)
df = pd.concat(df_list)
print(df.iloc[0:4])
from sklearn.feature_extraction.text import CountVectorizer
df_yelp = df[df['source'] == 'yelp']
sentences = df_yelp['sentence'].values
y = df_yelp['label'].values
from sklearn.model_selection import train_test_split
sentences_train, sentences_test, y_train, y_test = train_test_split(sentences, y, test_size=0.25, random_state=1000)
from sklearn.feature_extraction.text import CountVectorizer
vectorizer = CountVectorizer()
vectorizer.fit(sentences_train)
X_train = vectorizer.transform(sentences_train)
X_test = vectorizer.transform(sentences_test)
from keras.models import Sequential
from keras import layers
input_dim = X_train.shape[1]
model = Sequential()
model.add(layers.Dense(10, input_dim=input_dim, activation='relu'))
model.add(layers.Dense(1, activation='sigmoid'))
model.compile(loss='binary_crossentropy',
optimizer='adam',
metrics=['accuracy'])
model.summary()
history = model.fit(X_train, y_train,
nb_epoch=100,
verbose=False,
validation_data=(X_test, y_test),
batch_size=10)
当我到达最后一行时,我得到一个错误
"TypeError: 稀疏矩阵长度不明确;使用 getnnz() 或 shape[0]"
我想我必须对我正在使用的数据执行某种转换,或者我应该尝试以不同的方式加载这些数据。我已经尝试在 Stackoverflow 上进行搜索,但是 - 对这一切都很陌生 - 我找不到任何有用的东西。
我该如何进行这项工作?理想情况下,我不仅想获得解决方案,还想简要说明错误发生的原因以及解决方案为了解决它做了什么。
谢谢!
【问题讨论】:
-
哪一行出现错误?
-
type(X_train), type(y_train)的输出是什么? -
@SergeyBushmanov type(X_train):
;类型(y_train): -
您可以尝试将稀疏矩阵转换为密集矩阵,如
X_train.todense()并将结果传递给model.fit()? -
@FrancoPiccolo 最后一个 history = model.fit(X_train, y_train, nb_epoch=100, verbose=False, validation_data=(X_test, y_test), batch_size=10)
标签: python keras scikit-learn sklearn-pandas