【发布时间】:2021-05-15 01:13:29
【问题描述】:
因此,来自 Python 的 sklearn 库的逻辑回归具有 .fit() 函数,该函数将 x_train(features) 和 y_train(labels) 作为参数来训练分类器。
好像x_train.shape = (number_of_samples, number_of_features)
对于 x_train 我应该使用提取的 xvector.scp 文件,我正在阅读如下:
b = kaldiio.load_scp('xvector.scp')
我可以像这样打印内容:
for file_id in b:
xvector = b[file_id]
print(xvector)
现在b变量就像一个字典,你可以得到对应id的x向量值。我想使用 sklearn Logistic Regression 对 x 向量进行分类,为了使用 .fit() 方法,我应该将数组作为参数传递。
我的问题是如何创建一个只包含 xvector 变量的数组?
PS:file_ids 大约是 100 万,每个 xvector 的长度为 512,对于数组来说太大了
【问题讨论】:
-
它可能很有用,但我仍然不确定如何将 b 转换为需要传递给 .fit() 方法的格式。现在它就像一个文件阅读器,而不是一个可以作为 'x' 参数传递给 .fit() 方法的数组。
-
请不要合并问题;照原样,您似乎没有询问任何特定于所使用文件格式的内容。如果这是您的实际问题,请编辑并更新您的帖子以明确澄清。
-
无论如何,这将是文件格式之间转换的问题,与LR本身无关。
标签: python numpy scikit-learn kaldi