如何将列表转换为 numpy 数组答案

【问题标题】：How to convert List to numpy Array如何将列表转换为 numpy 数组
【发布时间】：2020-09-18 00:05:45
【问题描述】：

这是协作https://colab.research.google.com/drive/1wftAvDu_Wu2Y9ahgI1Z1FLciUH5MnSJ9的链接

train_labels = ['GovernmentSchemes', 'GovernmentSchemes', 'GovernmentSchemes', 'GovernmentSchemes', 'CropInsurance']

training_label_seq = np.array(label_tokenizer.texts_to_sequences(train_labels))

输出来了：

[list([3]) list([3]) list([3]) ... list([2]) list([5]) list([1])]

预期输出：

[[3] [3] [3] .. [2] [5]...]

num_epochs = 30
history = model.fit(train_padded, training_label_seq, epochs=num_epochs, validation_data=(validation_padded, validation_label_seq))

Error => ValueError: 无法将 NumPy 数组转换为张量（不支持的对象类型列表）

【问题讨论】：

输入输出之间的逻辑是什么？以及label_tokenizer.texts_to_sequences如何被复制？
是的，这段代码有点不完整。 label_tokenizer - 这是来自 TensorFlow 的吗？如果是这样，这应该包括在内。就目前而言，该代码是一个sn-p，无法运行。发布一个可重现的最小示例很重要。
使用后的输出 -- np.array([[x] for x in training_label_seq]) [list([3])] [list([3])] [list([3]) ]]
我们从哪里得到'kcc_maharashtra.csv'？
@FrederikBode 上传！可在 data.gov.in 获得

标签： python list numpy tensorflow nlp

【解决方案1】：

我能够使用以下代码重新创建您的问题 -

重现问题的代码 -

import numpy as np
import tensorflow as tf
print(tf.__version__)
from tensorflow.keras.preprocessing.text import Tokenizer

label_tokenizer = Tokenizer()

# Fit on a text 
fit_text = "Tensorflow warriors are awesome people"
label_tokenizer.fit_on_texts(fit_text)

# Training Labels
train_labels = "Tensorflow warriors are great people"
training_label_list = np.array(label_tokenizer.texts_to_sequences(train_labels))

# Print the 
print(training_label_list)
print(type(training_label_list))
print(type(training_label_list[0]))

输出 -

2.2.0
[list([9]) list([1]) list([10]) list([5]) list([3]) list([2]) list([11])
 list([7]) list([3]) list([6]) list([]) list([6]) list([4]) list([2])
 list([2]) list([12]) list([3]) list([2]) list([5]) list([]) list([4])
 list([2]) list([1]) list([]) list([4]) list([2]) list([1]) list([])
 list([]) list([2]) list([1]) list([4]) list([9]) list([]) list([8])
 list([1]) list([3]) list([8]) list([7]) list([1])]
<class 'numpy.ndarray'>
<class 'list'>

解决方案-

将np.array 替换为np.hstack 将解决您的问题。您的 model.fit() 现在应该可以正常工作了。
否则，如果您正在寻找问题中的预期输出，training_label_list = label_tokenizer.texts_to_sequences(train_labels) 将为您提供一个列表列表。您可以使用np.array([np.array(i) for i in training_label_list]) 转换为数组数组。仅当您的列表列表包含具有相同数量元素的列表时，此方法才有效。

np.hstack 代码 - 解决方案中第 1 点的代码。

import numpy as np
import tensorflow as tf
print(tf.__version__)
from tensorflow.keras.preprocessing.text import Tokenizer

label_tokenizer = Tokenizer()

# Fit on a text 
fit_text = "Tensorflow warriors are awesome people"
label_tokenizer.fit_on_texts(fit_text)

# Training Labels
train_labels = "Tensorflow warriors are great people"
training_label_list = np.hstack(label_tokenizer.texts_to_sequences(train_labels))

# Print the 
print(training_label_list)
print(type(training_label_list))
print(type(training_label_list[0]))

输出 -

2.2.0
[ 9.  1. 10.  4.  2.  3. 11.  7.  2.  5.  5.  6.  3.  3. 12.  2.  3.  4.
  6.  3.  1.  3.  1.  6.  9.  8.  1.  2.  8.  7.  1.]
<class 'numpy.ndarray'>
<class 'numpy.float64'>

有问题的预期输出 - 解决方案中第 2 点的代码。

import numpy as np
import tensorflow as tf
print(tf.__version__)
from tensorflow.keras.preprocessing.text import Tokenizer

label_tokenizer = Tokenizer()

# Fit on a text 
fit_text = "Tensorflow warriors are awesome people"
label_tokenizer.fit_on_texts(fit_text)

# Training Labels
train_labels = "Tensorflow warriors are great people"
training_label_list = label_tokenizer.texts_to_sequences(train_labels)

# Print 
print(training_label_list)
print(type(training_label_list))
print(type(training_label_list[0]))

# To convert elements to array
training_label_list = np.array([np.array(i) for i in training_label_list])

# Print
print(training_label_list)
print(type(training_label_list))
print(type(training_label_list[0]))

输出 -

2.2.0
[[9], [1], [10], [4], [2], [3], [11], [7], [2], [5], [], [5], [6], [3], [3], [12], [2], [3], [4], [], [6], [3], [1], [], [], [3], [1], [6], [9], [], [8], [1], [2], [8], [7], [1]]
<class 'list'>
<class 'list'>
[array([9]) array([1]) array([10]) array([4]) array([2]) array([3])
 array([11]) array([7]) array([2]) array([5]) array([], dtype=float64)
 array([5]) array([6]) array([3]) array([3]) array([12]) array([2])
 array([3]) array([4]) array([], dtype=float64) array([6]) array([3])
 array([1]) array([], dtype=float64) array([], dtype=float64) array([3])
 array([1]) array([6]) array([9]) array([], dtype=float64) array([8])
 array([1]) array([2]) array([8]) array([7]) array([1])]
<class 'numpy.ndarray'>
<class 'numpy.ndarray'>

希望这能回答您的问题。快乐学习。

2020 年 2 月 6 日更新 - Anirudh_k07，根据我们的讨论，我查看了您的程序，在使用 np.hstack 作为标签后，您在 model.fit() 中遇到以下错误.

ValueError: Data cardinality is ambiguous:
  x sizes: 41063
  y sizes: 41429
Please provide data which shares the same first dimension.

您遇到此错误是因为很少有标签具有特殊字符，例如 - 和 /。因此，在执行np.hstack(label_tokenizer.texts_to_sequences(train_labels) 时，他们正在创建额外的行。您可以使用print(set(train_labels)) 打印唯一train_labels 列表。

这是我想说的要点 -

# These Labels have special character
train_labels = ['Bio-PesticidesandBio-Fertilizers','Old/SenileOrchardRejuvenation']
training_label_seq = np.hstack(label_tokenizer.texts_to_sequences(train_labels))
print("Two labels are converted to Five :",training_label_seq)

# These Labels are fine
train_labels = ['SoilHealthCard', 'PostHarvestPreservation', 'FertilizerUseandAvailability']
training_label_seq = np.hstack(label_tokenizer.texts_to_sequences(train_labels))
print("Three labels are remain three :",training_label_seq)

输出 -

Two labels are converted to Five : [17 18 19 51 52]
Three labels are remain three : [20 36  5]

所以请进行适当的预处理并消除train_labels 中的这些特殊字符，然后在标签上使用np.hstack(label_tokenizer.texts_to_sequences(train_labels))。之后您的 model.fit() 应该可以正常工作。

希望这能回答您的问题。快乐学习。

【讨论】：

@Anirudh_k07 - 这能回答你的问题吗？
使用第二种方法 => 无法将 NumPy 数组转换为张量（不支持的对象类型 numpy.ndarray）。
使用方法 1 我的形状正在改变，尺寸不再匹配
正如我们在答案中提到的，方法1是在model.fit()中使用的正确方法。当您在问题中陈述预期输出时，刚刚提到了方法 2。输入形状完全是一个不同的问题，取决于输入数据的形状和第一层中提到的输入形状。请分享这些信息，以便我们提供帮助。
您是否在Tokenizer 之后执行pad_sequences 以在输入中将序列填充到相同的长度？建议您查看此链接 - charon.me/posts/tf/tf3 以更好地了解 model.fit() 的标记化和文本数据准备。