使用 .get_file() 将自定义数据加载到 TensorFlow答案

【问题标题】：Loading Custom Data into TensorFlow with .get_file()使用 .get_file() 将自定义数据加载到 TensorFlow
【发布时间】：2021-06-03 06:01:36
【问题描述】：

我对张量流和堆栈溢出比较陌生，所以请耐心等待。我的问题如下：“如何使用 .get_file() 方法和 pandas 读取方法将自定义数据集电子表格加载到 TensorFlow 中？”我搜索了 TensorFlow 网站、堆栈溢出和其他网站，但它们似乎要么使用在线公开可用的数据，要么使用我不理解的不同方法进行一些奇怪的导入。这是我目前拥有的：

import tensorflow as tf
import pandas as pd


CSV_COLUMN_NAMES = ['SepalLength', 'SepalWidth', 'PetalLength', 'PetalWidth', 'Species']
SPECIES = ['Setosa', 'Versicolor', 'Virginica']
# This is just some flower data online

train_path = tf.keras.utils.get_file(
    "iris_training.csv", "https://storage.googleapis.com/download.tensorflow.org/data/iris_training.csv")
test_path = tf.keras.utils.get_file(
    "iris_test.csv", "https://storage.googleapis.com/download.tensorflow.org/data/iris_test.csv")
    # I have a spreadsheet on my machine with the exact same data. I want to use those files instead

train = pd.read_csv(train_path, names=CSV_COLUMN_NAMES, header=0)
test = pd.read_csv(test_path, names=CSV_COLUMN_NAMES, header=0)
# Here I am reading a csv file inputting the data, labels, and defining header. Should I use pd.read_excel instead because the files on my machine are excel files?

train_y = train.pop('Species')
test_y = test.pop('Species') # removes answers/thing to predict and test against

非常感谢您的阅读！

【问题讨论】：

或者如果有办法通过谷歌数据集在线操作数据，那也可以。

标签： pandas tensorflow dataset tensorflow2.0

【解决方案1】：

如果我正确理解您的问题，您想加载自定义 CSV 文件吗？为此，您可以按如下方式使用 pandas：

df = pd.read_csv('file_name.csv', delimiter = ',', encoding='latin-1', header=0)

如果您使用的是 Jupyter Notebook 等 IDE，则需要在运行此命令之前将 csv 下载到 Jupyter Notebook。你可以这样做：

【讨论】：

你能解释一下分隔符和编码吗？另外，我没有使用这样的ide，我使用的是pycharm，这是否意味着我需要将excel文件移动到项目的文件夹中？非常感谢！！
@MasonChoi 分隔符和编码是函数 pd.read_csv() 的参数。它们是您在导入 csv 时可以添加的额外命令。在这种情况下，分隔符和编码只是将数据格式化为类似于 Excel 工作表的形式的方法。例如，在将分隔符设置为“，”时，您表示数据集中任何有逗号的地方都创建了另一个数据点。这是使用 pd.read_csv 导入文件时可以使用的所有功能的链接：pandas.pydata.org/pandas-docs/stable/reference/api/…。
对于pycharm，我不是很熟悉，但是我找到了这个链接jetbrains.com/help/pycharm/import-data.html。如果向下滚动，它会显示如何导入 csv 文件。如果这不起作用，那么您可以尝试查看是否只运行上面的命令而不直接将任何内容导入 PyCharm。