【发布时间】:2021-11-18 11:28:00
【问题描述】:
我收到了一个 .txt 文件,其中包含 10000 行,其中包含电影的标题、imdb 评级、票数、类型和其他信息。我们应该将它导入到带有熊猫的数据框中,但我不知道如何告诉熊猫在哪里正确分隔列。比如第一行是电影《肖申克的救赎》,第二行是《低俗小说》。 .txt 中的信息没有逗号分隔,只有空格。所以 Pandas 将“The”“Shawshank”“Redemption”作为单独的字段阅读。我应该如何告诉 Pandas 如何正确分解 .txt 文件?我现在的代码是:
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity = "all"
import pandas as pd
import numpy as np
labels = ['imdbID','title','year','score','votes','runtime','genres']
df = pd.read_csv('imdb_top_10000.txt', sep = ' ')
我收到此错误代码:
ParserError:标记数据时出错。 C 错误:预计第 10 行中有 6 个字段,看到 12
【问题讨论】:
-
请在问题中输入文件内容的一部分,可以是5行。这将帮助那些想帮助你的人。
-
Plis,你能放一些文件吗?例如。
-
更好地显示文件中的示例数据。也许有一些方法可以识别分离。如果你生成了这个文件,那么最好在创建这个文件的程序中更改代码。