【发布时间】:2017-07-12 09:57:13
【问题描述】:
我正在尝试将保存在GCS 中的csv 文件的数据加载到BigQuery 中。 csv 文件采用UTF-8 格式,包含 7 列。我已经在数据方案中指定了这些列(所有字符串和可为空),并且我检查了 csv 文件的内容,看起来不错。
当我尝试加载数据时,出现以下错误:
遇到的错误太多。 (错误代码:无效) gs://gvk_test_bucket/sku_category.csv:CSV 表引用列 位置 1,但从位置开始的行:1750384 仅包含 1 列。 (错误代码:无效)
奇怪的是该文件只包含 680228 行。
当我检查allow jagged lines 选项时,表格正在生成,但只有第一列填充了整个逗号分隔的字符串。
有人可以帮我吗?
示例行
119470,Fashion,Fashion Own,Menswear,Menswear Brands Other,Formal Shirts,Long Sleeve Shirts
【问题讨论】:
-
您检查过文件中的第 1750384 行吗?如果将允许的错误数设置为 1,它会加载吗?你能分享一个示例行吗?
-
是的,该行是空的,该文件仅包含 680228 行。没有选项可以说明文件包含多少行,对吗?我已将数字设置为 1,然后设置为 100,但随后它将为另一行返回相同的错误。
-
这是一个示例行:119470,Fashion,Fashion Own,Menswear,Menswear Brands Other,Formal Shirts,Long Sleeve Shirts
-
在这种情况下,最好通过编辑问题本身来澄清问题,而不是添加 cmets。在编辑器中将一行或两行剪切/粘贴到 代码示例 中会很好地工作。顺便说一句.. 上一次这样的事情发生在我身上时,我在实际领域中有一个逗号,这使作品变得混乱。
-
感谢您的评论。我已将允许的错误数设置为 1000000000,然后表中将填充数据。有没有办法避免在最后一条记录之后出现空行错误?此外,我还看到,即使 Allow Quoted Newlines 设置为 true,包含逗号的引用值也不包含在表中。
标签: csv google-bigquery google-cloud-storage