【问题标题】:Using BULK INSERT to map columns使用 BULK INSERT 映射列
【发布时间】:2011-11-10 20:37:25
【问题描述】:

我有一个包含 600 万行的 CSV 文件。每行由相同的格式组成,例如/

I,h,q,q,3,A,5,Q,3,[,5,Q,8,c,3,N,3,E,4,F,4,g,4,I,V,9000,0000001-100,G9999999990001800000000000001,G9999999990000001100PDNELKKMMCNELRQNWJ010, , , , , , ,D,Z

我在一个表中有 2 列。

第一列应该是 CSV 中的字段 27,第二列应该是 CSV 文件中的整行。

我尝试设置格式文件,但无法正常工作。

甚至可以进行这种映射吗?

这是我所拥有的:

BULK INSERT Staging FROM 'C:\Data.txt' 
   WITH 
   (
      FIELDTERMINATOR =',',
      ROWTERMINATOR ='\n',
      KEEPNULLS,
      formatfile='C:\format.fmt'
   )

这是我的格式文件

9.0
2
1       SQLCHAR       0       40     ","     27     Col27               SQL_Latin1_General_CP1_CI_AS
2       SQLCHAR       0       200     "\r\n"  1     Col1               SQL_Latin1_General_CP1_CI_AS

就比较而言,我在 SQLite 中进行了这项工作,需要 2 分 35 秒。

【问题讨论】:

  • 有可能吗?是的。也许您可以将您尝试过的内容包括在内,并且有人可能会发现问题。
  • 现在我看到了您要执行的操作,我认为您必须使用临时表,正如 Chris Townsend 所建议的那样。

标签: sql sql-server sql-server-2008 sql-server-express bulkinsert


【解决方案1】:

您可以通过多种方式破解这个难题,但我的做法是通过动态 SQL 将整个 csv 文件批量插入到临时表中:

CREATE TABLE #BulkLoadData(
    RecordData NVARCHAR(max)
)


SET @SQL = 'BULK INSERT #BulkLoadData FROM ''' + @SourceFileFullPath + ''' '
SET @SQL = @SQL + 'WITH (FORMATFILE = ''' + @UPXInputFileBulkLoadFormat + 'UPXInputFileBulkLoadFormat.xml'', TABLOCK, ROWS_PER_BATCH = 2500 ) '

EXECUTE (@SQL)

然后你可以像这样将数据插入到目标表中:

INSERT INTO dbo.TargetTable
SELECT dbo.fnParseString(27, ',', RecordData), RecordData

你需要像这样创建一个解析函数:

CREATE FUNCTION [dbo].[fnParseString]
(
    @Section SMALLINT,
    @Delimiter CHAR,
    @Text VARCHAR(MAX)
)
RETURNS VARCHAR(8000)
AS

BEGIN
DECLARE @startindex NUMERIC(18,0),
     @length NUMERIC(18,0),
     @FieldPosition INT

 SET @FieldPosition = ABS(@Section) - 1
 SET @startindex = 0


 WHILE @FieldPosition != 0
 BEGIN
    SET @FieldPosition = @FieldPosition - 1
     SET @startindex = CHARINDEX(@Delimiter, @Text, @startindex + 1) 
 END     


 SET @Text = SUBSTRING(@Text, @startindex + 1, LEN(@Text) - @startindex)
 SET @Text = SUBSTRING(@Text, 0, CHARINDEX(@Delimiter, @Text))

 RETURN @Text
END

希望对您有所帮助!如果您需要有关格式文件的帮助,请告诉我。

格式文件内容如下:

<?xml version="1.0"?>
<BCPFORMAT xmlns="http://schemas.microsoft.com/sqlserver/2004/bulkload/format" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance">
  <RECORD>
    <FIELD ID="1" xsi:type="CharTerm" TERMINATOR="\n" MAX_LENGTH="8000" COLLATION="SQL_Latin1_General_CP1_CI_AS"/>
  </RECORD>
  <ROW>
    <COLUMN SOURCE="1" NAME="RecordData" xsi:type="SQLVARYCHAR"/>
  </ROW>
</BCPFORMAT>

【讨论】:

  • 认为我需要有关格式文件的帮助,因为整行将是一列。我已经发布了我的格式文件,但不确定整行列是否正确。我确实考虑过这种方法,但认为插入/更新带有子集的表的时间太长了
  • 您还可以将一列(RecordData)直接批量插入到目标表中,然后运行填充“其他”列的更新。
  • 我刚刚在临时表中进行了批量插入,它比 SQLite 花费了更长的时间。对吗?
猜你喜欢
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2013-03-29
  • 1970-01-01
  • 2021-07-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
相关资源
最近更新 更多