C#、EF 和 LINQ:将大 (7Mb) 记录插入 SQL 服务器时速度很慢
C#, EF & LINQ : slow at inserting large (7Mb) records into SQL Server
这个问题有一个长版和一个短版。
短版:
为什么 LINQ 和 EF 在将单个大 (7 Mb) 记录插入远程 SQL 服务器数据库时都这么慢?
这里是长版(包含一些关于解决方法的信息,可能对其他读者有用):
以下所有示例代码 都可以 运行 没问题,但由于我的用户在欧洲,而我们的数据中心位于美国,所以速度太慢了。但是,如果我 运行 在美国的 Virtual PC 上使用相同的代码,它会立即 运行。 (不,遗憾的是我的公司希望将所有数据保留在内部,所以我不能使用 Azure、亚马逊云服务等)
我的公司应用程序中有不少涉及 reading/writing 从 Excel 到 SQL 服务器的数据,而且通常,我们想要保存 [= SQL 服务器 table.
中的 92=] 文件
这非常简单,只需从本地文件中读取原始数据,然后将其保存到记录中。
private int SaveFileToSQLServer(string filename)
{
// Read in an Excel file, and store it in a SQL Server [External_File] record.
//
// Returns the ID of the [External_File] record which was added.
//
DateTime lastModifed = System.IO.File.GetLastWriteTime(filename);
byte[] fileData = File.ReadAllBytes(filename);
// Create a new SQL Server database record, containing our file's raw data
// (Note: the table has an IDENTITY Primary-Key, so will generate a ExtFile_ID for us.)
External_File newFile = new External_File()
{
ExtFile_Filename = System.IO.Path.GetFileName(filename),
ExtFile_Data = fileData,
ExtFile_Last_Modified = lastModifed,
Update_By = "mike",
Update_Time = DateTime.UtcNow
};
dc.External_Files.InsertOnSubmit(newFile);
dc.SubmitChanges();
return newFile.ExtFile_ID;
}
是的,没有惊喜,而且工作正常。
但是,我注意到对于大型 Excel 文件 (7-8Mb),插入一条(大型!)记录的代码将花费 40-50 秒到 运行。我把它放在后台线程中,一切正常,但是,当然,如果用户退出我的应用程序,这个进程就会被终止,这会导致问题。
作为测试,我尝试用代码替换此函数来执行此操作:
- 将文件复制到 SQL 服务器计算机上的共享目录中
- 调用存储过程将原始数据 (blob) 读入同一个 table
使用这种方法,整个过程只需3-4秒。
如果您有兴趣,这是我用来将文件(必须存储在 SQL 服务器计算机本身的文件夹中)上传到数据库记录的存储过程:
CREATE PROCEDURE [dbo].[UploadFileToDatabase]
@LocalFilename nvarchar(400)
AS
BEGIN
-- By far, the quickest way to do this is to copy the file onto the SQL Server machine, then call this stored
-- procedure to read the raw data into a [External_File] record, and link it to the Pricing Account record.
--
-- EXEC [dbo].[UploadPricingToolFile] 'D:\ImportData\SomeExcelFile.xlsm'
--
-- Returns: -1 if something went wrong (eg file didn't exist) or the ID of our new [External_File] record
--
-- Note that the INSERT will go wrong, if the user doesn't have "bulkadmin" rights.
-- "You do not have permission to use the bulk load statement."
-- EXEC master..sp_addsrvrolemember @loginame = N'GPP_SRV', @rolename = N'bulkadmin'
--
SET NOCOUNT ON;
DECLARE
@filename nvarchar(300), -- eg "SomeFilename.xlsx" (without the path)
@SQL nvarchar(2000),
@New_ExtFile_ID int
-- Extract (just) the filename from our Path+Filename parameter
SET @filename = RIGHT(@LocalFilename,charindex('\',reverse(@LocalFilename))-1)
SET @SQL = 'INSERT INTO [External_File] ([ExtFile_Filename], [ExtFile_Data]) '
SET @SQL = @SQL + 'SELECT ''' + @Filename + ''', *
SET @SQL = @SQL + ' FROM OPENROWSET(BULK ''' + @LocalFilename +''', SINGLE_BLOB) rs'
PRINT convert(nvarchar, GetDate(), 108) + ' Running: ' + @SQL
BEGIN TRY
EXEC (@SQL)
SELECT @New_ExtFile_ID = @@IDENTITY
END TRY
BEGIN CATCH
PRINT convert(nvarchar, GetDate(), 108) + ' An exception occurred.'
SELECT -1
RETURN
END CATCH
PRINT convert(nvarchar, GetDate(), 108) + ' Finished.'
-- Return the ID of our new [External_File] record
SELECT @New_ExtFile_ID
END
此代码的关键在于它构建了一个 SQL 命令,如下所示:
INSERT INTO [External_File] ([ExtFile_Filename], [ExtFile_Data])
SELECT 'SomeFilename.xlsm', * FROM OPENROWSET(BULK N'D:\ImportData\SomeExcelFile.xlsm', SINGLE_BLOB) rs
.. 而且,由于要上传的数据库和文件都在同一台机器上,这 运行 几乎是即时的。
正如我所说,总体而言,将文件复制到 SQL 服务器计算机上的文件夹需要 3-4 秒,而 运行 此存储过程需要 40-50 秒将 C# 代码与 LINQ 或 EF 一起使用。
正在将 blob 数据从 SQL 服务器导出到外部文件
当然,反之亦然
首先,我编写了一些 C#/LINQ 代码来加载一个(7Mb!)数据库记录并将其二进制数据写入原始文件。 运行.
大约需要 30-40 秒
但是如果我先将 SQL 服务器数据导出到一个文件(保存在 SQL 服务器计算机上)..
EXEC master..xp_cmdshell 'BCP "select ef.ExtFile_Data FROM [External_File] ef where ExtFile_ID = 585" queryout "D:\ImportData\SomeExcelFile.xslx" -T -N'
...然后将文件从 SQL 服务器文件夹复制到用户文件夹,然后再次 运行 几秒钟。
这是我的问题:为什么 LINQ 和 EF 在将单个大记录插入数据库方面都如此糟糕?
我假设延迟(我们在欧洲这里和我们在美国的数据中心之间的距离)是造成延迟的主要原因,但奇怪的是,一个沼泽标准的文件副本竟然如此之多更快。
我是不是漏掉了什么?
显然,我已经找到了解决这些问题的方法,但它们涉及向我们的 SQL 服务器计算机和 SQL 服务器计算机上的共享文件夹添加一些额外的权限,而我们的 DBA 真的不知道不喜欢 g运行 诸如“xp_cmdshell
”...
之类的权利
几个月后...
这周我又遇到了同样的问题,并尝试了 Kevin H 的建议,即使用 Bulk-Insert 将大 (6Mb) 记录插入 SQL 服务器。
使用批量插入,插入 6Mb 记录大约需要 90 秒,即使我们的数据中心在 6,000 英里之外。
因此,故事的寓意是:插入非常大的数据库记录时,避免使用常规 SubmitChanges()
命令,并坚持使用批量插入。
您可以尝试使用探查器来查看 Entity Framework 对插入做了什么。例如,如果它从您的 table 中选择数据,则可能需要很长时间才能通过网络传输 return 数据,您可能不会在本地注意到这一点。
我发现从 c# 将大量数据(记录数和记录大小)加载到 sql 服务器的最佳方法是使用 SqlBulkCopy class .即使您只插入 1 条记录,您仍可能会受益于此更改。
要使用批量复制,只需创建一个与您的 table 结构相匹配的数据 table。然后像这样调用代码。
using (SqlConnection destinationConnection = new SqlConnection(connectionString))
using (SqlBulkCopy bulkCopy = new SqlBulkCopy(destinationConnection))
{
bulkCopy.DestinationTableName = "External_File";
bulkCopy.WriteToServer(dataTable);
}
这个问题有一个长版和一个短版。
短版:
为什么 LINQ 和 EF 在将单个大 (7 Mb) 记录插入远程 SQL 服务器数据库时都这么慢?
这里是长版(包含一些关于解决方法的信息,可能对其他读者有用):
以下所有示例代码 都可以 运行 没问题,但由于我的用户在欧洲,而我们的数据中心位于美国,所以速度太慢了。但是,如果我 运行 在美国的 Virtual PC 上使用相同的代码,它会立即 运行。 (不,遗憾的是我的公司希望将所有数据保留在内部,所以我不能使用 Azure、亚马逊云服务等)
我的公司应用程序中有不少涉及 reading/writing 从 Excel 到 SQL 服务器的数据,而且通常,我们想要保存 [= SQL 服务器 table.
中的 92=] 文件这非常简单,只需从本地文件中读取原始数据,然后将其保存到记录中。
private int SaveFileToSQLServer(string filename)
{
// Read in an Excel file, and store it in a SQL Server [External_File] record.
//
// Returns the ID of the [External_File] record which was added.
//
DateTime lastModifed = System.IO.File.GetLastWriteTime(filename);
byte[] fileData = File.ReadAllBytes(filename);
// Create a new SQL Server database record, containing our file's raw data
// (Note: the table has an IDENTITY Primary-Key, so will generate a ExtFile_ID for us.)
External_File newFile = new External_File()
{
ExtFile_Filename = System.IO.Path.GetFileName(filename),
ExtFile_Data = fileData,
ExtFile_Last_Modified = lastModifed,
Update_By = "mike",
Update_Time = DateTime.UtcNow
};
dc.External_Files.InsertOnSubmit(newFile);
dc.SubmitChanges();
return newFile.ExtFile_ID;
}
是的,没有惊喜,而且工作正常。
但是,我注意到对于大型 Excel 文件 (7-8Mb),插入一条(大型!)记录的代码将花费 40-50 秒到 运行。我把它放在后台线程中,一切正常,但是,当然,如果用户退出我的应用程序,这个进程就会被终止,这会导致问题。
作为测试,我尝试用代码替换此函数来执行此操作:
- 将文件复制到 SQL 服务器计算机上的共享目录中
- 调用存储过程将原始数据 (blob) 读入同一个 table
使用这种方法,整个过程只需3-4秒。
如果您有兴趣,这是我用来将文件(必须存储在 SQL 服务器计算机本身的文件夹中)上传到数据库记录的存储过程:
CREATE PROCEDURE [dbo].[UploadFileToDatabase]
@LocalFilename nvarchar(400)
AS
BEGIN
-- By far, the quickest way to do this is to copy the file onto the SQL Server machine, then call this stored
-- procedure to read the raw data into a [External_File] record, and link it to the Pricing Account record.
--
-- EXEC [dbo].[UploadPricingToolFile] 'D:\ImportData\SomeExcelFile.xlsm'
--
-- Returns: -1 if something went wrong (eg file didn't exist) or the ID of our new [External_File] record
--
-- Note that the INSERT will go wrong, if the user doesn't have "bulkadmin" rights.
-- "You do not have permission to use the bulk load statement."
-- EXEC master..sp_addsrvrolemember @loginame = N'GPP_SRV', @rolename = N'bulkadmin'
--
SET NOCOUNT ON;
DECLARE
@filename nvarchar(300), -- eg "SomeFilename.xlsx" (without the path)
@SQL nvarchar(2000),
@New_ExtFile_ID int
-- Extract (just) the filename from our Path+Filename parameter
SET @filename = RIGHT(@LocalFilename,charindex('\',reverse(@LocalFilename))-1)
SET @SQL = 'INSERT INTO [External_File] ([ExtFile_Filename], [ExtFile_Data]) '
SET @SQL = @SQL + 'SELECT ''' + @Filename + ''', *
SET @SQL = @SQL + ' FROM OPENROWSET(BULK ''' + @LocalFilename +''', SINGLE_BLOB) rs'
PRINT convert(nvarchar, GetDate(), 108) + ' Running: ' + @SQL
BEGIN TRY
EXEC (@SQL)
SELECT @New_ExtFile_ID = @@IDENTITY
END TRY
BEGIN CATCH
PRINT convert(nvarchar, GetDate(), 108) + ' An exception occurred.'
SELECT -1
RETURN
END CATCH
PRINT convert(nvarchar, GetDate(), 108) + ' Finished.'
-- Return the ID of our new [External_File] record
SELECT @New_ExtFile_ID
END
此代码的关键在于它构建了一个 SQL 命令,如下所示:
INSERT INTO [External_File] ([ExtFile_Filename], [ExtFile_Data])
SELECT 'SomeFilename.xlsm', * FROM OPENROWSET(BULK N'D:\ImportData\SomeExcelFile.xlsm', SINGLE_BLOB) rs
.. 而且,由于要上传的数据库和文件都在同一台机器上,这 运行 几乎是即时的。
正如我所说,总体而言,将文件复制到 SQL 服务器计算机上的文件夹需要 3-4 秒,而 运行 此存储过程需要 40-50 秒将 C# 代码与 LINQ 或 EF 一起使用。
正在将 blob 数据从 SQL 服务器导出到外部文件
当然,反之亦然
首先,我编写了一些 C#/LINQ 代码来加载一个(7Mb!)数据库记录并将其二进制数据写入原始文件。 运行.
大约需要 30-40 秒但是如果我先将 SQL 服务器数据导出到一个文件(保存在 SQL 服务器计算机上)..
EXEC master..xp_cmdshell 'BCP "select ef.ExtFile_Data FROM [External_File] ef where ExtFile_ID = 585" queryout "D:\ImportData\SomeExcelFile.xslx" -T -N'
...然后将文件从 SQL 服务器文件夹复制到用户文件夹,然后再次 运行 几秒钟。
这是我的问题:为什么 LINQ 和 EF 在将单个大记录插入数据库方面都如此糟糕?
我假设延迟(我们在欧洲这里和我们在美国的数据中心之间的距离)是造成延迟的主要原因,但奇怪的是,一个沼泽标准的文件副本竟然如此之多更快。
我是不是漏掉了什么?
显然,我已经找到了解决这些问题的方法,但它们涉及向我们的 SQL 服务器计算机和 SQL 服务器计算机上的共享文件夹添加一些额外的权限,而我们的 DBA 真的不知道不喜欢 g运行 诸如“xp_cmdshell
”...
几个月后...
这周我又遇到了同样的问题,并尝试了 Kevin H 的建议,即使用 Bulk-Insert 将大 (6Mb) 记录插入 SQL 服务器。
使用批量插入,插入 6Mb 记录大约需要 90 秒,即使我们的数据中心在 6,000 英里之外。
因此,故事的寓意是:插入非常大的数据库记录时,避免使用常规 SubmitChanges()
命令,并坚持使用批量插入。
您可以尝试使用探查器来查看 Entity Framework 对插入做了什么。例如,如果它从您的 table 中选择数据,则可能需要很长时间才能通过网络传输 return 数据,您可能不会在本地注意到这一点。
我发现从 c# 将大量数据(记录数和记录大小)加载到 sql 服务器的最佳方法是使用 SqlBulkCopy class .即使您只插入 1 条记录,您仍可能会受益于此更改。
要使用批量复制,只需创建一个与您的 table 结构相匹配的数据 table。然后像这样调用代码。
using (SqlConnection destinationConnection = new SqlConnection(connectionString))
using (SqlBulkCopy bulkCopy = new SqlBulkCopy(destinationConnection))
{
bulkCopy.DestinationTableName = "External_File";
bulkCopy.WriteToServer(dataTable);
}