提高 mysql 导入速度

improve speed of mysql import

我有 22GB 的大型数据库。我曾经使用 mysqldump 命令以 gzip 格式进行备份。

当我提取 gz 文件时,它会生成 16.2GB

.sql 文件

当我尝试在我的本地服务器中导入数据库时​​,大约需要 48 小时 import.Is 有什么方法可以提高导入过程的速度?

另外我想知道是否需要进行任何硬件更改以提高性能。

当前系统配置

 Processor: 4th Gen i5
 RAM: 8GB

#update

my.cnf如下

#
# The MySQL database server configuration file.
#
# You can copy this to one of:
# - "/etc/mysql/my.cnf" to set global options,
# - "~/.my.cnf" to set user-specific options.
# 
# One can use all long options that the program supports.
# Run program with --help to get a list of available options and with
# --print-defaults to see which it would actually understand and use.
#
# For explanations see
# http://dev.mysql.com/doc/mysql/en/server-system-variables.html

# This will be passed to all mysql clients
# It has been reported that passwords should be enclosed with ticks/quotes
# escpecially if they contain "#" chars...
# Remember to edit /etc/mysql/debian.cnf when changing the socket location.
[client]
port        = 3306
socket      = /var/run/mysqld/mysqld.sock

# Here is entries for some specific programs
# The following values assume you have at least 32M ram

# This was formally known as [safe_mysqld]. Both versions are currently parsed.
[mysqld_safe]
socket      = /var/run/mysqld/mysqld.sock
nice        = 0

[mysqld]
#
# * Basic Settings
#
user        = mysql
pid-file    = /var/run/mysqld/mysqld.pid
socket      = /var/run/mysqld/mysqld.sock
port        = 3306
basedir     = /usr
datadir     = /var/lib/mysql
tmpdir      = /tmp
lc-messages-dir = /usr/share/mysql
skip-external-locking
#
# Instead of skip-networking the default is now to listen only on
# localhost which is more compatible and is not less secure.
bind-address        = 127.0.0.1
#
# * Fine Tuning
#
key_buffer      = 16M
max_allowed_packet  = 512M
thread_stack        = 192K
thread_cache_size       = 8
# This replaces the startup script and checks MyISAM tables if needed
# the first time they are touched
myisam-recover         = BACKUP
#max_connections        = 100
#table_cache            = 64
#thread_concurrency     = 10
#
# * Query Cache Configuration
#
query_cache_limit   = 4M
query_cache_size        = 512M
#
# * Logging and Replication
#
# Both location gets rotated by the cronjob.
# Be aware that this log type is a performance killer.
# As of 5.1 you can enable the log at runtime!
#general_log_file        = /var/log/mysql/mysql.log
#general_log             = 1
#
# Error log - should be very few entries.
#
log_error = /var/log/mysql/error.log
#
# Here you can see queries with especially long duration
#log_slow_queries   = /var/log/mysql/mysql-slow.log
#long_query_time = 2
#log-queries-not-using-indexes
#
# The following can be used as easy to replay backup logs or for replication.
# note: if you are setting up a replication slave, see README.Debian about
#       other settings you may need to change.
#server-id      = 1
#log_bin            = /var/log/mysql/mysql-bin.log
expire_logs_days    = 10
max_binlog_size         = 100M
#binlog_do_db       = include_database_name
#binlog_ignore_db   = include_database_name
#
# * InnoDB
#
# InnoDB is enabled by default with a 10MB datafile in /var/lib/mysql/.
# Read the manual for more InnoDB related options. There are many!
#
# * Security Features
#
# Read the manual, too, if you want chroot!
# chroot = /var/lib/mysql/
#
# For generating SSL certificates I recommend the OpenSSL GUI "tinyca".
#
# ssl-ca=/etc/mysql/cacert.pem
# ssl-cert=/etc/mysql/server-cert.pem
# ssl-key=/etc/mysql/server-key.pem



[mysqldump]
quick
quote-names
max_allowed_packet  = 512M

[mysql]
#no-auto-rehash # faster start of mysql but no tab completition

[isamchk]
key_buffer      = 512M

#
# * IMPORTANT: Additional settings that can override those from this file!
#   The files must end with '.cnf', otherwise they'll be ignored.
#
!includedir /etc/mysql/conf.d/

正在上传3天,目前已导入9.9GB。数据库有 MyISAMInnoDB table。我可以做些什么来提高导入性能?

我尝试使用 mysqldump 以 gz 格式分别导出每个 table 并通过执行以下代码的 PHP 脚本导入每个 table

$dir="./";
$files = scandir($dir, 1);
array_pop($files);
array_pop($files);
$tablecount=0;
foreach($files as $file){
    $tablecount++;
    echo $tablecount."     ";

    echo $file."\n";
    $command="gunzip < ".$file." | mysql -u root -pubuntu cms";

    echo exec($command);
}

你可以做的一件事是

SET AUTOCOMMIT = 0; SET FOREIGN_KEY_CHECKS=0

你也可以玩这些值

innodb_buffer_pool_size
innodb_additional_mem_pool_size
innodb_flush_method

my.cnf 中让你继续前进,但一般来说你应该看看 rest of innodb parameters 以及最适合你的东西。

这是我过去遇到的一个问题,我觉得我没有完全解决,但我希望我从一开始就把自己指向这个方向。本来可以节省我很多时间。

以所述方式进行转储和恢复将意味着 MySQL 必须在导入数据时完全重建索​​引。它还必须每次都解析数据。

如果您能以 MySQL 已经理解的格式复制数据文件,效率会更高。这样做的一个好方法是使用 Percona

中的 innobackupex

(开源并作为 XtraBackup available to download from here 的一部分分发)。

这将拍摄 MyISAM 表的快照,对于 InnoDB 表,它将复制底层文件,然后针对它们重放事务日志以确保状态一致。它可以在实时服务器上执行此操作而无需停机(我不知道这是否是您的要求?)

我建议您阅读文档,但要以最简单的形式进行备份,请使用:

$ innobackupex --user=DBUSER --password=DBUSERPASS /path/to/BACKUP-DIR/
$ innobackupex --apply-log /path/to/BACKUP-DIR/

如果数据在同一台机器上,那么innobackupex甚至有一个简单的恢复命令:

$ innobackupex --copy-back /path/to/BACKUP-DIR

实际执行备份的选项和方法有很多,因此我强烈建议您在开始之前仔细阅读文档。

作为速度参考,我们的慢速测试服务器(大约 600 IOPS)使用此方法可以在大约 4 小时内恢复 500 GB 的备份。

最后:您提到了可以采取哪些措施来加快导入速度。这主要取决于瓶颈是什么。通常,导入操作是 I/O 绑定的(您可以通过检查 io 等待来测试它)并且加速它的方法是使用更快的磁盘吞吐量 - 更快的磁盘本身,或者更多的磁盘一致。

缺少很多参数,要充分理解问题的原因。如:

  1. MySQL版本
  2. 磁盘类型和速度
  3. 启动前服务器上的可用内存 MySQL 服务器
  4. mysqldump 之前和期间的 iostat 输出。
  5. 首先,您用来创建转储文件的参数是什么。

还有很多。

所以我会尝试猜测您的问题出在磁盘上,因为我有 150 个 MySQL 实例,其中一个有 3TB 的数据,通常是磁盘问题

现在解决方案:

首先 - 您的 MySQL 未针对最佳性能进行配置。

您可以在 Percona 博客 post 上阅读要配置的最重要的设置: http://www.percona.com/blog/2014/01/28/10-mysql-settings-to-tune-after-installation/

特别检查参数:

innodb_buffer_pool_size 
innodb_flush_log_at_trx_commit
innodb_flush_method

如果您的问题是磁盘 - 从同一驱动器读取文件 - 会使问题变得更糟。

如果您的 MySQL 服务器因为没有足够的可用内存而开始交换 - 您的问题会变得更大。

您需要在恢复过程之前和恢复过程中对您的机器进行 运行 诊断才能弄清楚。

此外,我可以建议您使用另一种技术来执行重建任务,它比 mysqldump 更快。

它是 Percona Xtrabackup - http://www.percona.com/doc/percona-xtrabackup/2.2/

您将需要使用它创建备份,并从中恢复,或者直接从 运行ning 服务器使用流式传输选项重建。

此外,MySQL 版本从 5.5 开始 - InnoDB 的执行速度比 MyISAM 快。考虑将所有表格更改为它。

获得更多 RAM,获得更快的处理器,获得更快写入的 SSD。对插入进行批处理,使它们 运行 比一堆单独的插入更快。这是一个巨大的文件,需要时间。

方法 1:按照 fakedrake 的建议禁用外键。

设置自动提交 = 0; SET FOREIGN_KEY_CHECKS=0

方法 2:使用 BigDump,它会分块你的 mysqldump 文件,然后导入它。 http://www.ozerov.de/bigdump/usage/

问:你说你在上传?你是如何导入你的转储的?不是直接从服务器/命令行?

确保将“max_allowed_packet”变量增加到足够大。如果您有大量文本数据,这将非常有用。使用高性能硬件肯定会提高导入数据的速度。

mysql --max_allowed_packet=256M -u root -p < "database-file.sql"

我也遇到过同样的问题。我发现使用 mysqldump 输出到 CSV 文件(像这样):

mysqldump -u [username] -p -t -T/path/to/db/directory [database] --fields-enclosed-by=\" --fields-terminated-by=,

然后使用 mysql 客户端中的 LOAD DATA INFILE 查询导入该数据(像这样):

LOAD DATA FROM INFILE /path/to/db/directory/table.csv INTO TABLE FIELDS TERMINATED BY ',';

比仅执行包含数据的 SQL 查询快一个数量级。当然,它也取决于已经创建的表(和空表)。

您当然也可以先导出然后再导入空架构。

我不确定它是否适合您,但最好的方法是 Tata 和 AndySavage 已经说过的:从生产服务器拍摄数据文件的快照,然后将它们安装到您的使用 Percona 的 innobackupex 本地框。它将以一致的方式备份 InnoDb 表,并对 MyISAM 表执行写锁定。

在生产机器上准备完整备份:

http://www.percona.com/doc/percona-xtrabackup/2.1/innobackupex/preparing_a_backup_ibk.html

将备份文件复制(或在进行备份时通过 SSH 传输 - 更多信息 here)备份文件到本地计算机并恢复它们:

恢复备份:

http://www.percona.com/doc/percona-xtrabackup/2.1/innobackupex/restoring_a_backup_ibk.html

您可以在此处找到 innobackupex 的完整文档:http://www.percona.com/doc/percona-xtrabackup/2.1/innobackupex/innobackupex_script.html

恢复时间比读取 SQL 转储快得多。

[Vinbot 上面的回答][1] 中描述的方法使用 LOAD DATA INFILE 是我每天为本地桌面上的分析过程带来大约 1 Gb 的方法(我没有 DBA 或 CREATE TABLE服务器上的权限,但我在本地 mySQL).

mySQL 8.0.17 中引入的一项新功能,[mySQL 并行 Table 导入实用程序][2],将其提升到一个新的水平。

在配备 SATA SSD 的英特尔酷睿 I7-6820HQ 上,以前需要大约 15 分钟(大约 1 Gb)的 CSV table 文件导入现在需要 5:30。当我添加一个 nVME M.2 1Tb WD Black 驱动器(为旧台式机购买但证明不兼容)并将 mySQL 安装移动到该驱动器时,时间下降到 4 分 15 秒。

我在 运行 实用程序之前的 table 定义中定义了我的大部分索引。如果没有索引,加载速度会更快,但 post-load 索引最终会花费更多的总时间。这是有道理的,因为并行加载程序的 multi-core 功能扩展到索引创建。

我还在并行加载程序实用程序脚本中 ALTER INSTANCE DISABLE INNODB REDO_LOG(引入 8.0.21)。注意不要在完成批量加载后将其关闭的警告。我没有重新启用并以损坏的实例结束(不仅仅是 tables,而是整个实例)。我总是 double-write 关闭缓冲。

CPU 监视器显示该实用程序充分利用了所有 8 个核心。

完成并行加载程序后,它会返回 single-threaded mySQL(对于我的线性分析任务集,而不是 multi-user)。新的 nVME 将时间缩短了 10% 左右。该实用程序每天为我节省几分钟时间。

该实用程序允许您管理缓冲区大小和线程数。我匹配 CPU (8) 中的物理内核数量,这似乎是最佳选择。 (我最初来到这个线程是为了寻找关于配置并行加载器的优化技巧)。 [1]: [2]: https://dev.mysql.com/doc/mysql-shell/8.0/en/mysql-shell-utilities-parallel-table.html

我不得不导入与您几乎相同大小的转储 (15.8GB),使用以下设置我花了 2.2 小时才完成:

my.cnf:

innodb_buffer_pool_size = 12G
innodb_log_buffer_size = 256M
innodb_log_file_size = 2G
innodb_write_io_threads = 32
innodb_flush_log_at_trx_commit = 0
innodb_doublewrite = 0

我的系统规格是:

CPU: core i5 7th gen
RAM: 16GB
HDD: 500GB

我已经根据我的系统规格配置了这些设置,因为你的系统有 8GB 内存,所以你可以像这样配置它:

innodb_buffer_pool_size = 5G
innodb_log_buffer_size = 256M
innodb_log_file_size = 1G
innodb_write_io_threads = 16
innodb_flush_log_at_trx_commit = 0
innodb_doublewrite = 0

你可以试试看哪种配置更适合你。另外不要忘记重新启动 mysql 以应用更改。