首页 程序笔记 MySQL批量插入的分析

MySQL批量插入的分析

1、背景

  我们在工作中基本都会碰到批量插入数据到DB的情况,这个时候我们就需要根据不同的情况选择不同的策略。

  只要了解sql,就应该知道,向table中插入数据的命令,至少有insert和replace这两种,使用哪一种命令,和自己的业务有关;

  本文就针对insert进行批量插入进行阐述,然后根据自身经历分享几个注意事项。

2、两种方式的对比

  即使是insert命令,他也是有多种插入数据的方式的。但这里就不深入了解底层insert是怎么做的了,那个已经超出本人的知识范畴,哈哈。

  但是我们可以大致了解MySQL的执行命令时的初略步骤:

  1、首先建立连接(Socke连接);

  2、Client将要执行的sql命令通过TCP连接,发给Server;

  Client,可以理解为我们用各种语言写的项目程序(客户端);

  Server,就是数据库Server,负责执行。

3、数据库Server收到数据(sql)后,会解析sql,然后进行处理;

4、将处理结果返回客户端。

有了上面的流程,我们就开始说insert的两种插入方式区别,下面是测试使用的表:

CREATE TABLE `user` (
  `id` 		int(11) 	NOT NULL AUTO_INCREMENT COMMENT '编号',
  `name` 	varchar(40) NOT NULL COMMENT '姓名',
  `gender` 	tinyint(1) 	DEFAULT '0' COMMENT '性别:1-男;2-女',
  `addr` 	varchar(40) NOT NULL COMMENT '住址',
  `status` 	tinyint(1) 	DEFAULT '1' COMMENT '是否有效:1-有效;2-无效',
  PRIMARY KEY (`id`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4

2.1、一次插入一条数据

  最初学习数据库,都知道使用insert可以实现数据插入,比如向user表中插入一条数据:

mysql> insert into user (id, name, gender, addr, status) values (1, 'aaa', 1, 'beijing', 1);
Query OK, 1 row affected (0.00 sec)

mysql> select * from user;
+----+------+--------+---------+--------+
| id | name | gender | addr    | status |
+----+------+--------+---------+--------+
|  1 | aaa  |      1 | beijing |      1 |
+----+------+--------+---------+--------+
1 row in set (0.00 sec)

  这是最简单的方式了,当然这是在命令行里面,当然命令行也是一种客户端;

  如果是客户端我们代码的程序,比如Java利用jdbc来执行sql,也是传给MySQL Server上面执行的insert命令;

  上面的insert命令的确是能插入数据数据的,也就是每执行一条insert命令,就需要通过网络将命令发送给MySQL Server解析运行,如果有上千万行数据需要插入,那么是不是需要进行上千万次连接传输呢?虽然现在可以使用连接池,但是传输的次数是是躲不掉的。

  使用insert一次插入一条数据的这种方式,绝大多数都是使用这种方式,来进行少量的数据插入!!!

  如果用这种方式进行大量数据的入库,哈哈,花的时间可以喝好多杯咖啡了。

2.2、一次插入多条数据

  上面已经说到了,一次插入一条数据的主要缺陷是:需要建立N次连接,然后传输N连接,因为连接池的存在,可以忽略连接耗时,但是传输N次的耗时,不可小觑,所以我们可以从这方面进行考虑优化。

  比如,一个工人负责将100块砖从A点搬到B点,每次搬1块砖,花费1个单位时间,那么搬完100块砖,需要100单位时间(不考虑来回);

  如果一次搬5块砖,那么只需要20单位时间,是不是快了很多呢?

  同理,我们使用insert也可以进行批量插入数据:

insert into user 
	(id, name, gender, addr, status) 
values 
	(2, 'bbb', 0, 'shanghai', 1),
	(3, 'ccc', 1, 'hangzhou', 0),
	(4, 'ddd', 0, 'chongqing', 0);

  这样就可以一次性插入3条数据了。

  对于客户端来说,只需要进行拼接sql语句即可,然后将拼接后的sql一次性发给MySQL Server就可以了。

  注意,SQL要使用拼接,而不是说预处理!!!

  预处理的作用是避免频繁编译sql、sql注入;使用预处理来进行批量插入时,使用循环每次设置占位符值,这个和一次插入一条命令是等价的,如下面的示例,其实执行了3次1条记录插入:

<?php
    $pdo = new PDO("mysql:host=localhost;dbname=test","root","root");
    $sql = "insert into user (id, name, gender, addr, status) values (?,?,?,?,?)";
    $stmt = $pdo->prepare($sql);

    $stmt->execute(array("5", "eee", "1", "PEK", 1));
    $stmt->execute(array("6", "fff", "0", "SHA", 0));
    $stmt->execute(array("7", "ggg", "1", "LNL", 1));
 ?>

  正确的方式:

<?php
    $pdo = new PDO("mysql:host=localhost;dbname=test","root","root");
    $sql = 'insert into user (id, name, gender, addr, status) values ';

    // 可以使用循环进行sql拼接
    $sql .= '("5", "eee", "1", "PEK", 1),';
    $sql .= '("6", "fff", "0", "SHA", 0),';
    $sql .= '("7", "ggg", "1", "LNL", 1)'; 

    $pdo->exec($sql);
 ?>

  如果是Java可以使用原生JDBC,进行上面一样拼接,就不写代码了;

  如果Java使用Mybatis的话,可以使用<foreach>标签,

<insert id="batchInsert" parameterType="list">
    insert ignore into user (id, name, gender, addr, status) values
    <foreach collection="list" item="item" separator=",">
        (
	        #{item.id,jdbcType=INT}, 
	        #{item.name,jdbcType=VARCHAR}, 
	        #{item.gender,jdbcType=BIT},
	        #{item.addr,jdbcType=VARCHAR}, 
	        #{item.status,jdbcType=BIT}
        )
    </foreach>
</insert>

3、拓展一下

  批量insert,每次insert的量是多少合适呢?

  以上面工人搬砖的例子,一次搬5块砖,需要20单位时间,那岂不是1次搬100块砖,只需要1单位时间了?是这个逻辑,但是这样是不行的,需要看实际情况!!!

  这个实际情况是什么呢?不好说,比如一个比较强壮的工人,一次100块砖,不是难事;如果工人没那么强转,一次100块砖,可能直接把工人给干倒了,1块砖也搬不了,这时可不止100单位时间。

  另外,放砖的B点,是不是能一次接收100块砖,这也是一个问题。

 

  上面的例子,类比到insert批量插入,就需要注意:

  1、要根据情况设置一次批量插入的数据量,数据量大,在网络中传输的事件也越久,出现问题的可能也越大;

  2、除了网络,还要看机器配置,MySQL Server配置差了,sql写得再好,效率也不会太高;

  3、另外批量这个词,是指一次插入多条数据,我们除了要注意数据的条数,还要注意一条数据的大小,举个例子:比如一条记录的数据量有1M,10条记录的数据量就10M,这时一次插100条,100M数据,嘿嘿,你试试看!!所以,一次插入多少数据,一定要经过多次测试后再决定,别人1次插100条最优,你可能1次插10条才最优,没有绝对的最优值(批量插入未必总是比单条插入效率高)。

  4、数据库有个参数,max_allowed_packet,也就是每一个包(sql)命令大小,默认是1M,那么sql的长度大于1M就会报错。你可能会说,咱们把这个参数设成10M,100M不就行了???对呀,没毛病,但你是DBA吗?你有权限吗?即使调大这一个参数,你要知道影响的可不止你这一张表,而是整个DB Server,那影响的可是很多库,很多表。

  5、批量插入并不是越快越好,我们可能希望越快越好,这很正常,节省时间嘛。但是我们一定要知道,数据库分读写,有集群,这就意味着,需要同步!!!如果有分库分表分区的情况,如果短时间内插入的数据量太大,数据库同步可能就会比较了,读写数据不一致的情况在所难免了,可能会因为一张表的批量插入,影响整个DB服务组的同步。

3

站心网

1、背景 我们在工作中基本都会碰到批量插入数据到DB的情况,这个时候我们就需要根据不同的情况选择不同的策..

为您推荐

服务器安装数据库MySQL8.0版本,打包导入到MySQL5.6失败的结局方式

最近数据库升级为mysql8.0,在使用过程中发现一些问题,首先mysql8.0有很多新特性,对服务器配置要求较高,所有就考虑把数据库版本切换到MySQL5.6,经过多出测试处理发现在8.0数据库打包的数据导入到5.6总是报错,或..

MySQL查询建表规范

因为之前一直再查找一些比较好的数据库规范,以方便在开发时连接 MySQL 进行查询/建表的时候,能根据规范来执行,达到提高 查询速度 / 执行 SQL 的性能 和提升 MySQL 的整体性能, 这里主要是存放一些比较好的一些数..

必须掌握的MySQL优化指南(2)

4|0表分区MySQL 在 5.1 版引入的分区是一种简单的水平拆分,用户需要在建表的时候加上分区参数,对应用是透明的无需修改代码。对用户来说,分区表是一个独立的逻辑表,但是底层由多个物理子表组成,实现分区的代码实..

mysql分表简单介绍

一、Mysql分表的原因1、当一张的数据达到几百万时,你查询一次所花的时间会变多,如果有联合查询的话,我想有可能会停在那儿了。分表的目的就在于此,减小数据库的负担,缩短查询时间。2、mysql中有一种机制是表锁定..

MySQL创建用户与授权

一, 创建用户: 命令:CREATE USER'username'@'host' IDENTIFIED BY 'password'; 说明:username - 你将创建的用户名, host - 指定该用户在哪个主机上可以登陆,如果是本地用户可用localhost, ..

必须掌握的MySQL优化指南(1)

1.单表优化除非单表数据未来会一直不断上涨,否则不要一开始就考虑拆分,拆分会带来逻辑、部署、运维的各种复杂度。一般以整型值为主的表在千万级以下,字符串为主的表在五百万以下是没有太大问题的。而事实上很多时..

2025年做网站还能赚钱吗?

在2025年,互联网的格局虽然不断演变,但建立网站仍然蕴藏着赚钱的潜力。关键在于如何巧妙地定位,以及如何充分利用最新的技术和趋势。首先,我们需要明确网站的类型和盈利模式。内容型网站,如果运营者擅长某一领域..

DISC测试,让你轻松读懂领导

我们常说“性格决定命运”,企业家的性格决定着企业的命运,而身处企业中的我们,如何和不同性格的老板相处,则直接关系到我们的职场命运。企业家作为掌舵者,他的行为自然决定了整条大船如何行进。行为来自于习惯,..

一个简单的大转盘抽奖程序(附.NetCore Demo源码)

最近闲下来在做一些demo,现在讲一下做的一个简单的大转盘抽奖demo,前端lottery,layui,后端.net core,sqlsugar,数据库用的mysql1.前端实现:前端用的是基于开源的lottery,其中有些改动的,使得前端可以自适应pc端..

网站统计中的访问信息收集的前端实现

网站数据统计分析工具是网站站长和运营人员经常使用的一种工具,比较常用的有谷歌分析、百度统计和腾讯分析等等。所有这些统计分析工具的第一步都是网站访问数据的收集。目前主流的数据收集方式基本都是基于javascri..

EntityFramework(EF) 控制并发和事务防止超卖

在使用 Entity Framework (EF) 时,实现加减库存并避免超卖的关键是正确地控制并发和事务。以下是实现方法:解决超卖的关键点事务管理:使用事务确保加减库存和库存校验是一个原子操作。悲观锁:通过数据库层面的锁..

使用SuperWebSocket实现Web消息推送

在大部分Web系统中,我们可能遇到需要向客户端推送消息的需求。SuperWebSocket第三方库能让我们轻松的完成任务。SuperWebSocket第三方库可以从网上下载,不过通过Visual Studio Nuget安装更快。引用SuperWebSocket相..

MySQL查看、修改字符集及Collation

前言在使用MySQL的过程中,可能会出现初始设计使用的字符集或Collation不符合当前需求的情况。如使用utf8的表(MySQL中的utf8即utf8mb3)要支持emoji,而utf8mb3不支持emoji(emoji需要4个字节,而utf8mb3最长只支持..

2025年编程语言需求排行榜

随着技术的不断进步和市场需求的变化,2025年,哪些编程语言将成为企业的首选?在全球,由于技术短缺、人口变化以及对新技能的需求,编程语言的选择和需求也在迅速变化。本文将为您揭示未来最受企业青睐的编程语言,..

.NET C# 使用Hook钩子实现全局监听键盘和鼠标

C# 是一种面向对象的编程语言,具有丰富的类库和工具支持,适用于各种类型的应用程序开发。Windows 提供了一种称为"钩子"(Hook)的机制,允许拦截并处理系统级别的事件,如键盘按键和鼠标移动。通过结合 C# 和 Hook..

帝国CMS8.0即将发布2025年1月18号闪亮登场

一、新增支持PostgreSQL数据库和国产数据库:(支持国产数据库如:国产华为高斯(openGauss)、国产金仓数据库(kingbase)等)1、为了适配其它数据库,所有数据表查询限制数量单独函数返回,并保存在各数据库操作类文件里..

ABP.Net Core使用教程(一)启动模版项目

只需要简单的3步:1,到官网下载模版项目 https://aspnetboilerplate.com/Templates2,用VS2017打开,将Web.Host设置为启动项3,在程序包管理器控制台(Nuget控制台)里设定默认项目为EntityFrameworkCore,执行命令..

.net 通过 HttpClient 下载文件同时报告进度的方法

通过 HttpClient 的 ContentLength 很多时候都可以拿到下载的内容的长度,通过 ReadAsync 可以返回当前读到的长度,将读取到的长度加起来就是已经下载的长度看起来很简单,于是直接给代码private static async Task ..

MySQL SQL调优之索引

本篇记录MySQL的索引知识学习笔记,也方便自己以后查找复习一、索引的概念MySQL官方给出的索引定义:索引(Index)是帮助MySQL高效获取数据的数据结构。所以说索引就是排好序的快速查找数据结构二、索引分类MySQL的索..

C#中的线程安全的集合ConcurrentQueue使用示例

在多线程编程中,如何安全地在不同线程之间共享数据是一个非常重要的问题。C# 为我们提供了一些专门设计的线程安全集合,其中之一就是 ConcurrentQueue<T>。它是一种先进先出(FIFO)的数据结构,专门为多线程环境设..

发表回复

返回顶部