当前位置：首页 > 科技 > 软件

实现百万级数据从Excel导入到数据库的方式

来源：责编：时间：2024-04-09 17:21:06 284观看

导读高手回答场景分析这个案例实际上涉及到多个方面，需要我们系统地分析。让我们首先看看，从Excel中读取百万级数据并将其插入数据库时可能遇到的问题：内存溢出风险加载如此庞大的Excel数据可能导致内存溢出，需要注意内存管理

高手回答

场景分析

这个案例实际上涉及到多个方面，需要我们系统地分析。让我们首先看看，从Excel中读取百万级数据并将其插入数据库时可能遇到的问题：

内存溢出风险

加载如此庞大的Excel数据可能导致内存溢出，需要注意内存管理。

性能瓶颈

处理百万级数据的读取和插入操作可能很耗时，性能优化至关重要。

异常处理策略

读取和导入过程中会有各种潜在问题，我们需妥善处理各类异常情况。

内存溢出问题

处理百万级数据，直接加载到内存中显然不现实。解决之道在于采用流式读取，分批处理数据。

在技术选型上，选择EasyExcel是明智之举。它专为处理大数据量和复杂Excel文件进行了优化。EasyExcel在解析Excel时，不会将整个文件一次性加载到内存中，而是按行从磁盘逐个读取数据并解析。

性能问题

针对百万级数据的处理，单线程显然效率低下。提升性能的关键在于多线程处理。

多线程应用涉及两个场景：一是多线程读取文件，另一个是多线程实现数据插入。这涉及到生产者-消费者模式，多线程读取并多线程插入，以最大程度提升整体性能。

在数据插入方面，除了利用多线程，还应当结合数据库的批量插入功能以进一步提升速度。

错误处理

在文件读取和数据库写入过程中，可能遇到诸多问题，如数据格式错误、不一致性和重复数据等。

因此，应分两步处理。首先进行数据检查，在插入操作前检查数据格式等问题，然后在插入过程中处理异常情况。

处理方式多种多样，可通过事务回滚或记录日志。一般不推荐直接回滚操作，而是自动重试，若尝试多次仍无效，则记录日志，随后重新插入数据。

此外，在这一过程中，需考虑数据重复问题，可在Excel中设定若干字段为数据库唯一约束。遇到数据冲突时，可覆盖、跳过或报错处理。根据实际业务情况选择合适的处理方式，一般情况下，跳过并记录日志是相对合理的选择。

解决思路

所以，总体方案如下：

利用EasyExcel进行Excel数据读取，因其逐行读取数据而非一次性加载整个文件至内存。为提高并发效率，将百万级数据分布在不同的工作表中，利用线程池和多线程同时读取各个工作表。在读取过程中，借助EasyExcel的ReadListener进行数据处理。

在处理过程中，并非每条数据都直接操作数据库，以免对数据库造成过大压力。设定一个批次大小，例如每1000条数据，将从Excel中读取的数据临时存储在内存中（可使用List实现）。每读取1000条数据后，执行数据的批量插入操作，可简单地借助mybatis实现批量插入。

此外，在处理过程中，需要考虑并发问题，因此我们将使用线程安全的队列来存储内存中的临时数据，如ConcurrentLinkedQueue。

经验证，通过上述方案，读取并插入100万条数据的Excel所需时间约为100秒，不超过2分钟。

具体实现

为了提升并发处理能力，我们将百万级数据存储在同一个Excel文件的不同工作表中，然后通过EasyExcel并发地读取这些工作表数据。

EasyExcel提供了ReadListener接口，允许在每批数据读取后进行自定义处理。我们可以基于这一功能实现文件的分批读取。

pom依赖

首先，需要添加以下依赖：

<dependencies>    <!-- EasyExcel -->    <dependency>        <groupId>com.alibaba</groupId>        <artifactId>easyexcel</artifactId>        <version>latest_version</version>    </dependency>    <!-- 数据库连接和线程池 -->    <dependency>        <groupId>org.springframework.boot</groupId>        <artifactId>spring-boot-starter-data-jpa</artifactId>    </dependency></dependencies>

并发读取多个sheet

然后实现并发读取多个sheet的代码：

@Servicepublic class ExcelImporterService {    @Autowired    private MyDataService myDataService;        public void doImport() {        // Excel文件的路径        String filePath = "users/paidaxing/workspace/excel/test.xlsx";        // 需要读取的sheet数量        int numberOfSheets = 20;        // 创建一个固定大小的线程池，大小与sheet数量相同        ExecutorService executor = Executors.newFixedThreadPool(numberOfSheets);        // 遍历所有sheets        for (int sheetNo = 0; sheetNo < numberOfSheets; sheetNo++) {            // 在Java lambda表达式中使用的变量需要是final            int finalSheetNo = sheetNo;            // 向线程池提交一个任务            executor.submit(() -> {                // 使用EasyExcel读取指定的sheet                EasyExcel.read(filePath, MyDataModel.class, new MyDataModelListener(myDataService))                         .sheet(finalSheetNo) // 指定sheet号                         .doRead(); // 开始读取操作            });        }        // 启动线程池的关闭序列  executor.shutdown();        // 等待所有任务完成，或者在等待超时前被中断        try {            executor.awaitTermination(Long.MAX_VALUE, TimeUnit.NANOSECONDS);        } catch (InterruptedException e) {            // 如果等待过程中线程被中断，打印异常信息            e.printStackTrace();        }    }}

这段代码通过创建一个固定大小的线程池来并发读取一个包含多个sheets的Excel文件。每个sheet的读取作为一个单独的任务提交给线程池。

我们在代码中用了一个MyDataModelListener，这个类是ReadListener的一个实现类。当EasyExcel读取每一行数据时，它会自动调用我们传入的这个ReadListener实例的invoke方法。在这个方法中，我们就可以定义如何处理这些数据。

MyDataModelListener还包含doAfterAllAnalysed方法，这个方法在所有数据都读取完毕后被调用。这里可以执行一些清理工作，或处理剩余的数据。

ReadListener

接下来，我们来实现这个我们的ReadListener：

import com.alibaba.excel.context.AnalysisContext;import com.alibaba.excel.read.listener.ReadListener;import org.springframework.transaction.annotation.Transactional;import java.util.ArrayList;import java.util.List;// 自定义的ReadListener，用于处理从Excel读取的数据public class MyDataModelListener implements ReadListener<MyDataModel> {    // 设置批量处理的数据大小    private static final int BATCH_SIZE = 1000;    // 用于暂存读取的数据，直到达到批量大小    private List<MyDataModel> batch = new ArrayList<>();        private MyDataService myDataService;    // 构造函数，注入MyBatis的Mapper    public MyDataModelListener(MyDataService myDataService) {        this.myDataService = myDataService;    }    // 每读取一行数据都会调用此方法    @Override    public void invoke(MyDataModel data, AnalysisContext context) {        //检查数据的合法性及有效性        if (validateData(data)) {            //有效数据添加到list中            batch.add(data);        } else {            // 处理无效数据，例如记录日志或跳过        }                // 当达到批量大小时，处理这批数据        if (batch.size() >= BATCH_SIZE) {            processBatch();        }    }        private boolean validateData(MyDataModel data) {        // 调用mapper方法来检查数据库中是否已存在该数据        int count = myDataService.countByColumn1(data.getColumn1());        // 如果count为0，表示数据不存在，返回true；否则返回false        if(count == 0){         return true;        }                // 在这里实现数据验证逻辑        return false;    }    // 所有数据读取完成后调用此方法    @Override    public void doAfterAllAnalysed(AnalysisContext context) {        // 如果还有未处理的数据，进行处理        if (!batch.isEmpty()) {            processBatch();        }    }    // 处理一批数据的方法    private void processBatch() {        int retryCount = 0;        // 重试逻辑        while (retryCount < 3) {            try {                // 尝试批量插入                myDataService.batchInsert(batch);                // 清空批量数据，以便下一次批量处理                batch.clear();                break;            } catch (Exception e) {                // 重试计数增加                retryCount++;                // 如果重试3次都失败，记录错误日志                if (retryCount >= 3) {                    logError(e, batch);                }}

通过自定义MyDataModelListener，在读取Excel文件过程中可实现数据处理。每读取一条数据后，将其加入列表，在列表累积达到1000条时，执行一次数据库批量插入操作。若插入失败，则进行重试；若多次尝试仍失败，则记录错误日志。

批量插入

这里批量插入，用到了MyBatis的批量插入，代码实现如下：

import org.apache.ibatis.annotations.Mapper;import java.util.List;@Mapperpublic interface MyDataMapper {    void batchInsert(List<MyDataModel> dataList);    int countByColumn1(String column1);}

mapper.xml文件：

<insert id="batchInsert" parameterType="list">    INSERT INTO paidaxing_test_table_name (column1, column2, ...)    VALUES     <foreach collection="list" item="item" index="index" separator=",">        (#{item.column1}, #{item.column2}, ...)    </foreach></insert><select id="countByColumn1" resultType="int">    SELECT COUNT(*) FROM your_table WHERE column1 = #{column1}</select>

本文链接：http://www.28at.com/showinfo-26-82361-0.html实现百万级数据从Excel导入到数据库的方式

声明：本网页内容旨在传播知识，若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。邮件：2376512515@qq.com

上一篇：您必须了解的 21 个 HTML 技巧

下一篇： Rust命名规范的最佳实践，你学会了吗？

标签：

热门焦点

MIX Fold3包装盒泄露新机本月登场

小米的全新折叠屏旗舰MIX Fold3将于本月发布，近日该机的真机包装盒在网上泄露。从图上来看，新的MIX Fold3包装盒在外观设计方面延续了之前的方案，变化不大，这也是目前小米旗舰
一加首款折叠屏！一加Open渲染图出炉：罕见单手可握小尺寸

8月5日消息，此前就有爆料称，一加首款折叠屏手机将会在第三季度上市，如今随着时间临近，新机的各种消息也开始浮出水面。据悉，这款新机将会被命名为“On
学习JavaScript的10个理由...

作者 | Simplilearn编译 | 王瑞平当你决心学习一门语言的时候，很难选择到底应该学习哪一门，常用的语言有Python、Java、JavaScript、C/CPP、PHP、Swift、C#、Ruby、Objective-
JavaScript学习 -AES加密算法

引言在当今数字化时代，前端应用程序扮演着重要角色，用户的敏感数据经常在前端进行加密和解密操作。然而，这样的操作在网络传输和存储中可能会受到恶意攻击的威胁。为了确保数据
一篇文章带你了解 CSS 属性选择器

属性选择器对带有指定属性的 HTML 元素设置样式。可以为拥有指定属性的 HTML 元素设置样式，而不仅限于 class 和 id 属性。一、了解属性选择器CSS属性选择器提供了一种简单而
华为HarmonyOS 4升级计划公布：首批34款机型今日开启公测

8月4日消息，今天下午华为正式发布了HarmonyOS 4系统，在更流畅的前提下，还带来了不少新功能，UI设计也有变化，会让手机焕然一新。华为宣布，首批机型将会在
首发天玑9200+ iQOO Neo8系列发布首销售价2299元起

2023年5月23日晚，iQOO Neo8系列正式发布。其中，Neo系列首款Pro之作——iQOO Neo8 Pro强悍登场，限时售价3099元起；价位段最强性能手机iQOO Neo8同期上市
联想YOGA 16s 2022笔记本将要推出，屏幕支持触控功能

联想此前宣布，将于11月2日19:30召开联想秋季轻薄新品发布会，推出联想 YOGA 16s 2022 笔记本等新品。官方称，YOGA 16s 2022 笔记本将搭载 16 英寸屏幕，并且是一

实现百万级数据从Excel导入到数据库的方式

高手回答

场景分析

内存溢出问题

性能问题

错误处理

解决思路

具体实现

pom依赖

并发读取多个sheet

ReadListener

批量插入

MIX Fold3包装盒泄露新机本月登场

一加首款折叠屏！一加Open渲染图出炉：罕见单手可握小尺寸

学习JavaScript的10个理由...

JavaScript学习 -AES加密算法

一篇文章带你了解 CSS 属性选择器

重估百度丨“晚熟”的百度云，能等到春天吗？

华为HarmonyOS 4升级计划公布：首批34款机型今日开启公测

首发天玑9200+ iQOO Neo8系列发布首销售价2299元起

联想YOGA 16s 2022笔记本将要推出，屏幕支持触控功能

最新推荐

猜你喜欢

热门推荐

相关资讯