当前位置：首页 > 科技 > 软件

数据工程中的单元测试完全指南

来源：责编：时间：2023-09-20 21:51:38 465观看

导读在数据工程领域中，经常被忽视的一项实践是单元测试。许多人可能认为单元测试仅仅是一种软件开发方法论，但事实远非如此。随着我们努力构建稳健、无错误的数据流水线和SQL数据模型，单元测试在数据工程中的价值变得越来越

在数据工程领域中，经常被忽视的一项实践是单元测试。许多人可能认为单元测试仅仅是一种软件开发方法论，但事实远非如此。随着我们努力构建稳健、无错误的数据流水线和SQL数据模型，单元测试在数据工程中的价值变得越来越清晰。

本文带你深入探索如何将这些成熟的软件工程实践应用到数据工程中。

1 单元测试的重要性

在数据工程的背景下，采用单元测试可以确保您的数据和业务逻辑的准确性，进而产出高质量的数据，获得您的数据分析师、科学家和决策者对数据的信任。

2 单元测试数据流水线

数据流水线通常涉及复杂的数据抽取、转换和加载（ETL）操作序列，出错的可能性很大。为了对这些操作进行单元测试，我们将流水线拆分为单个组件，并对每个组件进行独立验证。

以一个简单的流水线为例，该流水线从CSV文件中提取数据，通过清除空值来转换数据，然后将其加载到数据库中。以下是使用pandas的基于Python的示例：

import pandas as pdfrom sqlalchemy import create_engine# 加载CSV文件的函数def load_data(file_name):    data = pd.read_csv(file_name)    return data# 清理数据的函数def clean_data(data):    data = data.dropna()    return data# 将数据保存到SQL数据库的函数def save_data(data, db_string, table_name):    engine = create_engine(db_string)    data.to_sql(table_name, engine, if_exists='replace')# 运行数据流水线data = load_data('data.csv')data = clean_data(data)save_data(data, 'sqlite:///database.db', 'my_table')

为了对这个流水线进行单元测试，我们使用像pytest这样的库为每个函数编写单独的测试。

在这个示例中，有三个主要的函数：load_data、clean_data和save_data。我们会为每个函数编写测试。对于load_data和save_data，需要设置一个临时的CSV文件和SQLite数据库，可以使用pytest库的fixture功能来实现。

import osimport pandas as pdimport pytestfrom sqlalchemy import create_engine, inspect# 使用pytest fixture来设置临时的CSV文件和SQLite数据库@pytest.fixturedef csv_file(tmp_path):    data = pd.DataFrame({        'name': ['John', 'Jane', 'Doe'],        'age': [34, None, 56]  # Jane的年龄缺失    })    file_path = tmp_path / "data.csv"    data.to_csv(file_path, index=False)    return file_path@pytest.fixturedef sqlite_db(tmp_path):    file_path = tmp_path / "database.db"    return 'sqlite:///' + str(file_path)def test_load_data(csv_file):    data = load_data(csv_file)        assert 'name' in data.columns    assert 'age' in data.columns    assert len(data) == 3def test_clean_data(csv_file):    data = load_data(csv_file)    data = clean_data(data)        assert data['age'].isna().sum() == 0    assert len(data) == 2  # Jane的记录应该被删除def test_save_data(csv_file, sqlite_db):    data = load_data(csv_file)    data = clean_data(data)    save_data(data, sqlite_db, 'my_table')        # 检查数据是否保存正确    engine = create_engine(sqlite_db)    inspector = inspect(engine)    tables = inspector.get_table_names()        assert 'my_table' in tables        loaded_data = pd.read_sql('my_table', engine)    assert len(loaded_data) == 2  # 只应该存在John和Doe的记录

这里是另一个例子：假设您有一个从CSV文件中加载数据并将其中的“日期”列从字符串转换为日期时间的流水线：

def convert_date(data, date_column):    data[date_column] = pd.to_datetime(data[date_column])    return data

为上述函数编写的单元测试将传入具有已知日期字符串格式的DataFrame。然后，它将验证函数是否正确将日期转换为日期时间对象，并且它是否适当处理无效格式。

我们为上述场景编写一个单元测试。该测试首先使用有效日期检查函数，断言输出DataFrame中的“date”列确实是datetime类型，并且值与预期相符。然后，它检查在给出无效日期时，函数是否正确引发了ValueError。

import pandas as pdimport pytestdef test_convert_date():    # 使用有效日期进行测试    test_data = pd.DataFrame({        'date': ['2021-01-01', '2021-01-02']    })        converted_data = convert_date(test_data.copy(), 'date')        assert pd.api.types.is_datetime64_any_dtype(converted_data['date'])    assert converted_data.loc[0, 'date'] == pd.Timestamp('2021-01-01')    assert converted_data.loc[1, 'date'] == pd.Timestamp('2021-01-02')    # 使用无效日期进行测试    test_data = pd.DataFrame({        'date': ['2021-13-01']  # 这个日期是无效的，因为没有第13个月    })        with pytest.raises(ValueError):        convert_date(test_data, 'date')

以下是最后一个例子：假设您有一个加载数据并进行聚合的流水线，计算每个地区的总销售额：

def aggregate_sales(data):    aggregated = data.groupby('region').sales.sum().reset_index()    return aggregated

为该函数编写的单元测试将向其传递具有各个地区销售数据的DataFrame。测试将验证函数是否正确计算每个地区的总销售额。

我们为该函数编写一个单元测试。在这个测试中，我们首先向aggregate_sales函数传递一个具有已知销售数据的DataFrame，并检查它是否正确聚合了销售额。然后，向其传递一个没有销售数据的DataFrame，并检查它是否正确将这些销售额聚合为0。这样可以确保函数正确处理典型情况和边缘情况。

以下是使用pytest库为aggregate_sales函数编写单元测试的示例：

import pandas as pdimport pytestdef test_aggregate_sales():    # 各个地区的销售数据    test_data = pd.DataFrame({        'region': ['North', 'North', 'South', 'South', 'East', 'East', 'West', 'West'],        'sales': [100, 200, 300, 400, 500, 600, 700, 800]    })        aggregated = aggregate_sales(test_data)        assert aggregated.loc[aggregated['region'] == 'North', 'sales'].values[0] == 300    assert aggregated.loc[aggregated['region'] == 'South', 'sales'].values[0] == 700    assert aggregated.loc[aggregated['region'] == 'East', 'sales'].values[0] == 1100    assert aggregated.loc[aggregated['region'] == 'West', 'sales'].values[0] == 1500    # 没有销售数据的测试    test_data = pd.DataFrame({        'region': ['North', 'South', 'East', 'West'],        'sales': [0, 0, 0, 0]    })        aggregated = aggregate_sales(test_data)        assert aggregated.loc[aggregated['region'] == 'North', 'sales'].values[0] == 0    assert aggregated.loc[aggregated['region'] == 'South', 'sales'].values[0] == 0    assert aggregated.loc[aggregated['region'] == 'East', 'sales'].values[0] == 0    assert aggregated.loc[aggregated['region'] == 'West', 'sales'].values[0] == 0

本文转载自微信公众号「Java学研大本营」，可以通过以下二维码关注。转载本文请联系公众号。

本文链接：http://www.28at.com/showinfo-26-10690-0.html数据工程中的单元测试完全指南

声明：本网页内容旨在传播知识，若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。邮件：2376512515@qq.com

上一篇： ZGC关键技术分析

下一篇：团队协作开发中，五个强大的VS Code插件

标签：

热门焦点

7月安卓手机性能榜：红魔8S Pro再夺榜首

7月份的手机市场风平浪静，除了红魔和努比亚带来了两款搭载骁龙8Gen2领先版处理器的新机之外，别的也想不到有什么新品了，这也正常，通常6月7月都是手机厂商修整的时间，进入8月份之
28个SpringBoot项目中常用注解，日常开发、求职面试不再懵圈

前言在使用SpringBoot开发中或者在求职面试中都会使用到很多注解或者问到注解相关的知识。本文主要对一些常用的注解进行了总结，同时也会举出具体例子，供大家学习和参考。注解
Temu起诉SHEIN，跨境电商战事升级

来源 | 伯虎财经（bohuFN）作者 | 陈平安日前据外媒报道，拼多多旗下跨境电商平台Temu正对竞争对手SHEIN提起新诉讼，诉状称Shein“利用市场支配力量强迫服装厂商与之签订独家
破圈是B站头上的紧箍咒

来源 | 光子星球撰文 | 吴坤谚编辑 | 吴先之每年的暑期档都少不了瞄准追剧女孩们的古偶剧集，2021年有优酷的《山河令》，2022年有爱奇艺的《苍兰诀》，今年却轮到小破站抓住了追
7月4日见！iQOO 11S官宣：“鸡血版”骁龙8 Gen2+200W快充加持

上半年已接近尾声，截至目前各大品牌旗下的顶级旗舰都已悉数亮相，而下半年即将推出的顶级旗舰已经成为了数码圈爆料的主流，其中就包括全新的iQOO 11S系
3699元！iQOO Neo8 Pro顶配版今日首销：1TB UFS 4.0同价位唯一

5月23日，iQOO推出了全新的iQOO Neo8系列，包含iQOO Neo8和iQOO Neo8 Pro两个版本，其中标准版搭载高通骁龙8+，而Pro版更是首发搭载了联发科天玑9200+旗舰
华为举行春季智慧办公新品发布会首次推出电子墨水屏平板

北京时间2月27日晚，华为在巴塞罗那举行春季智慧办公新品发布会，在海外市场推出之前已经在中国市场上市的笔记本、平板、激光打印机等办公产品，并首次推出搭载
电博会与软博会实现"线下+云端"的双线融合

在本次“电博会”与“软博会”双展会利好条件的加持下，既可以发挥展会拉动人流、信息流、资金流实现快速交互流动的作用，继而推动区域经济良性发展；又可以聚
外交部：美方应停止在网络安全问题上不负责任地指责他国

　中国外交部今天（16日）举行例行记者会。会上，有记者问，美国情报官员称，他们正在阻拦来自中国以及其他国家的黑客获取相关科研成果。中方对此有何评论？对此

数据工程中的单元测试完全指南

1 单元测试的重要性

2 单元测试数据流水线

7月安卓手机性能榜：红魔8S Pro再夺榜首

28个SpringBoot项目中常用注解，日常开发、求职面试不再懵圈

Temu起诉SHEIN，跨境电商战事升级

破圈是B站头上的紧箍咒

7月4日见！iQOO 11S官宣：“鸡血版”骁龙8 Gen2+200W快充加持

3699元！iQOO Neo8 Pro顶配版今日首销：1TB UFS 4.0同价位唯一

华为举行春季智慧办公新品发布会首次推出电子墨水屏平板

电博会与软博会实现"线下+云端"的双线融合

外交部：美方应停止在网络安全问题上不负责任地指责他国

最新推荐

猜你喜欢

热门推荐

相关资讯