当前位置：首页 > 科技 > 软件

走进Python Hash函数的魔幻世界：解密哈希算法与防碰撞技术

来源：责编：时间：2023-09-18 21:40:59 524观看

导读在计算机科学中，Hash函数（散列函数）是一种将输入数据映射到固定大小的散列值（哈希值）的函数。Python提供了强大而灵活的Hash函数，用于在各种应用中实现数据存储、数据校验、加密等功能。本文将从入门到精通介绍Python中Hash

在计算机科学中，Hash函数（散列函数）是一种将输入数据映射到固定大小的散列值（哈希值）的函数。Python提供了强大而灵活的Hash函数，用于在各种应用中实现数据存储、数据校验、加密等功能。本文将从入门到精通介绍Python中Hash函数的使用。

1.什么是Hash函数?

Hash函数是一种将输入(任意长度)映射到固定大小(通常较小)输出的算法。输出的固定长度称为哈希值。Hash函数有以下特性：

对于相同的输入，必须始终产生相同的哈希值。
不同的输入应该具有不同的哈希值（尽可能避免冲突）。
不可逆性：无法从哈希值推导出原始输入数据。
任意长度的输入应该产生固定长度的哈希值。

2.Python中的内置Hash函数

Python内置了一个hash()函数，用于计算对象的哈希值。不同类型的对象（如整数、字符串、元组等）具有不同的哈希函数实现。

# 使用hash()函数计算哈希值hash_value1 = hash(42)hash_value2 = hash("Hello, Python!")hash_value3 = hash((1, 2, 3))print(f"Hash value of 42: {hash_value1}")print(f"Hash value of 'Hello, Python!': {hash_value2}")print(f"Hash value of (1, 2, 3): {hash_value3}")

3. 常见的Hash算法

Python中常见的Hash算法包括MD5(Message Digest Algorithm 5)、SHA-1(Secure Hash Algorithm 1)和SHA-256等。这些算法被广泛用于数据校验、数据完整性验证和密码学中。首先，我们需要导入Python的hashlib模块：

import hashlib

(1) 使用MD5算法计算Hash值

MD5算法会将任意长度的输入转换为128位的哈希值。然而，由于MD5的安全性较差，不再推荐在安全敏感的场景中使用。

data = "Hello, MD5!"# 创建MD5对象md5_obj = hashlib.md5()# 更新哈希对象以使用字符串md5_obj.update(data.encode())# 获取MD5哈希值md5_hash = md5_obj.hexdigest()print(f"MD5 Hash of '{data}': {md5_hash}")

(2) 使用SHA-256算法计算Hash值SHA-256算法会将任意长度的输入转换为256位的哈希值，提供了更高的安全性，因此更适合用于数据校验和加密。

data = "Hello, SHA-256!"# 创建SHA-256对象sha256_obj = hashlib.sha256()# 更新哈希对象以使用字符串sha256_obj.update(data.encode())# 获取SHA-256哈希值sha256_hash = sha256_obj.hexdigest()print(f"SHA-256 Hash of '{data}': {sha256_hash}")

4.Hash在数据结构中的应用

在数据结构中，Hash函数常用于实现Hash表（散列表）。Hash表是一种用于存储键值对的数据结构，它能够在常数时间复杂度内执行插入、查找和删除操作。Python中，我们可以使用字典（Dictionary）来实现Hash表。字典是一种无序的键值对集合，键必须是可哈希的数据类型。

# 创建一个字典person = {    "name": "John Doe",    "age": 30,    "email": "john@example.com"}# 添加新的键值对person["city"] = "New York"# 获取键对应的值print("Name:", person["name"])print("Age:", person["age"])print("Email:", person["email"])print("City:", person.get("city", "City not found"))# 删除键值对del person["email"]# 检查键是否存在if "email" in person:    print("Email found.")else:    print("Email not found.")

5.使用Hash进行数据校验

Hash函数常用于数据完整性验证，即确认数据在传输或存储过程中是否被篡改。在这种应用中，我们先计算原始数据的哈希值，然后将其与接收到的数据的哈希值进行比较。

import hashlibdef calculate_hash(data):    # 创建SHA-256对象    sha256_obj = hashlib.sha256()    # 更新哈希对象以使用数据    sha256_obj.update(data)    # 获取SHA-256哈希值    return sha256_obj.digest()    # 原始数据original_data = b"Hello, Hash!"# 计算原始数据的哈希值original_hash = calculate_hash(original_data)# 模拟数据传输或存储过程中数据被篡改tampered_data = b"Hello, Tampered Hash!"# 计算篡改后数据的哈希值tampered_hash = calculate_hash(tampered_data)# 对比哈希值if original_hash == tampered_hash:    print("Data integrity verified: Data is unchanged.")else:    print("Data integrity compromised: Data has been tampered with.")

6.安全性和冲突

Hash函数的安全性是指对于给定的哈希值，很难找到与之对应的原始输入数据。如果不同的输入数据产生了相同的哈希值，就称为哈希冲突。通常情况下，Hash算法都被设计为抵抗预像攻击（Preimage Attack）和第二像攻击（Second Preimage Attack），即找到原始数据或找到与给定哈希值相同的其他数据。然而，完全避免哈希冲突是不可能的。好的Hash算法应该使冲突发生的概率尽可能小。

7.Hash表的实现

在前面的例子中，我们已经使用Python的字典来演示了Hash表的功能。现在，我们来简单了解一下Hash表的实现原理。Hash表的基本思想是通过Hash函数将键映射为索引，然后将键值对存储在对应索引的位置上。当我们需要访问某个键的值时，使用Hash函数找到对应的索引，从而快速获取值。Python的字典实现了Hash表的所有功能，它使用了开放定址法解决哈希冲突，并且根据需要动态调整表的大小以保持性能。

8.哈希集合和哈希映射

在Python中，除了字典（哈希映射），还有集合（哈希集合）这一数据类型。集合是一组无序且唯一的元素的集合。

# 创建一个哈希集合fruits = {"apple", "banana", "orange", "apple", "grape"}print("Fruits:", fruits)  # 输出：{'orange', 'banana', 'grape', 'apple'}

哈希集合的底层实现与哈希映射类似，只不过哈希集合只存储键而没有对应的值。

9.使用Hash进行加密

除了数据校验，Hash函数还广泛应用于密码学中的密码哈希。在存储用户密码时，我们通常不会直接存储原始密码，而是将其计算哈希值后存储。这样即使数据库泄漏，攻击者也无法轻易获取用户的真实密码。

import hashlibdef hash_password(password):    # 创建SHA-256对象    sha256_obj = hashlib.sha256()    # 更新哈希对象以使用密码    sha256_obj.update(password.encode())    # 获取SHA-256哈希值    return sha256_obj.hexdigest()    # 用户注册时设置密码user_password = "my_secret_password"hashed_password = hash_password(user_password)# 模拟登录验证input_password = input("Enter your password: ")input_hashed_password = hash_password(input_password)if input_hashed_password == hashed_password:    print("Login successful.")else:    print("Invalid password. Please try again.")

10.如何通过hash判断用户上传的文本文件是否重复

通过Hash来判断用户上传的文本文件是否重复，可以利用Hash值的唯一性特性。当用户上传一个文本文件时，我们首先计算该文件的Hash值，并将该Hash值与之前上传文件的Hash值进行对比。如果两个文件的Hash值相同，那么这两个文件很有可能是相同的，即重复上传。以下是一个简单的Python示例代码来实现这个功能：

import hashlibdef calculate_file_hash(file_path):    # 创建SHA-256对象    sha256_obj = hashlib.sha256()    # 以二进制方式读取文件内容，避免文本编码问题    with open(file_path, "rb") as file:        while chunk := file.read(8192):  # 每次读取8KB数据            sha256_obj.update(chunk)            # 获取文件的SHA-256哈希值    return sha256_obj.hexdigest()def is_file_duplicate(file_path, known_hashes):    file_hash = calculate_file_hash(file_path)    return file_hash in known_hashes    # 已知的Hash值集合，用于存储之前上传文件的Hash值known_hashes = set()# 假设用户上传了两个文本文件file1_path = "path/to/uploaded_file1.txt"file2_path = "path/to/uploaded_file2.txt"# 检查文件1是否重复if is_file_duplicate(file1_path, known_hashes):    print("File 1 is a duplicate.")else:    print("File 1 is unique.")    known_hashes.add(calculate_file_hash(file1_path))    # 检查文件2是否重复if is_file_duplicate(file2_path, known_hashes):    print("File 2 is a duplicate.")else:    print("File 2 is unique.")    known_hashes.add(calculate_file_hash(file2_path))

在上面的代码中，calculate_file_hash()函数用于计算文件的SHA-256哈希值。is_file_duplicate()函数用于判断文件是否重复，它会将文件的Hash值与之前已知的Hash值集合进行对比。请注意，如果用户上传大量文件，已知的Hash值集合可能会变得非常大。在实际应用中，你可能需要将已知的Hash值存储在数据库中，以便更高效地进行查找和比较。

结论Python的Hash函数提供了广泛的应用，从数据结构到数据校验、密码学等领域都有重要作用。了解和熟练掌握Hash函数的使用，对于每个Python开发工程师来说都是必备的技能。无论你是在构建数据结构，进行数据校验，还是在处理密码和加密方面，Hash函数都能帮助你实现高效、安全的解决方案。

本文链接：http://www.28at.com/showinfo-26-10440-0.html走进Python Hash函数的魔幻世界：解密哈希算法与防碰撞技术

声明：本网页内容旨在传播知识，若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。邮件：2376512515@qq.com

上一篇： Go语言进化之路：泛型的崛起与复用的新篇章

下一篇： Netty Promise和JavaScript Promise对比

标签：

热门焦点

谷歌KDD'23工作：如何提升推荐系统Ranking模型训练稳定性

谷歌在KDD 2023发表了一篇工作，探索了推荐系统ranking模型的训练稳定性问题，分析了造成训练稳定性存在问题的潜在原因，以及现有的一些提升模型稳定性方法的不足，并提出了一种新
只需五步，使用start.spring.io快速入门Spring编程

步骤1打开https://start.spring.io/，按照屏幕截图中的内容创建项目，添加 Spring Web 依赖项，并单击“生成”按钮下载 .zip 文件，为下一步做准备。请在进入步骤2之前进行解压。图
2023年，我眼中的字节跳动

此时此刻（2023年7月），字节跳动从未上市，也从未公布过任何官方的上市计划；但是这并不妨碍它成为中国最受关注的互联网公司之一。从2016-17年的抖音强势崛起，到2018年的“头腾
电视息屏休眠仍有网络上传爱奇艺被质疑“薅消费者羊毛”

记者丨宁晓敏见习生丨汗青出品丨鳌头财经（theSankei）前不久，爱奇艺发布了一份亮眼的一季报，不仅营收和会员营收创造历史最佳表现，其运营利润也连续6个月实现增长。自去年年初
网红炒股不为了赚钱，那就是耍流氓！

来源：首席商业评论6月26日高调宣布入市，网络名嘴大v胡锡进居然进军了股市。在一次财经媒体峰会上，几个财经圈媒体大佬就“胡锡进炒股是否知道认真报道”展开讨论。有
苹果、三星、惠普等暂停向印度出口笔记本和平板电脑

集微网消息，据彭博社报道，在8月3日印度突然禁止在没有许可证的情况下向印度进口电脑/平板及显示器等产品后，苹果、三星电子和惠普等大公司暂停向印度
到手价3099元起！iQOO Neo8 Pro今日首销：安卓性能最强旗舰

5月23日，iQOO如期举行了新品发布会，全新的iQOO Neo8系列也正式与大家见面，包含iQOO Neo8和iQOO Neo8 Pro两个版本，其中标准版搭载高通骁龙8+，而Pro版更
上海举办人工智能大会活动，建设人工智能新高地

人工智能大会在上海浦江两岸隆重拉开帷幕，人工智能新技术、新产品、新应用、新理念集中亮相。8月30日晚，作为大会的特色活动之一的上海人工智能发展盛典人工
Meta盲目扩张致超万人被裁，重金押注元宇宙而前景未明

图片来源：图虫创意日前，Meta创始人兼CEO 马克·扎克伯发布公开信，宣布Meta计划裁员超11000人，占其员工总数13%。他公开承认了自己的预判失误：“不仅

走进Python Hash函数的魔幻世界：解密哈希算法与防碰撞技术

1.什么是Hash函数?

2.Python中的内置Hash函数

3. 常见的Hash算法

(1) 使用MD5算法计算Hash值

4.Hash在数据结构中的应用

5.使用Hash进行数据校验

6.安全性和冲突

7.Hash表的实现

8.哈希集合和哈希映射

9.使用Hash进行加密

10.如何通过hash判断用户上传的文本文件是否重复

谷歌KDD'23工作：如何提升推荐系统Ranking模型训练稳定性

只需五步，使用start.spring.io快速入门Spring编程

2023年，我眼中的字节跳动

电视息屏休眠仍有网络上传爱奇艺被质疑“薅消费者羊毛”

网红炒股不为了赚钱，那就是耍流氓！

苹果、三星、惠普等暂停向印度出口笔记本和平板电脑

到手价3099元起！iQOO Neo8 Pro今日首销：安卓性能最强旗舰

上海举办人工智能大会活动，建设人工智能新高地

Meta盲目扩张致超万人被裁，重金押注元宇宙而前景未明

最新推荐

猜你喜欢

热门推荐

相关资讯