当前位置：首页 > 科技 > 软件

基于 Python 和 HuggingFace Transformers 的目标检测

来源：责编：时间：2024-07-05 09:07:44 237观看

导读YOLO！如果你对机器学习感兴趣，这个术语一定不陌生。确实，You Only Look Once已经成为过去几年中目标检测的默认方法之一。受到卷积神经网络取得的进展推动，许多版本的目标检测方法已经被创建。然而，近年来，一个竞争对手出现

YOLO！如果你对机器学习感兴趣，这个术语一定不陌生。确实，You Only Look Once已经成为过去几年中目标检测的默认方法之一。受到卷积神经网络取得的进展推动，许多版本的目标检测方法已经被创建。然而，近年来，一个竞争对手出现在了视野中——那就是在计算机视觉中使用基于Transformer的模型。更具体地说，是使用Transformer进行目标检测。

在今天的教程中，你将了解到这种类型的Transformer模型。你还将学会使用Python、一个默认的Transformer模型和HuggingFace Transformers库创建自己的目标检测流程。本文将按照下列步骤讲解：

了解目标检测可以用来做什么
了解当Transformer用于目标检测时它们是如何工作的
已经使用Python和HuggingFace Transformers实现了基于Transformer模型的（图像）目标检测流程

什么是目标检测？

环顾四周，很可能你会看到很多东西——可能是一台电脑显示器、一个键盘和鼠标，或者当你在移动浏览器中浏览时，是一部智能手机。这些都是物体，是特定类别的实例。例如，在下面的图像中，我们看到一个人类类别的实例。我们还看到了许多瓶子类别的实例。虽然类别是蓝图，但物体是真实存在的，具有许多独特的特征，同时因为共享的特征而属于类别的成员。

在图片和视频中，我们看到了许多这样的物体。例如，当你拍摄交通视频时，很可能会看到许多行人、汽车、自行车等实例。知道它们在图像中存在是非常有益的。为什么呢？因为你可以计数它们，举一个例子。这可以让你对社区的拥挤程度有所了解。另一个例子是在繁忙地区检测到一个停车位，让你可以停车。

然后，我们将数据分配给一些变量，并遍历每个结果，绘制边界框。

最后，我们将图像保存到street_bboxes.jpg中。

# Open the imagewith Image.open("street.jpg") as im: # Perform object detection bounding_boxes = object_detector(im) # Iteration elements num_boxes = len(bounding_boxes) index = 0 # Draw bounding box for each result for bounding_box in bounding_boxes:  # Get actual box  box = bounding_box["box"]  # Draw the bounding box  im = draw_bounding_box(im, bounding_box["score"], bounding_box["label"],/   box["xmin"], box["ymin"], box["xmax"], box["ymax"], index, num_boxes)  # Increase index by one  index += 1 # Save image im.save("street_bboxes.jpg") # Done print("Done!")

使用不同的模型/使用自己的模型进行目标检测

如果你创建了自己的模型，或者想要使用不同的模型，那么很容易使用它来代替基于ResNet-50的DeTr Transformer。这将需要你添加以下导入：

from transformers import DetrFeatureExtractor, DetrForObjectDetection

然后，你可以初始化特征提取器和模型，并使用它们初始化object_detector，而不是默认的一个。例如，如果你想将ResNet-101用作你的骨干，那么你可以这样做：

# Initialize another model and feature extractorfeature_extractor = DetrFeatureExtractor.from_pretrained('facebook/detr-resnet-101')model = DetrForObjectDetection.from_pretrained('facebook/detr-resnet-101')# Initialize the object detection pipelineobject_detector = pipeline("object-detection", model = model, feature_extractor = feature_extractor)

结果

以下是我们在输入图像上运行目标检测流程后得到的结果：

当放大时：

本文链接：http://www.28at.com/showinfo-26-98871-0.html基于 Python 和 HuggingFace Transformers 的目标检测

声明：本网页内容旨在传播知识，若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。邮件：2376512515@qq.com

上一篇：你应该知道的主要软件设计原则

下一篇： ESLint排坑指南：解决开发中常见的代码规范错误

标签：

热门焦点

对标苹果的灵动岛华为带来实况窗功能

继苹果的灵动岛之后，华为也在今天正式推出了“实况窗”功能。据今天鸿蒙OS 4.0的现场演示显示，华为的实况窗可以更高效的展现出实时通知，比如锁屏上就能看到外卖、打车、银行
消息称迪士尼要拍真人版《魔发奇缘》：女主可能也找黑人演员

8月5日消息，迪士尼确实有点忙，忙着将不少动画改成真人版，继《美人鱼》后，真人版《白雪公主》、《魔发奇缘》也在路上了。据外媒消息称，迪士尼将打造真人版
SpringBoot中使用Cache提升接口性能详解

环境：springboot2.3.12.RELEASE + JSR107 + Ehcache + JPASpring 框架从 3.1 开始，对 Spring 应用程序提供了透明式添加缓存的支持。和事务支持一样，抽象缓存允许一致地使用各
WebRTC.Net库开发进阶，教你实现屏幕共享和多路复用！

WebRTC.Net库：让你的应用更亲民友好，实现视频通话无痛接入！除了基本用法外，还有一些进阶用法可以更好地利用该库。自定义 STUN/TURN 服务器配置WebRTC.Net 默认使用 Google 的
一条抖音4亿人围观 ! 这家MCN比无忧传媒还野

作者：Hiu 来源：互联网品牌官01 擦边少女空降热搜，幕后推手曝光被网友誉为“纯欲天花板”的女网红井川里予，近期因为一组哥特风照片登上热搜，引发了一场互联网世界关于
华为将推出盘古数字人大模型可帮助用户12小时完成数字人生成

在今日举行的2023年华为云数字文娱AI创新峰会上，华为云全球Marketing与销售服务总裁石冀琳表示，华为云将在后续推出盘古数字人大模型，可帮助用户12小
三星Galaxy Z Fold5今日亮相：厚度缩减但仍略显厚重

据官方此前宣布，三星将于7月26日也就是今天在韩国首尔举办Unpacked活动，届时将带来带来包括Galaxy Buds 3、Galaxy Watch 6、Galaxy Tab S9、Galaxy
微软发布Windows 11新版引入全新任务栏状态

近日，微软发布了Windows 11新版，而Build 22563更新主要引入了几周前曝光的平板模式任务栏等，系统更流畅了。更新中，Windows 11加入了专门针对平板优化的任务栏
AI艺术欣赏体验会在上海梅赛德斯奔驰中心音乐俱乐部上演

光影交错的镜像世界，虚实幻化的视觉奇观，虚拟偶像与真人共同主持，这些场景都出现在2019世界人工智能大会的舞台上。8月29日至31日，“AI艺术欣赏体验会”在上海

基于 Python 和 HuggingFace Transformers 的目标检测

什么是目标检测？

使用不同的模型/使用自己的模型进行目标检测

结果

对标苹果的灵动岛华为带来实况窗功能

消息称迪士尼要拍真人版《魔发奇缘》：女主可能也找黑人演员

SpringBoot中使用Cache提升接口性能详解

WebRTC.Net库开发进阶，教你实现屏幕共享和多路复用！

一条抖音4亿人围观 ! 这家MCN比无忧传媒还野

华为将推出盘古数字人大模型可帮助用户12小时完成数字人生成

三星Galaxy Z Fold5今日亮相：厚度缩减但仍略显厚重

微软发布Windows 11新版引入全新任务栏状态

AI艺术欣赏体验会在上海梅赛德斯奔驰中心音乐俱乐部上演

最新推荐

猜你喜欢

热门推荐

相关资讯