当前位置:首页 > 科技  > 知识百科

基于PaddleOCR实现AI发票识别的Asp.net Core应用

来源: 责编: 时间:2023-08-07 16:29:52 162观看
导读 简要介绍用户批量上传需要识别的照片,上传成功后,系统会启动Hangfire后台Job开始调用PaddleOCR服务返回结果,这个过程有点类似微服务的架构模型。系统识别完成后会自动通知

简要介绍BPz28资讯网——每日最新资讯28at.com

用户批量上传需要识别的照片,上传成功后,系统会启动Hangfire后台Job开始调用PaddleOCR服务返回结果,这个过程有点类似微服务的架构模型。BPz28资讯网——每日最新资讯28at.com

BPz28资讯网——每日最新资讯28at.com

系统识别完成后会自动通知用户并修改状态,用户预览识别的结果BPz28资讯网——每日最新资讯28at.com

BPz28资讯网——每日最新资讯28at.com

运行环境 5.0>Python 3.7>ASP.NET Core Razor Page Application 5.0 源代码分支(featuresinvoice_ocr)RazorPageCleanArchitecturefeaturesinvoice_ocrPaddleOCR Web API (CentOS 阿里云主机) PaddlePaddle/PaddleOCRHangfire Dashboard HangfireIO/Hangfire技术栈ASP.NET CoreJquery/JavascriptEasyUIPython安装PaddleOCR环境BPz28资讯网——每日最新资讯28at.com

经测试PaddleOCR可在glibc 2.23上运行,您也可以测试其他glibc版本或安装glic 2.23BPz28资讯网——每日最新资讯28at.com

PaddleOCR 工作环境BPz28资讯网——每日最新资讯28at.com

PaddlePaddle 2.0.0python3.7glibc 2.23cuDNN 7.6+ (GPU)BPz28资讯网——每日最新资讯28at.com

建议使用我们提供的docker运行PaddleOCR,有关docker、nvidia-docker使用请参考链接。BPz28资讯网——每日最新资讯28at.com

如您希望使用 mac 或 windows直接运行预测代码,可以从第2步开始执行。BPz28资讯网——每日最新资讯28at.com

1. (建议)准备docker环境。第一次使用这个镜像,会自动下载该镜像,请耐心等待。# 切换到工作目录下BPz28资讯网——每日最新资讯28at.com
cd /home/ProjectsBPz28资讯网——每日最新资讯28at.com
# 首次运行需创建一个docker容器,再次运行时不需要运行当前命令BPz28资讯网——每日最新资讯28at.com
# 创建一个名字为ppocr的docker容器,并将当前目录映射到容器的/paddle目录下BPz28资讯网——每日最新资讯28at.com
BPz28资讯网——每日最新资讯28at.com
如果您希望在CPU环境下使用docker,使用docker而不是nvidia-docker创建dockerBPz28资讯网——每日最新资讯28at.com
sudo docker run --name ppocr -v $PWD:/paddle --network=host -it paddlepaddle/paddle:latest-dev-cuda10.1-cudnn7-gcc82 /bin/bashBPz28资讯网——每日最新资讯28at.com
BPz28资讯网——每日最新资讯28at.com
如果使用CUDA10,请运行以下命令创建容器,设置docker容器共享内存shm-size为64G,建议设置32G以上BPz28资讯网——每日最新资讯28at.com
sudo nvidia-docker run --name ppocr -v $PWD:/paddle --shm-size=64G --network=host -it paddlepaddle/paddle:latest-dev-cuda10.1-cudnn7-gcc82 /bin/bashBPz28资讯网——每日最新资讯28at.com
BPz28资讯网——每日最新资讯28at.com
您也可以访问[DockerHub](https://hub.docker.com/r/paddlepaddle/paddle/tags/)获取与您机器适配的镜像。BPz28资讯网——每日最新资讯28at.com
BPz28资讯网——每日最新资讯28at.com
# ctrl+P+Q可退出docker 容器,重新进入docker 容器使用如下命令BPz28资讯网——每日最新资讯28at.com
sudo docker container exec -it ppocr /bin/bash2. 安装PaddlePaddle 2.0pip3 install --upgrade pipBPz28资讯网——每日最新资讯28at.com
BPz28资讯网——每日最新资讯28at.com
如果您的机器安装的是CUDA9或CUDA10,请运行以下命令安装BPz28资讯网——每日最新资讯28at.com
python3 -m pip install paddlepaddle-gpu==2.0.0 -i https://mirror.baidu.com/pypi/simpleBPz28资讯网——每日最新资讯28at.com
BPz28资讯网——每日最新资讯28at.com
如果您的机器是CPU,请运行以下命令安装BPz28资讯网——每日最新资讯28at.com
BPz28资讯网——每日最新资讯28at.com
python3 -m pip install paddlepaddle==2.0.0 -i https://mirror.baidu.com/pypi/simpleBPz28资讯网——每日最新资讯28at.com
BPz28资讯网——每日最新资讯28at.com
更多的版本需求,请参照[安装文档](https://www.paddlepaddle.org.cn/install/quick)中的说明进行操作。3. 克隆PaddleOCR repo代码【推荐】git clone https://github.com/PaddlePaddle/PaddleOCRBPz28资讯网——每日最新资讯28at.com
BPz28资讯网——每日最新资讯28at.com
如果因为网络问题无法pull成功,也可选择使用码云上的托管:BPz28资讯网——每日最新资讯28at.com
BPz28资讯网——每日最新资讯28at.com
git clone https://gitee.com/paddlepaddle/PaddleOCRBPz28资讯网——每日最新资讯28at.com
BPz28资讯网——每日最新资讯28at.com
注:码云托管代码可能无法实时同步本github项目更新,存在3~5天延时,请优先使用推荐方式。4. 安装第三方库cd PaddleOCRBPz28资讯网——每日最新资讯28at.com
pip3 install -r requirements.txtBPz28资讯网——每日最新资讯28at.com
BPz28资讯网——每日最新资讯28at.com
**如果有问题可以留言,我会帮你处理**BPz28资讯网——每日最新资讯28at.com
BPz28资讯网——每日最新资讯28at.com
## 重点代码分析BPz28资讯网——每日最新资讯28at.com
httpClient调用PaddleOCR APIBPz28资讯网——每日最新资讯28at.com
开始自动失败重试策略BPz28资讯网——每日最新资讯28at.com
```jsBPz28资讯网——每日最新资讯28at.com
services.AddHttpClient("ocr", c =>BPz28资讯网——每日最新资讯28at.com
{BPz28资讯网——每日最新资讯28at.com
c.BaseAddress = new Uri("https://paddleocr.i247365/predict/ocr_system");BPz28资讯网——每日最新资讯28at.com
c.DefaultRequestHeaders.Accept.Add(new MediaTypeWithQualityHeaderValue("application/json"));BPz28资讯网——每日最新资讯28at.com
})BPz28资讯网——每日最新资讯28at.com
.AddTransientHttpErrorPolicy(policy => policy.WaitAndRetryAsync(3, _ => TimeSpan.FromMilliseconds(1000))); ;BPz28资讯网——每日最新资讯28at.com
BPz28资讯网——每日最新资讯28at.com
public void Recognition(int id)BPz28资讯网——每日最新资讯28at.com
{BPz28资讯网——每日最新资讯28at.com
using (var client = _httpClientFactory.CreateClient("ocr"))BPz28资讯网——每日最新资讯28at.com
{BPz28资讯网——每日最新资讯28at.com
var invoice = _context.Invoices.Find(id);BPz28资讯网——每日最新资讯28at.com
var imgfile = Path.Combine(Directory.GetCurrentDirectory(), invoice.AttachmentUrl);BPz28资讯网——每日最新资讯28at.com
var bytes = File.ReadAllBytes(imgfile);BPz28资讯网——每日最新资讯28at.com
string base64string = Convert.ToBase64String(bytes);BPz28资讯网——每日最新资讯28at.com
var response = client.PostAsJsonAsync("", new { images = new string[] { base64string } }).Result;BPz28资讯网——每日最新资讯28at.com
}BPz28资讯网——每日最新资讯28at.com
Console.WriteLine($"{id}, completed.");BPz28资讯网——每日最新资讯28at.com
}BPz28资讯网——每日最新资讯28at.com

解析发票信息,目前还是使用比较笨的方法,通过正则表达式来匹配需要的字段,比如发票金额,开票日期,发票号码等等,因为这是免费的并没有提供像收费服务那样更智能的匹配,这里我想只要有足够的数据,应该也可以通过自己训练实现更智能的识别。所以我留了Label字段,目的就是先有人工制定好对应的字段栏位,然后通过坐标数据进行训练。BPz28资讯网——每日最新资讯28at.com

if(response.StatusCode== System.Net.HttpStatusCode.OK)BPz28资讯网——每日最新资讯28at.com
{BPz28资讯网——每日最新资讯28at.com
var result = response.Content.ReadAsStringAsync().Result;BPz28资讯网——每日最新资讯28at.com
var ocr_result = JsonSerializer.Deserialize<ocr_result>(result);BPz28资讯网——每日最新资讯28at.com
var ocr_status = "";BPz28资讯网——每日最新资讯28at.com
invoice.Status = "Done";BPz28资讯网——每日最新资讯28at.com
invoice.Result = ocr_result.status;BPz28资讯网——每日最新资讯28at.com
if (ocr_result.status== "000")BPz28资讯网——每日最新资讯28at.com
{BPz28资讯网——每日最新资讯28at.com
foreach(var collection in ocr_result.results)BPz28资讯网——每日最新资讯28at.com
{BPz28资讯网——每日最新资讯28at.com
foreach(var item in collection)BPz28资讯网——每日最新资讯28at.com
{BPz28资讯网——每日最新资讯28at.com
var rawdata = new InvoiceRawData()BPz28资讯网——每日最新资讯28at.com
{BPz28资讯网——每日最新资讯28at.com
Confidence=item.confidence,BPz28资讯网——每日最新资讯28at.com
InvoiceId=id,BPz28资讯网——每日最新资讯28at.com
Text=item.text,BPz28资讯网——每日最新资讯28at.com
Text_Region= JsonSerializer.Serialize(item.text_region)BPz28资讯网——每日最新资讯28at.com
};BPz28资讯网——每日最新资讯28at.com
if (item.text.Contains("发票号码"))BPz28资讯网——每日最新资讯28at.com
{BPz28资讯网——每日最新资讯28at.com
var regex = new Regex("/d*$");BPz28资讯网——每日最新资讯28at.com
var mc = regex.Match(item.text);BPz28资讯网——每日最新资讯28at.com
if(mc.Success)BPz28资讯网——每日最新资讯28at.com
{BPz28资讯网——每日最新资讯28at.com
invoice.InvoiceNo = mc.Value;BPz28资讯网——每日最新资讯28at.com
}BPz28资讯网——每日最新资讯28at.com
}BPz28资讯网——每日最新资讯28at.com
if (item.text.Contains("开票日期"))BPz28资讯网——每日最新资讯28at.com
{BPz28资讯网——每日最新资讯28at.com
var regex = new Regex("/d{4}年/d{2}月/d{2}日");BPz28资讯网——每日最新资讯28at.com
var mc = regex.Match(item.text);BPz28资讯网——每日最新资讯28at.com
if (mc.Success)BPz28资讯网——每日最新资讯28at.com
{BPz28资讯网——每日最新资讯28at.com
invoice.InvoiceDate = Convert.ToDateTime(mc.Value.Replace("年","/").Replace("月", "/").Replace("日", ""));BPz28资讯网——每日最新资讯28at.com
}BPz28资讯网——每日最新资讯28at.com
}BPz28资讯网——每日最新资讯28at.com
if (item.text.Contains("%"))BPz28资讯网——每日最新资讯28at.com
{BPz28资讯网——每日最新资讯28at.com
var regex = new Regex("^/d*./d*");BPz28资讯网——每日最新资讯28at.com
var mc = regex.Match(item.text);BPz28资讯网——每日最新资讯28at.com
if (mc.Success)BPz28资讯网——每日最新资讯28at.com
{BPz28资讯网——每日最新资讯28at.com
invoice.TaxRate = decimal.Parse(mc.Value);BPz28资讯网——每日最新资讯28at.com
}BPz28资讯网——每日最新资讯28at.com
}BPz28资讯网——每日最新资讯28at.com
if (item.text.Contains("¥"))BPz28资讯网——每日最新资讯28at.com
{BPz28资讯网——每日最新资讯28at.com
var regex = new Regex("/d./d*");BPz28资讯网——每日最新资讯28at.com
var mc = regex.Match(item.text);BPz28资讯网——每日最新资讯28at.com
if (mc.Success)BPz28资讯网——每日最新资讯28at.com
{BPz28资讯网——每日最新资讯28at.com
invoice.Amount = decimal.Parse(mc.Value);BPz28资讯网——每日最新资讯28at.com
}BPz28资讯网——每日最新资讯28at.com
}BPz28资讯网——每日最新资讯28at.com
_context.InvoiceRawDatas.Add(rawdata);BPz28资讯网——每日最新资讯28at.com
}BPz28资讯网——每日最新资讯28at.com
}BPz28资讯网——每日最新资讯28at.com
ocr_status = ocr_result.status;BPz28资讯网——每日最新资讯28at.com
BPz28资讯网——每日最新资讯28at.com
}BPz28资讯网——每日最新资讯28at.com
_context.SaveChangesAsync(default).Wait();BPz28资讯网——每日最新资讯28at.com
_hubContext.Clients.All.SendAsync(SignalR.OCRTaskCompleted, new { invoiceNo = invoice.InvoiceNo });BPz28资讯网——每日最新资讯28at.com
BPz28资讯网——每日最新资讯28at.com
BPz28资讯网——每日最新资讯28at.com
BPz28资讯网——每日最新资讯28at.com
}BPz28资讯网——每日最新资讯28at.com

Canvas 画框标注识别结果BPz28资讯网——每日最新资讯28at.com

BPz28资讯网——每日最新资讯28at.com

data.map((item,index) => {BPz28资讯网——每日最新资讯28at.com
$('#rawdata_table > tbody').append(`BPz28资讯网——每日最新资讯28at.com

${index + 1}${item.Text} BPz28资讯网——每日最新资讯28at.com

`);BPz28资讯网——每日最新资讯28at.com
var points = JSON.parse(item.Text_Region);BPz28资讯网——每日最新资讯28at.com
ctx.lineWidth = "5";BPz28资讯网——每日最新资讯28at.com
ctx.strokeStyle = "#00ff00";BPz28资讯网——每日最新资讯28at.com
ctx.textAlign = 'left';BPz28资讯网——每日最新资讯28at.com
ctx.textBaseline = 'top';BPz28资讯网——每日最新资讯28at.com
ctx.fillStyle = "#ff0000";BPz28资讯网——每日最新资讯28at.com
ctx.font = "bold 13px verdana, sans-serif ";BPz28资讯网——每日最新资讯28at.com
ctx.fillText(item.Text, points[0][0], points[0][1]-15);BPz28资讯网——每日最新资讯28at.com
ctx.beginPath();BPz28资讯网——每日最新资讯28at.com
ctx.moveTo(points[0][0], points[0][1]);BPz28资讯网——每日最新资讯28at.com
ctx.lineTo(points[1][0], points[1][1]);BPz28资讯网——每日最新资讯28at.com
ctx.lineTo(points[2][0], points[2][1]);BPz28资讯网——每日最新资讯28at.com
ctx.lineTo(points[3][0], points[3][1]);BPz28资讯网——每日最新资讯28at.com
ctx.closePath();BPz28资讯网——每日最新资讯28at.com
ctx.stroke();BPz28资讯网——每日最新资讯28at.com
});BPz28资讯网——每日最新资讯28at.com

是不是很简单,很酷BPz28资讯网——每日最新资讯28at.com

最后BPz28资讯网——每日最新资讯28at.com

Give a Star! ⭐BPz28资讯网——每日最新资讯28at.com

If you like or are using this project please give it a star. Thanks!BPz28资讯网——每日最新资讯28at.com

RazorPageCleanArchitecturefeaturesinvoice_ocr:https://github.com/neozhu/RazorPageCleanArchitectureBPz28资讯网——每日最新资讯28at.com

 BPz28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-119-2150-0.html基于PaddleOCR实现AI发票识别的Asp.net Core应用

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 终于有人把监督学习讲明白了

下一篇: 如何选择容器注册表,这里给出九个选项 译文

标签:
  • 热门焦点
  • 7月安卓手机好评榜:三星S23Ultra好评率第一

    7月安卓手机好评榜:三星S23Ultra好评率第一

    性能榜和性价比榜之后,我们来看最后的安卓手机好评榜,数据来源安兔兔评测,收集时间2023年7月1日至7月31日,仅限国内市场。第一名:三星Galaxy S23 Ultra好评率:95.71%在即将迎来新
  • 一加首款折叠屏!一加Open渲染图出炉:罕见单手可握小尺寸

    一加首款折叠屏!一加Open渲染图出炉:罕见单手可握小尺寸

    8月5日消息,此前就有爆料称,一加首款折叠屏手机将会在第三季度上市,如今随着时间临近,新机的各种消息也开始浮出水面。据悉,这款新机将会被命名为&ldquo;On
  • Rust中的高吞吐量流处理

    Rust中的高吞吐量流处理

    作者 | Noz编译 | 王瑞平本篇文章主要介绍了Rust中流处理的概念、方法和优化。作者不仅介绍了流处理的基本概念以及Rust中常用的流处理库,还使用这些库实现了一个流处理程序
  • 分布式系统中的CAP理论,面试必问,你理解了嘛?

    分布式系统中的CAP理论,面试必问,你理解了嘛?

    对于刚刚接触分布式系统的小伙伴们来说,一提起分布式系统,就感觉高大上,深不可测。而且看了很多书和视频还是一脸懵逼。这篇文章主要使用大白话的方式,带你理解一下分布式系统
  • 破圈是B站头上的紧箍咒

    破圈是B站头上的紧箍咒

    来源 | 光子星球撰文 | 吴坤谚编辑 | 吴先之每年的暑期档都少不了瞄准追剧女孩们的古偶剧集,2021年有优酷的《山河令》,2022年有爱奇艺的《苍兰诀》,今年却轮到小破站抓住了追
  • “又被陈思诚骗了”

    “又被陈思诚骗了”

    作者|张思齐 出品|众面(ID:ZhongMian_ZM)如今的国产悬疑电影,成了陈思诚的天下。最近大爆电影《消失的她》票房突破30亿断层夺魁暑期档,陈思诚再度风头无两。你可以说陈思诚的
  • 小米MIX Fold 3配置细节曝光:搭载领先版骁龙8 Gen2+罕见5倍长焦

    小米MIX Fold 3配置细节曝光:搭载领先版骁龙8 Gen2+罕见5倍长焦

    这段时间以来,包括三星、一加、荣耀等等有不少品牌旗下的最新折叠屏旗舰都得到了不少爆料,而小米新一代折叠屏旗舰——小米MIX Fold 3此前也屡屡被传
  • 三星电子Q2营收60万亿韩元 存储业务营收同比仍下滑超过50%

    三星电子Q2营收60万亿韩元 存储业务营收同比仍下滑超过50%

    7月27日消息,据外媒报道,从三星电子所发布的财报来看,他们主要利润来源的存储芯片业务在今年二季度仍不乐观,营收同比仍在大幅下滑,所在的设备解决方案
  • 英特尔Xe-HP项目终止,将专注Xe-HPC/HPG系列显卡

    英特尔Xe-HP项目终止,将专注Xe-HPC/HPG系列显卡

    据10 月 31 日消息报道,英特尔高级副总裁兼加速计算系统和图形事业部总经理 表示,Xe-HP“ Arctic Sound” 系列服务器 GPU 已经应用于 oneAPI devcloud 云服
Top