当前位置：首页 > 科技 > 知识百科

基于PaddleOCR实现AI发票识别的Asp.net Core应用

来源：责编：时间：2023-08-07 16:29:52 368观看

导读简要介绍用户批量上传需要识别的照片,上传成功后,系统会启动Hangfire后台Job开始调用PaddleOCR服务返回结果,这个过程有点类似微服务的架构模型。系统识别完成后会自动通知

简要介绍

用户批量上传需要识别的照片,上传成功后,系统会启动Hangfire后台Job开始调用PaddleOCR服务返回结果,这个过程有点类似微服务的架构模型。

系统识别完成后会自动通知用户并修改状态,用户预览识别的结果

运行环境 5.0>Python 3.7>ASP.NET Core Razor Page Application 5.0 源代码分支(featuresinvoice_ocr)RazorPageCleanArchitecturefeaturesinvoice_ocrPaddleOCR Web API (CentOS 阿里云主机) PaddlePaddle/PaddleOCRHangfire Dashboard HangfireIO/Hangfire技术栈ASP.NET CoreJquery/JavascriptEasyUIPython安装PaddleOCR环境

经测试PaddleOCR可在glibc 2.23上运行，您也可以测试其他glibc版本或安装glic 2.23

PaddleOCR 工作环境

PaddlePaddle 2.0.0python3.7glibc 2.23cuDNN 7.6+ (GPU)

建议使用我们提供的docker运行PaddleOCR，有关docker、nvidia-docker使用请参考链接。

如您希望使用 mac 或 windows直接运行预测代码，可以从第2步开始执行。

1. (建议)准备docker环境。第一次使用这个镜像，会自动下载该镜像，请耐心等待。# 切换到工作目录下
cd /home/Projects
# 首次运行需创建一个docker容器，再次运行时不需要运行当前命令
# 创建一个名字为ppocr的docker容器，并将当前目录映射到容器的/paddle目录下

如果您希望在CPU环境下使用docker，使用docker而不是nvidia-docker创建docker
sudo docker run --name ppocr -v $PWD:/paddle --network=host -it paddlepaddle/paddle:latest-dev-cuda10.1-cudnn7-gcc82 /bin/bash

如果使用CUDA10，请运行以下命令创建容器，设置docker容器共享内存shm-size为64G，建议设置32G以上
sudo nvidia-docker run --name ppocr -v $PWD:/paddle --shm-size=64G --network=host -it paddlepaddle/paddle:latest-dev-cuda10.1-cudnn7-gcc82 /bin/bash

您也可以访问[DockerHub](https://hub.docker.com/r/paddlepaddle/paddle/tags/)获取与您机器适配的镜像。

# ctrl+P+Q可退出docker 容器，重新进入docker 容器使用如下命令
sudo docker container exec -it ppocr /bin/bash2. 安装PaddlePaddle 2.0pip3 install --upgrade pip

如果您的机器安装的是CUDA9或CUDA10，请运行以下命令安装
python3 -m pip install paddlepaddle-gpu==2.0.0 -i https://mirror.baidu.com/pypi/simple

如果您的机器是CPU，请运行以下命令安装

python3 -m pip install paddlepaddle==2.0.0 -i https://mirror.baidu.com/pypi/simple

更多的版本需求，请参照[安装文档](https://www.paddlepaddle.org.cn/install/quick)中的说明进行操作。3. 克隆PaddleOCR repo代码【推荐】git clone https://github.com/PaddlePaddle/PaddleOCR

如果因为网络问题无法pull成功，也可选择使用码云上的托管：

git clone https://gitee.com/paddlepaddle/PaddleOCR

注：码云托管代码可能无法实时同步本github项目更新，存在3~5天延时，请优先使用推荐方式。4. 安装第三方库cd PaddleOCR
pip3 install -r requirements.txt

**如果有问题可以留言,我会帮你处理**

## 重点代码分析
httpClient调用PaddleOCR API
开始自动失败重试策略
```js
services.AddHttpClient("ocr", c =>
{
c.BaseAddress = new Uri("https://paddleocr.i247365/predict/ocr_system");
c.DefaultRequestHeaders.Accept.Add(new MediaTypeWithQualityHeaderValue("application/json"));
})
.AddTransientHttpErrorPolicy(policy => policy.WaitAndRetryAsync(3, _ => TimeSpan.FromMilliseconds(1000))); ;

public void Recognition(int id)
{
using (var client = _httpClientFactory.CreateClient("ocr"))
{
var invoice = _context.Invoices.Find(id);
var imgfile = Path.Combine(Directory.GetCurrentDirectory(), invoice.AttachmentUrl);
var bytes = File.ReadAllBytes(imgfile);
string base64string = Convert.ToBase64String(bytes);
var response = client.PostAsJsonAsync("", new { images = new string[] { base64string } }).Result;
}
Console.WriteLine($"{id}, completed.");
}

解析发票信息,目前还是使用比较笨的方法，通过正则表达式来匹配需要的字段，比如发票金额，开票日期，发票号码等等，因为这是免费的并没有提供像收费服务那样更智能的匹配,这里我想只要有足够的数据，应该也可以通过自己训练实现更智能的识别。所以我留了Label字段，目的就是先有人工制定好对应的字段栏位，然后通过坐标数据进行训练。

if(response.StatusCode== System.Net.HttpStatusCode.OK)
{
var result = response.Content.ReadAsStringAsync().Result;
var ocr_result = JsonSerializer.Deserialize<ocr_result>(result);
var ocr_status = "";
invoice.Status = "Done";
invoice.Result = ocr_result.status;
if (ocr_result.status== "000")
{
foreach(var collection in ocr_result.results)
{
foreach(var item in collection)
{
var rawdata = new InvoiceRawData()
{
Confidence=item.confidence,
InvoiceId=id,
Text=item.text,
Text_Region= JsonSerializer.Serialize(item.text_region)
};
if (item.text.Contains("发票号码"))
{
var regex = new Regex("/d*$");
var mc = regex.Match(item.text);
if(mc.Success)
{
invoice.InvoiceNo = mc.Value;
}
}
if (item.text.Contains("开票日期"))
{
var regex = new Regex("/d{4}年/d{2}月/d{2}日");
var mc = regex.Match(item.text);
if (mc.Success)
{
invoice.InvoiceDate = Convert.ToDateTime(mc.Value.Replace("年","/").Replace("月", "/").Replace("日", ""));
}
}
if (item.text.Contains("%"))
{
var regex = new Regex("^/d*./d*");
var mc = regex.Match(item.text);
if (mc.Success)
{
invoice.TaxRate = decimal.Parse(mc.Value);
}
}
if (item.text.Contains("￥"))
{
var regex = new Regex("/d./d*");
var mc = regex.Match(item.text);
if (mc.Success)
{
invoice.Amount = decimal.Parse(mc.Value);
}
}
_context.InvoiceRawDatas.Add(rawdata);
}
}
ocr_status = ocr_result.status;

}
_context.SaveChangesAsync(default).Wait();
_hubContext.Clients.All.SendAsync(SignalR.OCRTaskCompleted, new { invoiceNo = invoice.InvoiceNo });

}

Canvas 画框标注识别结果

data.map((item,index) => {
$('#rawdata_table > tbody').append(`

${index + 1}${item.Text}

`);
var points = JSON.parse(item.Text_Region);
ctx.lineWidth = "5";
ctx.strokeStyle = "#00ff00";
ctx.textAlign = 'left';
ctx.textBaseline = 'top';
ctx.fillStyle = "#ff0000";
ctx.font = "bold 13px verdana, sans-serif ";
ctx.fillText(item.Text, points[0][0], points[0][1]-15);
ctx.beginPath();
ctx.moveTo(points[0][0], points[0][1]);
ctx.lineTo(points[1][0], points[1][1]);
ctx.lineTo(points[2][0], points[2][1]);
ctx.lineTo(points[3][0], points[3][1]);
ctx.closePath();
ctx.stroke();
});

是不是很简单，很酷

最后

Give a Star! ⭐

If you like or are using this project please give it a star. Thanks!

RazorPageCleanArchitecturefeaturesinvoice_ocr：https://github.com/neozhu/RazorPageCleanArchitecture

本文链接：http://www.28at.com/showinfo-119-2150-0.html基于PaddleOCR实现AI发票识别的Asp.net Core应用

声明：本网页内容旨在传播知识，若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。邮件：2376512515@qq.com

上一篇：终于有人把监督学习讲明白了

下一篇：如何选择容器注册表，这里给出九个选项译文

标签：

热门焦点

消息称迪士尼要拍真人版《魔发奇缘》：女主可能也找黑人演员

8月5日消息，迪士尼确实有点忙，忙着将不少动画改成真人版，继《美人鱼》后，真人版《白雪公主》、《魔发奇缘》也在路上了。据外媒消息称，迪士尼将打造真人版
2023 年的 Node.js 生态系统

随着技术的不断演进和创新，Node.js 在 2023 年达到了一个新的高度。Node.js 拥有一个庞大的生态系统，可以帮助开发人员更快地实现复杂的应用。本文就来看看 Node.js 最新的生
本地生活这块肥肉，拼多多也想吃一口

出品/壹览商业作者/李彦编辑/木鱼拼多多也看上本地生活这块蛋糕了。近期，拼多多在App首页“充值中心”入口上线了本机生活界面。壹览商业发现，该界面目前主要
花7万退货退款无门：谁在纵容淘宝珠宝商家造假？

来源：极点商业作者：杨铭在淘宝购买珠宝玉石后，因为保证金不够赔付，店铺关闭，退货退款难、维权无门的比比皆是。“提供相关产品鉴定证书，支持全国复检，可以30天无理由退换货。&
造车两年股价跌六成，小米的估值逻辑变了吗？

如果从小米官宣造车后的首个交易日起持有小米集团的股票，那么截至2023年上半年最后一个交易日，投资者将浮亏59.16%，同区间的恒生科技指数跌幅为52.78%
三星电子Q2营收60万亿韩元存储业务营收同比仍下滑超过50%

7月27日消息，据外媒报道，从三星电子所发布的财报来看，他们主要利润来源的存储芯片业务在今年二季度仍不乐观，营收同比仍在大幅下滑，所在的设备解决方案
iQOO Neo8 Pro抢先上架：首发天玑9200+ 安卓性能之王

经过了一段时间的密集爆料，昨日iQOO官方如期对外宣布：将于5月23日推出全新的iQOO Neo8系列新品，官方称这是一款拥有旗舰级性能调校的作品。随着发布时
引领旗舰级影像能力向中端机普及 OPPO K11 系列发布 1799 元起

7月25日，OPPO正式发布K系列新品—— OPPO K11 。此次 K11 在中端手机市场长期被忽视的影像板块发力，突破性地搭载索尼 IMX890 旗舰大底主摄，支持 OIS
DRAM存储器10月价格下跌，NAND闪存本月价格与上月持平

10月30日，据韩国媒体消息，自今年年初以来一直在上涨的 DRAM 存储器的交易价格仅在本月就下跌了近 10％，此次是全年首次降价，而NAND 闪存本月价格与上月持平。市

基于PaddleOCR实现AI发票识别的Asp.net Core应用

消息称迪士尼要拍真人版《魔发奇缘》：女主可能也找黑人演员

2023 年的 Node.js 生态系统

本地生活这块肥肉，拼多多也想吃一口

花7万退货退款无门：谁在纵容淘宝珠宝商家造假？

造车两年股价跌六成，小米的估值逻辑变了吗？

三星电子Q2营收60万亿韩元存储业务营收同比仍下滑超过50%

iQOO Neo8 Pro抢先上架：首发天玑9200+ 安卓性能之王

引领旗舰级影像能力向中端机普及 OPPO K11 系列发布 1799 元起

DRAM存储器10月价格下跌，NAND闪存本月价格与上月持平

最新推荐

猜你喜欢

热门推荐

相关资讯