2022时政热点事件,2022最新时事新闻热点汇总
2022-11-13
更新时间:2023-01-01 09:27:00作者:51data
近日,复旦大学博士生写Python脚本检查核酸截图的故事被人民日报公众号报道,称赞其所学贡献了青春的力量!
首先,这位博士所学而有用的精神,技术并不难,但有助于瘟疫的流行,我确信值得学习。
你知道很多人说博士用这么简单的东西,也可以刊登在人民日报上吗?
我想说技术不是难事,只要能解决眼前的当务之急,帮助别人就有价值。
所以,看了这篇文章的伙伴也想说一句,绝对不要为实现NB的技术而高兴。 真正值得自豪的是这项技术是否改变了世界。 即使是细微的变化。
查看人民日报的详细报道,是用Python编写的脚本。 试着整理一下这个过程和实现的技术吧。
1、引入Python的OCR库识别图像,生成文本字符串仔细观察,身边到处都能看到OCR的身影。 文件扫描、车牌识别、证件识别、银行卡识别、票据识别等。
OCR的本质是图像识别,包括文本检测和字符识别两个关键技术。
首先提取图像中的特征检测目标区域,然后对目标区域的文字进行分割和分类。
Python有很多ocr第三方库,如PaddleOCR、cnOCR、easyocr等。 一般安装后,可以直接导入import,传递图像路径参数,直接调用接口函数识别该图像。
例如,书就像是PaddleOCR的接口调用
from paddleocr import PaddleOCR、draw_ocr# Paddleocr您可以通过更改lang参数在当前支持的多种语言之间切换。 #例如,` ch `,` en `,` fr `,` german `,` korean `,` Japan ` ocr=paddle ocr ( use _ angle _ cls=true,lang=& #039; ch&; #039; ) img_path=&; #039;/imgs/test.jpg&; #039; result=ocr
输出:
17:28检测结果查询检测结果【阴性】姓名亲卫队样本时间 2022-04-08 12:28试剂码48检测项目新冠抗原经ocr图像文本识别,出现上述结果,时间
2、需要通过正则表达式识别文本信息,提取关键词,得到文本信息,再进行整理提取,将各个类别填入excel的表里
这里需要使用正则表达式处理文本,提取重要的文本。 在此抽取的是时间、姓名、检查结果、试剂代码、检查项目等。
说到正则表达式,正则表达式( Regular Expression )通常用于查找和替换与某个模式(规则)匹配的文本。
这里的Regular是规则、法则的意思,Regular Expression是“记述某个规则的表现”的意思。
那么,提取上面的文本信息吧
#re模块输入结果=& amp; #039; &; #039; &; #039; 17:28检测结果查询检测结果【阴性】姓名亲卫队样品时间 2022-04-08 12:28试剂码48检测项目新冠抗原&; #039; &; #039; &; #039; name=re.ff STRS(time=re.findall ( ) (=采样时间 ),strs ) result=re.findall ( ( ) ) )、strs
[&; #039; 朱卫军&; #039; ][&; #039; 2022-04-08 12:28&; #039; ][&; #039; 阴性&; #039; ]3、将结果输出到excel表格在正则表达式中提取重要信息后,在pandas中将数据输出到excel。 这里有必要适当调整数据
importpandasaspdimportnumpyasnpinfo1=nametimeresultinfo1=NP.array ( info1).reshape ( 1,3 ) df=PD.dataframe (数据帧) #039;时间&; #039;&; #039; 检测结果&; #039; )、核酸结果. xlsx、index=False )大家也可以尝试拥有自己的核酸结果