解决方案:WordPress自适应智商测试题趣味测试题心理测试题整站源码 带采集功能

优采云 发布时间: 2022-10-12 21:18

  解决方案:WordPress自适应智商测试题趣味测试题心理测试题整站源码 带采集功能

  1.全站源代码带数据,可在线操作,省去了前期添加数据的麻烦;

  2. 网页版式布局

  3. 9采集规则默认创建,打开后自动采集,无需人工干预;

  

  4.有强大的广告管理模块和SEO模块;

  5. 程序兼容php7.1,执行效率更快

  6.图片默认使用远程图片,节省磁盘空间,节省本地;

  7、适合做站群网站的朋友,采集插件每天自动采集一次,省去人工维护,节省大量时间。

  

  安装环境: PHP 5.4/6/7.1 + 我的学习包 5.6

  直观:守护出海应用,云上曲率 DIY 了一个"还不错"的多语言 OCR 文字识别模型

  OCR作为图像理解的基石技术,原指光学字符识别(Optical Character Recognition)。移动互联网的爆发式增长和深度学习技术的普及,进一步推动了OCR技术在业务需求和技术支持方面的发展。OCR技术已经渗透到行业的各个角落:广告推荐系统中的图像内容提取、图片和视频内容的审核与过滤、医学图像识别、文档识别、文档识别、街景路牌识别等。

  在泛娱乐出海的诸多应用场景中,图片和视频内容中往往存在多种语言。使用单一给定的先验语言,然后使用对应语言的OCR文本识别模型进行文本识别的方法已经不能满足场景的需要。因此,模型需要学习自动划分图片和文字对应的语言,即训练一个OCR语言识别模型作为桥梁,覆盖一张图片多语言场景中的所有信息内容。

  传统的分类任务对OCR语言识别进行建模,结果往往不尽如人意,因为在语言识别的实际应用场景中,如果存在相似度高的语言,比如由假名和汉字组成的日语,往往与中国男性和女性。难以区分;梵文、泰米尔文、马拉雅拉姆文等是印度地区文字,此类相似度高的文字会混淆模型。

  在海天瑞生与清华大学联合主办的OLR(Oriental Language Recognition)竞赛中,很多优秀的解决方案集中在充分利用原创数据特征,进一步探索不同语言之间的差异。在提取声纹特征的同时,还考虑了序列特征来提高模型的判别能力。

  受此启发,OCR语言识别场景也一样,所以我们预训练了一个多语言文本识别模型,然后在此基础上对语言识别模型进行微调,提高语言识别模型的性能。抽象复杂模型,并在此基础上对任务目标抽象程度低的简单模型进行微调,以获得更好的拟合效果,提高多语言识别性能。

  OCR语言识别的实现过程

  OCR语言识别过程主要分为人工样本合成、多语言OCR文本识别训练、多语言OCR语言识别微调三个部分:

  OCR人工样本合成

  

  由于OCR人工标注成本高昂,目前开源数据非常有限,主要是英文和中文。如果你想训练一个“好的”OCR 文本识别模型,你必须自己动手。

  首先,整理OCR合成样本的三要素:

  1. 类似生产场景的无文字图像数据集,作为人工合成图像文字的复杂背景。

  2.采集各种语言词典或生成文本实体的词典。

  3.获取对应语言的多种字体库,丰富文字样式。

  至此,一切准备就绪。OCR人工合成样本的整体流程如下:

  多语种不同风格的文字图片合成流程图

  多语言OCR文本识别模型训练

  在合成了大量的多语言OCR文本识别样本后,我们就可以开始训练这个“不错”的多语言OCR文本识别模型了。常用的文本识别框架有CRNN+CTC、CRNN+Attention等,以CRNN+CTC为例:

  CRNN网络结构由三部分组成,从下到上:

  

  1. 卷积层:使用深度 CNN 从输入图像中提取特征。

  2、循环层:使用双向RNN(BLSTM)预测特征序列,输出预测的标签(真值)分布。

  3. 转录层:利用CTC损失,将循环层得到的一系列标签分布转换成最终的标签序列。

  模型结果如下:

  多语种OCR语言识别微调

  将上面训练好的多语言OCR文本识别分类器替换为对应的语言分类器,就是将OCR文本识别模型中LSTM层之后输出对应文本的全连接层替换为对应的语言,并使用真实的生产环境。对数据进行微调,最终得到OCR语言识别模型。总体流程如下:

  总体流程图

  实践证明,与传统的分类任务相比,基于OCR文本识别微调的OCR语言识别模型在语言相似度高的问题上具有更好的表现。另外,即使是没有经过OCR文本识别训练的外语,也可以直接进行fineturn,也可以获得不错的效果。事实上,在生产环境中,场景类型千差万别,人工合成数据的狭窄分布很难覆盖所有场景。人工总结和丰富的数据分布仍然是必不可少的。然而,新的方法已经出现,它们怎么可能停滞不前。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线