直观:一种名片识别中关键文字信息的自动检索判定方法
优采云 发布时间: 2022-10-02 11:13直观:一种名片识别中关键文字信息的自动检索判定方法
专利名称:一种名片识别中关键文本信息的自动检索与判断方法
技术领域:
本发明涉及名片识别技术,具体涉及一种名片识别中关键文本信息的自动检索和确定方法。
技术背景姓名、公司、职位等都是名片中的重要信息。一般这些重要信息都会以比较特殊的形式标注出来,比如重要信息的位置排列在最前面,大小、宽度、字间距等。文本参数比较大,或者背景或前景色不同等。针对不同的应用场合或不同的用户,重要信息中往往有最关键的信息。如何准确地提取这些关键的文本信息是一个值得研究的问题。然而,在目前的名片识别技术中,名片上的所有内容都会被扫描,然后被识别,然后由用户在识别的结果字符串中选择。因此,一方面,这种方法进行全扫描和全识别,尤其是全识别需要较长时间,所以名片的识别速度比较慢,但本质上,用户需要的信息只是其中的一个或几个。因此,全扫描和全识别存在一定的程序浪费;另一方面,由于用户需要自己选择关键文本信息,给用户带来了一定的麻烦。
发明内容
本发明的目的是针对现有技术的不足,提供一种方法简单、步骤合理、更加智能的名片识别中关键文本信息的自动检索和判断方法。
为了解决上述技术问题,本发明所采用的技术方案是一种名片识别中关键文本信息的自动检索和确定方法。基于连通域进行布局分析和文本分割,统计字符参数和特殊连通域的总数;
步骤2、根据字符参数和特殊连通域的总数,选择收录关键文本信息的文本区域;步骤3、搜索收录关键文本信息的文本区域的相邻区域,比较在相邻区域进行字符识别;步骤4、在字符识别得到的字符串中查找表示位置的关键词,获取其文本内容,从而根据文本的相邻区域获取文本内容收录关键文本信息的区域。区域的语义与位置是否匹配,用于共同确定关键文本信息最终所在的区域。
特殊连通域的总数可以是水平投影上重叠部分较小的连通域的数量。
步骤2中,根据字符参数,可以选择前几位的区域,即得到一个收录关键文本信息的文本区域。
在步骤2中,还可以根据特殊连通域的个数、字符参数和颜色信息,从得到的收录关键文本信息的区域中剔除图标区域。
排除图标区域的依据可能是条件一、该区域的特殊连通域个数小于等于1;条件二、表示该区域内有一个单词的字宽或字高远大于平均字宽或字高;条件三、整个名片图像的分割区域的前景物体中,只有该区域的前景是不同颜色的;如果某个区域满足三个条件之一,则该区域是图标区域而不是文本区域。
第二个条件可以是该区域中的一个词的词宽或词高是平均词宽或词高的2.5倍。
字符参数可以包括字符高度、字符宽度和字符之间的水平间距。
在上述技术方案中,本发明通过首先对获取的名片图像进行字符线划分操作,得到字符区域或线条的连通区域。一般来说,用户最先感兴趣的关键文本信息,如名称、公司logo、公司名称等,基本上都位于平均字符大小最大的前三个区域。例如,在常见情况下,职位或头衔将位于姓名的下方或右下方。我们可以根据三个区域附近相邻区域的语义是否符合位置或标题,共同识别出关键文本信息的名称最终所在的位置。区域,即当相邻区域为职位或标题所在区域时,它的左上角或左上角是名字最终所在的区域。因此,实现了关键文本信息的准确提取。同时,本发明实现了关键文本信息的自动定位和自动识别,省去了现有技术中用户频繁操作的需要,使用更方便,识别文本更快捷。另外,本发明利用统计特征和关键词搜索方法对关键文本信息所在的区域进行搜索,可以保证关键文本信息检索的准确性。与现有技术相比,本发明具有方法简单、使用方便、字符识别速度快、效率高、准确率高等特点。实现了关键文本信息的准确提取。同时,本发明实现了关键文本信息的自动定位和自动识别,省去了现有技术中用户频繁操作的需要,使用更方便,识别文本更快捷。另外,本发明利用统计特征和关键词搜索方法对关键文本信息所在的区域进行搜索,可以保证关键文本信息检索的准确性。与现有技术相比,本发明具有方法简单、使用方便、字符识别速度快、效率高、准确率高等特点。实现了关键文本信息的准确提取。同时,本发明实现了关键文本信息的自动定位和自动识别,省去了现有技术中用户频繁操作的需要,使用更方便,识别文本更快捷。另外,本发明利用统计特征和关键词搜索方法对关键文本信息所在的区域进行搜索,可以保证关键文本信息检索的准确性。与现有技术相比,本发明具有方法简单、使用方便、字符识别速度快、效率高、准确率高等特点。本发明实现了关键文本信息的自动定位和自动识别,省去了现有技术中用户频繁操作的需要,使用更方便,识别文本更快。另外,本发明利用统计特征和关键词搜索方法对关键文本信息所在的区域进行搜索,可以保证关键文本信息检索的准确性。与现有技术相比,本发明具有方法简单、使用方便、字符识别速度快、效率高、准确率高等特点。本发明实现了关键文本信息的自动定位和自动识别,省去了现有技术中用户频繁操作的需要,使用更方便,识别文本更快。另外,本发明利用统计特征和关键词搜索方法对关键文本信息所在的区域进行搜索,可以保证关键文本信息检索的准确性。与现有技术相比,本发明具有方法简单、使用方便、字符识别速度快、效率高、准确率高等特点。搜索方法对关键文本信息所在的区域进行搜索,可以保证关键文本信息检索的准确性。与现有技术相比,本发明具有方法简单、使用方便、字符识别速度快、效率高、准确率高等特点。搜索方法对关键文本信息所在的区域进行搜索,可以保证关键文本信息检索的准确性。与现有技术相比,本发明具有方法简单、使用方便、字符识别速度快、效率高、准确率高等特点。
详细方法
下面结合具体实施例对本发明作进一步详细说明。
在我们的日常生活中,人们使用的名片大多是第一行的公司名称,第二行中间的姓名,第三行右下角的职务,以及第四行及以后。、电话、手机、邮箱等具体信息。而且,一般公司名称、名称等关键文本信息的字体、字号、字间距等字符参数要比其他文本内容的字符参数大得多。有鉴于此,为了提高名片识别的速度,尤其是为了快速获取关键文本信息的名称,提出了本发明的技术方案。
本发明提供了一种名片识别中关键文本信息的自动检索和确定方法,其中,关键文本信息为姓名。其步骤如下:1、对输入的名片图像进行基于连通域的布局分析和文本分割,统计字符参数和特殊连通域的总数;这里,字符参数包括字高、字宽、字间距水平间距等。
特殊连通域的总数是水平投影上重叠部分较小的连通域的数量。例如,字符 j 只能视为一个连通域;Rj 可以看作是两个连通域。
步骤2、根据描述的字符参数和特殊连通域的总数,选择收录关键文本信息的文本区域;具体来说
首先,以区域内的平均值(字高、字宽)为指标,将名片上的所有区域按照这个指标从高到低排列。选择前三个地区。据统计,排名前三的区域往往收录公司名称、公司标志、名称等重要信息。
然后,在这三个区域中,利用步骤1中得到的连通域数、字符的宽高特征、颜色信息来去除图标(图标往往在前三个候选集中)。判断标准如下。如果满足以下条件之一,则条件一、该区域的特殊连通域个数小于等于1;条件二、该区域有一个单词,其字宽或字高远大于平均字宽或字高;一般2.是平均字宽或字高的5倍。
条件三、整个名片图像分割区域的前景目标中,只有该区域的前景是不同颜色的;则判断该区域是图标而不是名称,进一步将该区域排除在筛选之外。
这样就可以准确地获取到收录关键文本信息的文本区域。经过这样的筛选,申请过程中一般只剩下2到3个区域。
步骤3、搜索收录关键文本信息的文本区域下方或右下方的相邻区域,对相邻区域进行字符识别;步骤 4、 在字符识别得到的字符串中找到代表位置的关键词,获取其文本内容,从而共同确定关键文本信息的名称最终所在的位置收录关键文本信息的文本区域的相邻区域的语义是否符合位置或标题。那个区域,即当相邻区域是职位或标题所在的区域时,其左上角或左上角就是名称最终所在的区域。
这里,在本实施例中,使用小型数据库或数据存储,调用诸如“经理”、“销售”、“工程师”、“总监”、“医生”、“经理”、“*敏*感*词*”、“将“厂长”等类似职位的作为关键词,根据这个关键词,搜索识别出的字符串是否有对应的词,显示对应的文本内容或存储。在极少数情况下,也有可能找不到对应的词汇。由于无法识别关键文本信息区域的位置,只能从剩余的所有区域中使用(通常只有1到2个)此时剩下的区域)搜索关键词找到关键文本信息的文本内容。
权利请求
1.一种名片识别中关键文本信息的自动检索和判断方法,其中,关键文本信息为名称,包括以下步骤: 1、进行基于连通域的布局分析和输入名片图像上的文字进行除法,统计字符参数和特殊连通域的总数;步骤2、根据字符参数和特殊连通域的总数,选择收录关键文本信息的文本区域;step 3、 搜索收录关键文本信息的文本区域该文本区域的相邻区域,并对相邻区域进行文本识别;步骤4、在文本识别得到的字符串中找到代表位置的关键词,
2.声称
1.一种名片识别中关键文本信息的自动检索和确定方法,其特征在于,特殊连通域总数为水平投影上重叠部分较小的连通域总数。
3.声称
1或2所述的名片识别中关键文本信息的自动检索和判断方法,其特征在于,步骤2中,根据字符参数,选择前几位数字的区域,即文本获得收录关键文本信息的区域。
4.声称
3.一种名片识别中关键文本信息的自动检索和判断方法,其特征在于,步骤2也是根据连通域的个数、字符参数和颜色信息,从得到的收录关键文本信息的区域中,被淘汰。图标区域。
5.声称
4.所述的名片识别中关键文本信息的自动检索与判断方法,其特征在于,图标区域剔除的依据是条件一、该区域内特殊连通域的个数较少。大于或等于 1;条件 二、该区域有一个词的宽度或高度远大于平均词的宽度或高度;条件三、整个名片图像分割区域的前景目标中,只有该区域的前景是不同颜色的;如果一个区域满足三个条件中的任何一个,则该区域是图标区域而不是文本区域。
6.声称
5.一种名片识别中关键文本信息的自动检索判断方法,其特征在于,第二个条件是该区域内某个词的词宽或词高大于2.的5倍。平均字宽或字高。
7.声称
6.一种名片识别中关键文本信息的自动检索和确定方法,其特征在于,所述字符参数包括字符高度、字符宽度和字符之间的横向间距。
专利摘要
本发明公开了一种名片识别中关键文本信息的自动检索和确定方法。该方法是首先对获取的名片图像进行字符线划分操作,得到逐行字符区域或连通区域。因此,对字符参数和连通区域个数进行排序,取前几个区域,根据这些区域附近相邻区域的语义是否符合共同确定关键文本信息最终所在的区域职位或头衔。因此,实现了关键文本信息的准确提取。与现有技术相比,本发明具有方法简单、使用方便、字符识别速度快、效率高、准确率高等特点。
文件编号 G06K9/20GKCN1328695SQ2
开放日期 2007 年 7 月 25 日 申请日期 2004 年 12 月 30 日
发明人吴文钦、王浩、夏宇申请人:北京中兴微电子*敏*感*词*出口引文BiBTeX、EndNote、RefMan专利引文(1),
解读:顽石SEO关键词分析工具
顽石SEO关键词分析工具主要用于获取某个词的相关词及长尾词,然后分析百度指数、关键词竞争度、及收录百度收录页面数,增加免费版,傻瓜式操作,只需要输入一个关键词后轻点鼠标即可获取大量有效关键词,本次重写采用百度指数较新算法,获取的关键词个数(不重复)是上老版本的5倍。
顽石SEO关键词分析工具使用说明
顽石SEO关键词分析工具主要用于于获取某个词的相关词及长尾词,然后分析百度指数、关键词竞争度、及收录百度收录页面数。使用示例:查询相关关键词:在“关键词”文本框中输入你想要查询的词,然后直接点击“开始查询”按钮即可。
顽石SEO关键词分析工具功能解释
1、注册后的普通用户可以轻松获取相关词,百度收录相关页面数,当时较推广的网站个数,以及竞争度,可以导出分析结果。
2、VIP用户可以轻松获取相关词、长尾词,百度收录相关页面数,百度较新指数、一周指数、一月指数,当时较推广的网站个数,以及竞争度,可以导出分析结果。
3、“较新指数”功能解释:较新指数就是“较新的百度指数”。“较近7天”和“较近30天”是指较近7天的百度指数总和,较近30天的百度指数总和。
4、“相关页”功能解释:即这个关键词在百度上搜索,会有多少个搜索相关结果页。
5、“广告数”功能解释:即这个关键词在百度上搜索,会有多少个广告显示在搜索结果里。
6、普通用户与VIP用户的区别。
顽石SEO关键词分析工具 v1.1.3更新:
1、增加导出格式;
2、增加关键词指数右键过滤;
3、更新竞争度算法数据;