一、规则文档图像噪声处理方法(论文文献综述)
方涵[1](2021)在《屏摄鲁棒水印方法研究》文中研究指明随着电子信息技术的发展,越来越多的文件以数字形式进行存储与分享,因为数字文件容易被复制和非法使用,因而如何保护数字文件的版权成为受关注的问题。作为信息隐藏技术的一个重要分支,数字水印能有效实现数字媒体文件版权的保护。它通过在文档、图像、音视频中嵌入标识,证明载体的版权归属。除了版权保护,数字水印还可被用于泄密溯源问题。而随着数字设备的发展,泄密的方式也发生了巨大的变化,这使得传统的数字水印技术已不能满足现阶段泄密溯源的需求。原始的信息泄密往往需要通过硬件接触的方式进行,如U盘拷贝等。而智能设备的高端化和小型化使得信息的记录仅需通过手机拍照过程即可完成,通过手机拍摄屏幕中展示的媒体文件内容,生成的照片就能实现高效高质的信息记录。屏摄的图片既记录了有效信息,又在很大程度上破坏了携带的水印信号,使得传播拍摄照片的泄密行为隐蔽性强,且难以溯源。因此设计出一种能够抵抗屏摄信道传输的数字水印算法是解决屏摄泄密问题的迫切需求。针对此需求,本文开展了屏摄鲁棒水印的研究,使嵌入的水印(如设备编号或时间戳等)在经过了屏摄信道后也能被准确提取,从而实现屏摄泄密溯源的功能。本文围绕屏摄鲁棒水印算法进行两个层次的研究。首先,基于屏摄信道失真的特异性分析,本文设计出能应用于图像载体的屏摄鲁棒水印算法和应用于文档载体的屏摄鲁棒水印算法。之后,针对数字水印算法最关注的两个性能—鲁棒性和透明性,本文分别从嵌入端和提取端入手,设计了基于深度神经网络和基于分色相技术的算法,对这两个性能进行提升。这两个层次四个方面的研究环环相扣,相辅相成,旨在设计出在各个性能上都有较好表现的屏摄鲁棒水印算法。这四个方面的主要工作和创新点总结如下:1.屏摄鲁棒图像水印方法目前的图像水印算法大多还在研究传统电子信道中的失真,仅有少部分工作开始关注跨媒介信道(如打印扫描、打印拍照、屏幕拍照)的失真情况,但屏摄泄密溯源的需求已使得屏摄鲁棒性成为现阶段数字水印最迫切的需求。为了实现对屏摄过程的鲁棒性,本文分析了屏摄过程中产生的特殊失真,包括色彩失真,镜头失真、光源失真和莫尔纹失真。为了抵抗镜头失真引起的几何形变问题,本文提出了一种基于强度的尺度不变特征变换(I-SIFT)算法,该算法能够准确定位水印嵌入区域。针对色彩失真、光源失真和莫尔失真造成的图像细节丢失问题,本文提出了一种基于离散余弦(DCT)系数的小尺寸模板算法,将水印重复嵌入到图像的不同区域中,使得至少有一个完整的信息区域不受失真的影响。在提取端,本文设计了一个基于交叉验证的提取算法来配合重复嵌入的思想,并且通过假设检验验证了提取方法的有效性和正确性。此外,为了提高定位鲁棒性,本文提出了 SIFT特征编辑算法来增强用于定位的关键点的强度,在此基础上算法大幅提高了提取精度和提取速度。实验结果表明,相比于之前的水印方案,本文提出的水印方法在屏摄鲁棒性方面有了显着的提高。2.屏摄鲁棒文档水印方法现有较为鲁棒的文档水印方法是基于语言学的方法,但这类方法往往不能直接应用于不同的语种,所有针对现有文档水印语言不通用及屏摄鲁棒性差的问题,本文设计了一种基于底纹的屏摄鲁棒文档水印方法。具体而言,本文设计的含水印底纹包括三个重要特性。1)隐蔽性。底纹中的水印信号不易被察觉,不易被恶意攻击。2)鲁棒性。为了满足屏摄鲁棒性的需求,本文提出了基于DCT变换的水印嵌入算法和基于失真补偿的提取算法,保证了水印在失真后图像中的可提取性。3)自相关性。为了能在仅拍摄了部分文档的图像中提取水印,本文设计了一种基于翻转自相关的底纹排布方案,该方案赋予底纹的对称性保证了只记录了部分文档时,也可以准确定位完整的水印区域。大量实验表明,与以往的文档水印算法相比,本方案不仅保证了足够的视觉质量,而且保证了足够的屏摄鲁棒性。此外,多机型的拍摄实验也说明了算法具有良好的普适性。3.屏摄水印鲁棒性增强方法模板水印是一种能被用于跨媒介信道的水印方案,其通过专门设计模板来表达水印信号并叠加在图像中从而实现嵌入过程,本文提出的前两种屏摄水印方案也是由模板水印演化而来。传统的模板水印方案大多使用人工设计的提取端进行水印特征提取操作,但除非使用明显的模板特征,否则它们不足以抵抗失真带来的影响,尤其是在屏摄任务上,这一局限更加明显。本文在深度神经网络强大的特征学习能力的启发下,提出了一种基于深度模板的水印算法,有效增强了模板水印算法的提取能力。具体来说,在嵌入端,本文根据人眼视觉效应和鲁棒性分析,提出了模板生成的系列准则,并基于该准则设计了表达信息的模板。在提取端,本文提出了一种“先增强后分类”的两阶段深度神经网络,有效保证了算法对屏摄过程的鲁棒性。大量实验表明该算法在屏摄条件下的提取准确性明显优于传统提取方法。4.屏摄水印透明性增强方法鲁棒性与透明性是水印算法最为关注的两个性质,而现有模板水印算法往往不能保证高鲁棒性下的高透明性。所以本文在保证鲁棒性能的基础上,提出了一种方案来提升算法的透明性。透明性的提升依赖于人眼和相机的观察频率的差异,由于人眼在面对高频闪烁的光线时会发生“闪烁融合”(flicker fusion)现象,即观察到平稳的叠加光线,而相机却能通过曝光过程,即在固定的时间窗口对光线进行采样来记录单帧图像。所以若高频显示两帧含水印图像,相机能有效记录水印信息但人眼却不可感知。在此分析的基础上,本文设计了一种基于分色相技术和注意力机制神经网络的数字水印方案。在嵌入端,本文提出了一种基于拉丁方置乱的水印生成方法,保证了信息的鲁棒性,同时,设计了一种基于色彩分解的互补帧生成算法,能有效生成两帧互补图像用于高频显示,满足了透明性的需求。在提取端,本文提出了一种基于注意力机制的神经网络结构,它能有效地定位小失真区域并实现精准的信息提取。多种拍摄环境下的实验表明了算法在透明性上的优势以及对屏摄过程的强大鲁棒性。
李喜艳[2](2021)在《数字图像的大容量信息隐藏方法研究》文中研究指明随着科学技术的进步,互联网成了便捷通信的主要媒介。通信双方通过各种媒体以安全有效的方式访问网络,其中信息隐写术和数字水印是保障信息安全的常用手段。实现大容量信息隐藏,对于信息安全传输和知识产权保护,有着重要的理论研究价值和现实应用价值。数字图像作为常用的媒体,二十多年来,在数字图像信息隐藏方面已经取得了很多前沿的研究成果,但是,多样式的秘密信息研究,以及大容量和高品质之间的矛盾有待进一步解决。为了实现数字图像大容量信息嵌入、加密域大容量可逆图像信息隐藏、大容量强鲁棒水印的目标,本文主要开展以下内容研究:1.数据流预处理的加密域大容量可逆图像信息隐藏研究。针对加密图像冗余空间有限,以及接收者不能实现图像完全重构的问题,提出了数据流预处理的加密域大容量可逆图像信息隐藏算法。在加密域图像信息隐藏中,图像所有者采用Arnold变换和数独变换对原始载体图像进行加密,保留了原始载体图像的冗余空间;云管理者(数据嵌入者)利用DES加密算法对信息进行了压缩预处理,平均压缩了1.5倍,然后采用最高有效位算法将压缩后的信息嵌入载密图像;接收者采用异或运算提取出秘密信息,秘密信息经过S盒逆变换得到原始秘密消息,同时根据误差值完全恢复载体图像。实验表明,不仅能够实现大容量可逆信息隐藏,而且还能完全重构载体图像,是一种可以广泛应用的加密域信息隐藏方法。2.基于扫描文档的加密域大容量可逆图像信息隐藏研究。针对多媒体信息具有冗余性,影响大容量有效信息的嵌入问题,在上述算法的基础上,分析秘密信息是扫描文档形式,提出了基于扫描文档的加密域大容量可逆图像信息隐藏算法。图像所有者对原始载体图像进行加密;数据嵌入者采用半色调和四叉树技术,提取文档的内容信息,并将其通过DES加密算法压缩预处理,然后采用最高有效位算法将信息嵌入到载密图像;接收者采用异或运算提取出秘密信息。根据提取的秘密信息恢复文档内容,同时根据误差值完全恢复载体图像。实验表明,不仅能够实现扫描文档大容量可逆信息隐藏,而且还能完全重构载体图像,是一种可以广泛应用的加密域信息隐藏方法。3.信息预处理的LSB匹配算法研究。针对LSB匹配算法随着嵌入容量的增大,保真度下降的问题,设计新的映射函数,提出信息预处理的LSB匹配算法。将扫描文档秘密信息采用半色调和四叉树技术预处理,引入黄金分割点,在改变像素较小的情况下,将更多的预处理信息嵌入到最低有效位。经过预处理的扫描文档平均缩小了8.11倍,在隐藏阶段设计引入黄金分割率的映射函数,实现秘密信息的嵌入。接收者根据映射函数很快地提取出秘密信息。实验表明,引入了黄金分割率的LSB匹配算法,不仅图像失真小,而且嵌入容量提升。4.秘密信息非线性替代的可逆数据嵌入方法研究。针对差值扩展算法的不可见性较好,但是嵌入容量不高的问题,提出秘密信息非线性替代的可逆数据嵌入方法。采用半色调和四叉树技术对秘密信息进行预处理,同时将原始载体图像分割成3×3互不重叠的子块。所有子块偶数行和偶数列的像素初始化为可嵌入像素,其他像素为相关像素。计算子块的相邻插值像素和方向插值像素,然后分别将插值像素与可嵌入像素、相关像素的预测误差值和阈值比较,实现预处理信息的嵌入或直方图的调整。通过将秘密信息进行非线性替代,秘密信息的嵌入量大大提高,而且图像的品质得到了很好的保证。实验表明,该方法在大容量秘密信息的通信领域有很好的推广前景。5.大容量强鲁棒的水印算法研究。充分利用离散小波变换和最佳离散余弦变换,根据水印的不同特征,提出了两种方法:基于小波变换和最佳离散余弦变换的大容量强鲁棒水印算法(DWT-ODCT),以及基于水印预处理的小波变换和最佳离散余弦变换的大容量强鲁棒水印算法(P-DWT-ODCT)。水印图像预处理采用半色调和四叉树技术进行预处理,将内容的位置信息提取出来作为实际的嵌入值。载体图像进行DWT变换,对高频子图进行8×8分割和最佳DCT变换操作;信息嵌入到DCT变换矩阵失真最小的位置。在提取水印时,通过系数矩阵最佳位置数据对的比较规则,准确提取出水印内容的位置信息,进而恢复水印图片。实验表明,该研究不仅能够提高水印的有效嵌入量和鲁棒性,而且在剪切、噪声、JPEG压缩和过滤等常规攻击中具备较强的抗攻击能力。本文针对数字图像信息隐藏的容量和图像品质问题,提出了上述解决方案,能够在数据流和扫描文档两种常用的秘密信息形式下,实现大容量高品质的图像信息隐藏。理论分析和实验验证了本文所提方法的有效性。
李学文[3](2020)在《文档图像质量评价系统的设计与实现》文中研究说明随着互联网技术的蓬勃发展以及手机、平板设备等移动设备的硬件的提升,通过拍摄文档采集到的图像在各个行业中都有着广泛的应用,但是在自然场景采集的图像质量参差不齐,直接影响了在后续场景中的使用。通过量化文档图像质量,根据图像质量的好坏来筛选图像,可以优化各种与图像处理相关的应用。文档图像质量评价系统是为了综合地评价文档图像质量,计算多个图像质量评分。通过分析文档图像的特点,本系统设计并实现了多个图像质量评价方法,分别用于计算文档图像的模糊度、形变度、对比度三个评价指标的客观评分,并根据各个方法的实际处理效果计算综合评分。在人机交互方面,该系统以评分计算为核心功能,实现了对评价结果的统计以及可视化,包括单张图像的客观评分和相关参数展示,以及图像数据集的客观评分统计图和表格展示。而且本系统基于Python的Qt工具包进行开发,可以在部署了 Python环境的操作平台上运行。论文详细介绍了文档图像质量评价系统的设计与实现。首先根据文档图像的应用场景分析了功能需求,设计了系统的整体架构。然后调研了系统开发相关的技术,确定各个功能模块的技术实现。接下来进一步地分析各个功能模块的处理流程,完成代码编写的工作,其中图像质量评价模块介绍了自采的文档图像数据集,用于各个评价方法的图像特征提取和实验测试。最后按照功能需求对系统进行测试,分析实验结果并对系统进行优化。实验结果表明,该系统对文档图像质量的评价结果与主观评价基本一致,能够在实际应用中稳定运行。
贾锈闳[4](2020)在《基于深度学习的低质量文档图像二值化算法研究》文中提出作为文档分析系统的预处理步骤,二值化分割文字与背景,这个过程在例如字符识别等要求提取的文字精确且视觉质量高方面起着关键作用。大多数二值化算法以无监督的方式构建在低级特征上,因此无法充分利用输入域知识,会大大限制前景文本与背景噪声的区分。随着深度学习在计算机视觉各个领域的广泛应用,研究者开始采用深度学习模型解决二值化问题,并取得了较好的分割效果。针对于此,本文围绕基于深度学习的低质量文档图像二值化算法展开研究,主要工作及创新点如下:(1)介绍了十二种二值化算法,其中包含六种经典传统算法与六种基于深度学习的最新算法,分别对每种算法进行简要概述,通过实验结果分析算法的优势与不足。(2)算法一首先针对神经网络训练数据集有限的问题,提出一种文本增强网络(TANet)来扩充数据集,充分利用了现有的文档图像;然后将改进后的D-LinkNet网络(MD-LinkNet)作为二值化分割网络。该二值化网络有两处改进,一是在编解码中间部分增加剩余多核池化(RMP)模块与级联空洞卷积(CAC)模块来提取丰富的文档笔画特征;二是将池化后的低分辨率图像采用DUpsample替代传统的双线性插值进行上采样,结合了文档图像的像素邻域信息。采用国际文档图像二值化竞赛(Document Image Binarization Contest,DIBCO)所提供的数据集和评估指标,将该算法与十二种二值化算法进行对比,实验结果表明,算法一的FM值相比较性能次优的DSN算法有5.1%的提升。(3)算法二针对历史文档图像文本分布不均衡,导致单一神经网络的二值化分割存在噪点现象,提出一种级联卷积神经网络来解决二值化任务的多尺度信息融合的核心问题。算法首先采用U-Net网络做基础的分割,旨在保留文档完整的笔画信息;然后将不同比例的图像测试结果进行融合,送入算法一提出的MD-LinkNet进行训练测试;最后采用卷积条件随机场(ConvCRF)进行后处理,去除孤立的噪声点。实验结果表明,该算法在保留完整笔画的同时,对于文字占比较小的文档图像可以较好的抑制噪声。
汤杨[5](2020)在《基于深度学习的购物票据识别方法研究》文中研究说明购物票据作为顾客购物的凭证,记录了顾客的购物时间、购买商品、支付方式、以及支付金额等,是洞察消费行为的数据基础。收集、获取大量购物票据,提取关键信息形成结构化购物篮数据并进行分析和挖掘,从而发现购物模式等是市场营销制定营销策略,开展营销活动的主要手段。市场上广泛使用的购物返现就是其中一种。传统的通过人工录入和人工审核购物票据开展营销活动的方式需要大量的人力成本,自动化程度低,因而亟需探索、开发自动化的购物票据识别以及关键信息提取方法来提高效率、节省成本。文本识别技术为自动提取购物票据图片中的关键信息提供了解决方案。本文面向购物票据文本识别,从购物票据图像处理、文字定位和识别,以及识别结果纠错三个方面开展研究工作。本文的研究工作如下:1、购物票据图像预处理部分,针对通过营销活动平台获取的购物票据图像存在非票据的情况,本文探索了各种满足实际应用的票据图像分类技术,提出了一种基于Dense Net的购物票据分类深度网络,实现购物票据和非购物票据图像的识别,分类准确率达到99%。针对票据图像存在的扭曲、倾斜、变形等影响文字识别精度问题,提出了一种基于DSNT模块的票据文档关键点定位网络,实现票据图像的校正,达到了提高票据文字识别精度的目的。2、在文本定位与识别部分,票据文本识别数据集的构建是本文主要创新点之一。在这一部分中,本文首先提出了一种基于PSENet和CRNN的两阶段文本定位与识别方案,然后,针对票据文本识别领域没有公开可用数据集的问题,提出了一种构建票据文本识别数据集的方式,通过实验证明了本论文合成的数据集在票据文本识别这一特定领域的优良性能。3、为了提高文本识别的精度,在后处理部分,针对票据文本的特点,本文提出了一种基于票据词典的识别结果纠错方法。另外还详细介绍了词典的构建方式以及本论文中所使用的纠错算法的实现,包括编辑距离的计算、基于汉字点阵的汉字相似性度量等,并且在实验部分证明了本文提出的纠错方式的有效性。
王茂森[6](2020)在《复杂场景下矩阵图码识读增强关键技术研究》文中指出图码技术是计算机与信息技术相结合的一门新兴技术,其把编码、印刷、识别、数据采集和处理集成于一体。从20世纪70年代开始,已广泛应用在各个领域。随着现代信息技术发展,一维图码容量不足的问题限制了其应用发展,为了在图码中存储更多的信息,二维图码被研制出来,例如鼎九码、Data Matrix、QR Code、PDF417等,其存储密度是一维图码的几十到几百倍,他们共同特点是信息在水平和垂直方向上扩展,存储在矩形平面内。本文把分布在矩形平面内,具有明确信息的图形称为矩阵图码。与一维图码相比,矩阵图码信息密度较高,识读困难,尤其在光照、噪声、模糊、畸变等复杂场景下,识读更加复杂。为了提高矩阵图码识读的准确率和速度,识读之前需要对图码做增强处理,包括边缘检测、图像增强与二值化等技术。矩阵图码识读增强技术也可以应用在文字、以及由文字组成的文档图像上。本文认为文字和文档图像也是一种特殊的矩阵图码。本文主要研究复杂场景下矩阵图码的识读增强技术,研究内容和创新点如下:1.二维码是比较简单的矩阵图码,在其识读过程中,受到外部光源以及传感器影响,采集的图像出现光线不均匀、噪点多等现象,二维码识读需要根据像素的黑白阈值确认信息,如果图像的噪点很多,影响图码识读的准确性。本文提出基于方差图两次二值化算法,对噪点有很强的抑制能力,以鼎九码为例进行实验验证,很好解决了复杂场景下图码的识读问题。2.在复杂场景下,由于畸变以及噪声干扰,手机拍照文档图像中的文档区域边界可能是不连续的曲线,常规的边缘检测或霍夫变换算法不能很好解决文档图像的边缘检测问题。本文提出动态规划边缘检测算法以及边界组合算法,有效解决了复杂场景下文档图像的边界检测问题。3.手机拍照文档图像,由于畸变、模糊等因素,大小相同字体在不同文档图像中出现不同形状,传统模板匹配和基于人工特征的文字识别方法识别准确率较低,本文提出一种新的基于卷积神经网络文字识别模型,很好的解决了手机拍照文档的文字识别问题。对于场景文字识别,提出了新的场景文本识别模型TRDD,该模型由纯卷积网络组成,与传统的序列文本识别模型相比,网络的训练和预测速度上有很大的提高。4.图像的目标检测中,如果目标太小或者存在多目标的情况,基于HOG,DPM传统目标检测方法,准确率较低。本文提出了基于深度学习的目标检测算法,提高了小目标和多目标的矩阵图码位置检测精度。提出新的场景文本检测模型,提高了场景文本检测速度和准确率。针对复杂场景下图码识读增强问题,本文对二维码的二值化,文档图像的边界检测和增强,手机拍照文档图像以及场景文本检测、识别,提出了相关的图像识读增强算法以及深度学习网络模型,并通过实验证明了算法和模型的有效性,其中有些算法已经应用于实际工程项目和相关产品中。
唐倩[7](2019)在《退化文档图像的二值化问题分析与研究》文中研究说明为了方便阅读,大多数文档的前景文字与背景区域都特意的以高对比度的方式呈现。图像的二值化是文本识别中一个十分重要的步骤。当涉及到退化文档图像的处理时,图像的二值化就成了一项具有挑战性的任务。对于一般的文本图像,二值化非常简单,但是对于退化的文档图像,由于存在不同类型的文档退化,如光照不均匀、图像对比度变化、字符模糊、背景漏色、渗透、墨迹、纸张老化、污迹、纸张折痕等,这些问题使得退化文档图像的二值化难度加大。此外,图像内容的复杂性和字符尺度的多样性使得在某些情况下,从背景和噪声中准确地区分出文档图像的前景变得十分困难。文档图像二值化的目标是将给定的灰度图或彩色文档图像转换成黑白图像的形式。由于退化文档图像的快速检索及传阅的需要,退化文档图像的二值化是一项不可忽视的工作。全文以退化文档图像的二值化为主线,首先对该领域的研究背景以及现状进行了详细阐述。然后,介绍了现有的经典图像二值化算法,包括全局阈值法、局部阈值法、基于统计学的二值化算法和基于深度学习的二值化算法。并针对现有的退化文档图像的二值化问题,我们提出了两种二值化算法,使得到的二值图在能够保留有意义的前景文字信息的同时丢弃噪声信息。第一种是采用传统的图像处理的算法:多阈值融合的局部二值化算法。我们将基于边缘的局部二值化算法与改进后的Sauvola算法进行融合,确保文档图像中前景与背景的分离,提高了图像二值化的质量。另外一种是采用基于级联深度神经网络的二值化算法。我们首先采用深度较浅层的网络,利用卷积操作提取不同尺度上的的特征图,然后,将反卷积得到的特征图与统一尺度下卷积得到的特征图相结合去重建前景图像。在浅层网络结构之后,级联一个较深的网络,并将浅层网络最终的特征图与原始图像相结合作为该深层网络的输入再次训练,得到的模型能够更有效的区分背景噪声与前景文字,从而优化最终的二值化结果。这两种算法无论是在背景噪声抑制方面还是前景文字保留方面都具有一定的优越性。目前我们已经将基于级联深度神经网络的退化文档图像二值化算法应用于实际的项目之中。
苏子健[8](2019)在《基于无透镜单像素成像的多功能扫描仪》文中研究表明单像素成像是一种新颖的成像技术,利用空间光调制器对目标物体的二维甚至三维的空间信息进行编码,只使用一个单像素探测器作为信号采集装置,获取一系列被调制的光信号并利用重构算法重建目标物体的空间信息。与传统的成像方式相比,单像素成像技术的独特成像方式使其在一些特殊应用领域具有明显优势。本论文首先了研究了无透镜单像素成像技术。现有的单像素成像装置,利用透镜等光学系统把空间光调制器产生的结构光投影到目标物体上,再利用透镜将物体反射或透射的光线聚集到单像素探测器上。透镜的使用,使得成像装置不够紧凑、便携。为了减小单像素成像装置的体积,使之具有紧凑、便携的特点,论文研究利用液晶显示屏作为空间光调制器,并利用大面积的柔性薄膜太阳能电池作为单像素探测器,设计出一款厚度仅为2.48mm的轻薄无透镜单像素成像扫描仪。根据设计搭建的无透镜单像素成像扫描仪,利用模拟仿真和实验验证开展了多种功能的应用研究,实现了对无透镜单像素成像扫描仪的灰度扫描、全彩色扫描、字符识别扫描以及实时加密扫描等多种功能的应用。在灰度扫描方面,利用本文设计扫描仪的透射式成像特点,实现了传统扫描仪无法做到的对纸钞水印扫描的功能;在全彩色扫描功能上嵌入线性颜色校正算法,实现了较高质量的彩色扫描效果;实现了分别对不同字体类型、不同字号大小以及不同厚度纸张上文本文档扫描结果的字符识别功能;根据特定的规则,置换哈达玛基底图的像素顺序,实现了文档扫描过程的实时加密,可以做到在保证扫描质量和效率的同时提高加密扫描的保密性。与传统扫描仪相比,本论文研究设计的无透镜单像素成像扫描仪,没有光学透镜组件和机械扫描部件,扫描过程无噪音、结构轻薄紧凑便携,并利用透射式成像特点,可扫描纸钞水印和纸张纹理等重要信息。无透镜单像素成像扫描仪很好弥补了传统扫描仪结构相对复杂和夹杂机械扫描噪音等不足,透射式的成像和传统扫描仪的反射式成像形成互补,并可实现字符识别扫描和实时加密扫描,在许多领域将具有广泛的应用前景。
张青[9](2019)在《文档图像的版面分析与文本行提取算法研究》文中提出纸质文档数字化有着广阔的应用前景。利用光学字符识别技术,可以直接从图像中提取我们所需要的数据,会极大方便信息的存储、处理和检索,也将会减轻人手工录入信息的负担。准确的文本行提取是顺利完成文本识别的重要前提保证。当前基于CNN+LSTM+CTC等深度学习模型不断提出,有效地解决了端到端不定长文本字符的识别问题,但对行提取的性能远未令人满意。所以本文主要将研究如何从原始图片更有效而准确的实现页面中文本行的提取。由于图片文档存在图片倾斜和背景复杂的问题,可能会含有大量噪声或者无效信息,将会影响最终的识别结果。故首先介绍了对复杂背景的文档进行倾斜矫正和图像去噪增强的预处理的方法。本文研究的重点是文档对象的检测与识别,准确的文档对象识别是顺利实现文本行提取的前提。本文提出了基于深度学习的目标检测和语义分割算法实现文本对象识别与检测的方法,有效解决了传统方法较难提取页面特征、方法通用性差的问题。同时针对文档对象检测的特点,本文在通用的算法上修改锚框机制、修改损失函数、修改感兴趣区域层映射和归一化方式,并采用多尺度特征融合等方法,使得算法在检测结果上有了进一步提高,该算法在ICDAR 2017页面文档对象评测集上将交并比指标为0.6和0.8上的平均精度均值从0.787和0.637提升到了0.865和0.752。根据文档对象检测的结果,在不同的文档区域做相应的处理以减少对整个文档造成的信息损失,如表格区域进行去线处理,印章区域分离颜色通道进行移除处理。同时针对纯文本页面和含有表格页面的文本分布的不同特点,本文分别设计了不同的文本行提取算法。其中纯文本页面的文本行提取本文采用了基于深度学习的自然场景文本检测算法CTPN和投影法相结合的方法提取文本行区域,有效解决了页面背景复杂下的文本行提取问题。本文通过设计针对页面特点的文本行提取算法,实现了较好的文本行提取。将上述工作后得到的文本行区域记录位置提取,送到识别引擎进行识别,就完整的构成了一整套文档识别系统。整个系统选择本地文档图像后,会依次进行文档的倾斜矫正、去噪、文档对象识别与检测、表格线去除、去印章等步骤,并将文本行区域提取传递给后端识别引擎。经过测试,系统在在图像去噪、文档对象检测、文本行提取上都取得了良好的效果,整个系统具有较好的实用价值。
苏向东[10](2016)在《基于深度学习和知识策略的蒙古文古籍识别研究》文中进行了进一步梳理蒙古文古籍为研究蒙古社会政治和历史文化提供了丰富和可靠的资料。为更好地抢救、整理和利用蒙古文古籍,内蒙古大学图书馆启动了古籍电子化工作,将其扫描转换成图像格式存储,并向读者提供了电子化服务。但是,古籍图像不能再编辑,且检索效率低,分析和挖掘难度大,亟需利用文字识别技术将其转换为文本文档。蒙古文古籍采用木刻雕版工艺印刷,具有排版不够规整、字形差异显着、文字颜料扩散和脱落等特点,给识别工作带来很大挑战。本文以《御制蒙古文甘珠尔经》为研究对象,在蒙古文古籍识别方面开展了一系列研究,主要内容如下:1.本文提出了蒙古文古籍单词的有效识别方法。在分析整词识别和基于切分的单词识别两种方案优缺点的基础上,结合蒙古文古籍单词特点,提出了整词识别和基于切分的单词识别的混合策略,对高度较低且字形基元切分难度大的单词采用整词识别的方法进行识别,对其余单词采用基于字形基元切分的识别方法进行识别,通过实验确定了两种方法的选择依据。2.本文提出了半自动样本选取方法。为达到理想的识别精度,需要大量样本训练识别中使用的卷积神经网络,为克服人工选取样本效率低的缺点,提出了半自动的样本选取方法,首先利用分类器对未分类的全部样本进行粗分类,然后人工去除每类中不正确的样本,最后将每类中剩余样本作为最终训练样本。训练样本选取分类器的过程采用了书写者适应性调整、利用形态学方法生成伪训练样本、多次循环策略。3.本文提出了蒙古文古籍单词的字形基元切分方法。由于蒙古文古籍单词存在严重的形变和字形基元重叠现象,针对机器印刷体蒙古文单词的切分方法难以奏效。分析了蒙古文古籍单词外形特征,提出了基于轮廓分析的字形基元切分方法,首先提取单词轮廓上的关键点,其次利用轮廓关键点定位单词主干线,最后利用轮廓关键点和主干线信息生成分割线。为简化轮廓关键点检测步骤并避免轮廓噪声的影响,利用多边形作为单词外轮廓的近似。4.本文提出了三种基于知识的策略来提升单词识别精度。在基于切分的单词识别方法中,字形基元的识别结果用于生成单词的识别结果,通过分析识别结果,发现导致单词识别错误的原因是字形基元切分不合理和字形基元识别错误。为进一步提升单词识别精度,结合蒙古文的构词知识提出三种策略并应用于字形基元识别环节,分别是整合主干线信息策略、字形基元分组策略,以及识别欠切分和过切分片段策略。5.本文提出了古典蒙古文词典的构建方法和基于字形基元相邻规则的错误检测方法,并评测了基于词典和基于字形基元相邻规则的错误检测方法各自的性能,分别采用加权编辑距离模型和噪声信道模型进行错误校正,根据识别结果和字形知识为这两种模型分配编辑操作的权重,结合识别方法简化噪声信道模型以减少计算量。
二、规则文档图像噪声处理方法(论文开题报告)
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
三、规则文档图像噪声处理方法(论文提纲范文)
(1)屏摄鲁棒水印方法研究(论文提纲范文)
摘要 |
abstract |
第1章 绪论 |
1.1 研究背景与意义 |
1.1.1 数字水印对多媒体内容安全的意义 |
1.1.2 水印技术的新需求和新挑战—从电子信道到屏摄信道 |
1.2 国内外研究现状及趋势 |
1.2.1 图像水印技术研究现状 |
1.2.2 文档水印技术研究现状 |
1.2.3 基于深度学习的数字水印技术研究现状 |
1.2.4 屏幕相机通信技术研究现状 |
1.3 论文的研究内容与创新点 |
1.3.1 图像载体屏摄水印算法 |
1.3.2 文档载体屏摄水印算法 |
1.3.3 屏摄水印鲁棒性增强方法 |
1.3.4 屏摄水印透明性增强方法 |
1.4 论文结构安排 |
第2章 基本理论与方法 |
2.1 数字水印基本模型 |
2.1.1 自适应/非自适应水印系统 |
2.1.2 盲/半盲/非盲水印系统 |
2.2 评价指标 |
2.2.1 视觉质量评价 |
2.2.2 鲁棒性评价 |
2.3 水印编码与图像处理基本算法 |
2.3.1 BCH编码及CRC校验码 |
2.3.2 离散余弦变换 |
2.3.3 直方图均衡化 |
2.3.4 高斯差分金字塔 |
2.3.5 深度学习神经网络基本结构 |
第3章 屏摄鲁棒图像水印方法 |
3.1 引言 |
3.2 屏摄失真分析及算法设计思路 |
3.3 基于SIFT关键点和DCT系数的屏摄鲁棒水印方案 |
3.3.1 水印嵌入流程 |
3.3.2 水印提取流程 |
3.3.3 特征点强度编辑方案 |
3.4 实验结果与分析 |
3.4.1 DCT中频系数对的选择 |
3.4.2 嵌入区域个数k的选择 |
3.4.3 阈值th的选择 |
3.4.4 屏摄鲁棒性测试 |
3.5 本章小结 |
第4章 屏摄鲁棒文档水印方法 |
4.1 引言 |
4.2 关键问题分析 |
4.3 基于翻转自相关的屏摄文档水印方案 |
4.3.1 水印的嵌入流程 |
4.3.2 水印的提取流程 |
4.4 实验结果与分析 |
4.4.1 不同底纹生成文档的视觉质量 |
4.4.2 屏摄鲁棒性测试 |
4.4.3 算法普适性测试 |
4.5 本章小结 |
第5章 屏摄水印鲁棒性增强方法 |
5.1 引言 |
5.2 关键问题分析 |
5.3 基于深度神经网络提取端的模板水印方案 |
5.3.1 水印的嵌入流程 |
5.3.2 水印的提取流程 |
5.4 实验结果与分析 |
5.4.1 实现细节 |
5.4.2 鲁棒性测试 |
5.4.3 补充实验 |
5.5 本章小结 |
第6章 屏摄水印透明性增强方法 |
6.1 引言 |
6.2 关键问题分析 |
6.3 基于分色相技术和注意力机制神经网络的屏摄鲁棒水印方法 |
6.3.1 水印的嵌入流程 |
6.3.2 水印的提取流程 |
6.4 实验结果与分析 |
6.4.1 实现细节 |
6.4.2 视觉质量评估 |
6.4.3 鲁棒性测试 |
6.4.4 补充实验 |
6.5 本章小结 |
第7章 总结与展望 |
7.1 论文总结 |
7.2 未来工作展望 |
参考文献 |
致谢 |
在读期间发表的学术论文与取得的研究成果 |
(2)数字图像的大容量信息隐藏方法研究(论文提纲范文)
摘要 |
abstract |
第一章 绪论 |
1.1 研究背景与意义 |
1.2 国内外研究现状 |
1.2.1 现有的主要信息隐藏算法 |
1.2.2 大容量信息隐藏方法研究进展 |
1.2.3 加密域信息隐藏算法研究进展 |
1.2.4 大容量强鲁棒水印算法研究进展 |
1.3 经典图像质量评价法 |
1.3.1 均方误差 |
1.3.2 峰值信噪比 |
1.3.3 结构相似性 |
1.4 论文主要工作与创新点 |
1.5 论文组织结构 |
第二章 数据流预处理的加密域大容量可逆图像信息隐藏 |
2.1 相关工作 |
2.2 数据流预处理的RDHEI模型 |
2.3 算法原理 |
2.3.1 图像加密 |
2.3.2 信息隐藏 |
2.3.3 信息提取和图像重构 |
2.4 实验结果与分析 |
2.5 本章小结 |
第三章 基于扫描文档的加密域大容量可逆图像信息隐藏 |
3.1 预备知识 |
3.1.1 半色调技术 |
3.1.2 四叉树图像分割 |
3.2 基于扫描文档的RDHEI模型 |
3.3 算法的工作原理 |
3.3.1 图像加密 |
3.3.2 信息隐藏 |
3.3.3 信息提取与图像重构 |
3.4 实验结果与分析 |
3.5 本章小结 |
第四章 信息预处理的LSB匹配算法 |
4.1 最优LSB算法 |
4.2 LSB匹配算法 |
4.3 信息预处理的LSB匹配算法 |
4.3.1 信息隐藏 |
4.3.2 信息提取 |
4.4 实验结果与分析 |
4.4.1 数据分析 |
4.4.2 数据比较 |
4.5 本章小结 |
第五章 秘密信息非线性替代的可逆数据嵌入方法 |
5.1 误差扩展算法 |
5.1.1 算法思想 |
5.1.2 简单示例 |
5.2 秘密信息非线性替代的差值算法 |
5.2.1 秘密信息嵌入 |
5.2.2 信息提取和图像恢复 |
5.3 实验结果与分析 |
5.3.1 数据分析 |
5.3.2 数据对比 |
5.4 本章小结 |
第六章 基于大容量强鲁棒的图像水印算法 |
6.1 相关工作 |
6.2 DWT-ODCT方法 |
6.2.1 人类视觉特征值 |
6.2.2 心理视觉阈值 |
6.2.3 水印嵌入 |
6.2.4 水印提取 |
6.3 P-DWT-ODCT方法 |
6.3.1 水印预处理 |
6.3.2 水印嵌入和提取 |
6.4 实验结果与分析 |
6.4.1 数据分析 |
6.4.2 数据比较 |
6.5 本章小结 |
第七章 总结与展望 |
7.1 本文的研究内容和成果 |
7.2 下一步的工作展望 |
参考文献 |
作者简历 |
致谢 |
(3)文档图像质量评价系统的设计与实现(论文提纲范文)
摘要 |
ABSTRACT |
第一章 绪论 |
1.1 课题背景 |
1.2 课题主要研究内容 |
1.3 主要工作内容 |
1.4 论文组织结构 |
第二章 相关技术 |
2.1 文档图像质量评价的相关方法 |
2.1.1 模糊度评价方法 |
2.1.2 形变度评价方法 |
2.1.3 对比度评价方法 |
2.1.4 图像数据集 |
2.2 软件开发工具包 |
2.2.1 Qt |
2.2.2 OpenCV |
2.2.3 Python科学计算工具包 |
2.3 本章小节 |
第三章 系统的总体设计 |
3.1 需求分析 |
3.1.1 功能性需求分析 |
3.1.2 非功能性需求分析 |
3.1.3 开发环境及系统架构 |
3.1.4 系统功能模块划分 |
3.2 本地存储模块 |
3.2.1 系统配置模块 |
3.2.2 语言模块 |
3.2.3 数据库模块 |
3.3 图形用户界面模块 |
3.3.1 系统主界面 |
3.3.2 各个窗口部件的详细设计 |
3.4 图像质量评价模块 |
3.5 本章小节 |
第四章 模糊度评价模块的设计与实现 |
4.1 文档图像的模糊类型 |
4.2 模糊度评价方法的设计与实现 |
4.2.1 整体设计 |
4.2.2 特征图像构造 |
4.2.3 中心矩计算 |
4.2.4 分类模型训练 |
4.2.5 客观评分计算 |
4.3 实验及结果分析 |
4.3.1 图像数据集 |
4.3.2 测试指标 |
4.3.3 分类模型测试 |
4.3.4 模糊特征选择 |
4.3.5 对比测试 |
4.4 本章小节 |
第五章 形变度评价模块的设计与实现 |
5.1 文档图像的文档形变类型 |
5.2 形变度评价方法的设计与实现 |
5.2.1 整体设计 |
5.2.2 图像预处理 |
5.2.3 文档轮廓提取 |
5.2.4 客观评分计算 |
5.2.5 文档区域裁剪 |
5.3 实验及结果分析 |
5.3.1 图像数据集 |
5.3.2 测试指标 |
5.3.3 人工标注测试 |
5.3.4 文档轮廓提取测试 |
5.3.5 运行时间测试 |
5.4 本章小结 |
第六章 对比度评价模块的设计与实现 |
6.1 文档图像的对比度 |
6.2 对比度评价方法的设计与实现 |
6.2.1 整体设计 |
6.2.2 图像特征计算 |
6.2.3 回归模型训练 |
6.3 实验测试 |
6.3.1 图像数据集 |
6.3.2 测试指标 |
6.3.3 功能测试 |
6.3.4. 运行时间测试 |
6.4 本章小节 |
第七章 系统测试 |
7.1 本地存储模块测试 |
7.1.1 系统配置模块 |
7.1.2 语言模块 |
7.1.3 数据库模块 |
7.2 图形用户界面模块测试 |
7.2.1 文件列表部件 |
7.2.2 评价结果展示部件 |
7.2.3 图像展示部件 |
7.2.4 客观评分统计表部件 |
7.2.5 客观评分统计图部件 |
7.3 基本功能测试 |
7.3.1 文档图像质量评价功能测试 |
7.3.2 文档区域裁剪功能测试 |
7.3.3 客观评分统计功能测试 |
7.3.4 整体运行时间测试 |
7.3.5 其余功能测试 |
7.4 本章小结 |
第八章 总结与展望 |
8.1 本文工作总结 |
8.2 下一步研究工作与建议 |
参考文献 |
致谢 |
攻读学位期间发表的学术论文目录 |
(4)基于深度学习的低质量文档图像二值化算法研究(论文提纲范文)
摘要 |
Abstract |
第1章 绪论 |
1.1 研究背景及意义 |
1.2 国内外研究现状 |
1.3 研究内容以及创新点 |
1.4 论文结构安排 |
第2章 低质量文档图像二值化算法概述 |
2.1 经典传统算法 |
2.1.1 Otsu算法 |
2.1.2 Niblack算法 |
2.1.3 Sauvola算法 |
2.1.4 SSPs算法 |
2.1.5 Howe算法 |
2.1.6 GiB(Game inspired Binarization)算法 |
2.2 卷积神经网络算法 |
2.2.1 卷积神经网络简介 |
2.2.2 FCN算法 |
2.2.3 SAE(Selectional Auto-encoder)算法 |
2.2.4 DSN(Deep Supervision Network)算法 |
2.2.5 U-Net算法 |
2.2.6 c-GAN(conditional Generator Adversarial Network)算法 |
2.2.7 Attention-mode算法 |
2.3 实验相关项介绍 |
2.3.1 数据集 |
2.3.2 评价指标 |
2.3.3 实验平台 |
2.4 本章小结 |
第3章 基于纹理增强的MD-Link Net的二值化算法 |
3.1 引言 |
3.2 相关理论介绍 |
3.2.1 卷积感受野 |
3.2.2 条件生成对抗网络(c GAN) |
3.3 算法流程 |
3.3.1 TANet(文本增强网络) |
3.3.2 MD-Link Net网络结构 |
3.4 实现细节 |
3.4.1 数据处理 |
3.4.2 损失函数 |
3.4.3 测试阶段 |
3.5 实验结果与分析 |
3.6 本章小结 |
第4章 基于级联卷积神经网络的二值化算法 |
4.1 引言 |
4.2 算法流程 |
4.2.1 U-Net分割网络 |
4.2.2 MD-Link Net二次分割 |
4.2.3 后期处理 |
4.3 实现细节 |
4.3.1 模型初始化 |
4.3.2 损失函数 |
4.4 实验结果与分析 |
4.5 本章小结 |
第5章 总结与展望 |
5.1 论文总结 |
5.2 论文展望 |
参考文献 |
致谢 |
附录攻读硕士学位期间学术成果 |
Ⅰ 发表的学术论文 |
Ⅱ 申请发明专利与软件着作权 |
Ⅲ 参与科研项目 |
Ⅳ 获奖情况 |
(5)基于深度学习的购物票据识别方法研究(论文提纲范文)
摘要 |
Abstract |
第1章 引言 |
1.1 研究背景与研究意义 |
1.2 OCR技术研究现状 |
1.2.1 图像预处理 |
1.2.2 文本定位 |
1.2.3 文本识别 |
1.2.4 后处理 |
1.3 本文主要研究内容及论文组织 |
1.3.1 本文主要研究内容 |
1.3.2 本文组织 |
第2章 购物票据图像预处理 |
2.1 概述 |
2.2 票据图像分类 |
2.2.1 基于DenseNet的票据图像分类 |
2.2.2 实验与分析 |
2.3 文档关键点定位 |
2.3.1 基于可微分空间坐标转换的票据图像关键点定位 |
2.3.2 实验与分析 |
2.4 文档倾斜校正 |
2.5 本章小结 |
第3章 文本定位与识别 |
3.1 概述 |
3.2 两阶段文本定位与识别 |
3.2.1 文本定位 |
3.2.2 文本识别 |
3.3 文本识别数据集的构建 |
3.4 实验结果 |
3.4.1 文本定位 |
3.4.2 文本识别 |
3.5 本章小结 |
第4章 识别结果后处理 |
4.1 概述 |
4.2 基于票据词典的识别结果后处理 |
4.2.1 方法概述 |
4.2.2 词典构建 |
4.2.3 纠错算法 |
4.3 实验结果 |
4.3.1 实验数据以及参数说明 |
4.3.2 实验结果与分析 |
4.4 本章小结 |
结论 |
参考文献 |
附录 A 发表论文和参加科研情况说明 |
致谢 |
(6)复杂场景下矩阵图码识读增强关键技术研究(论文提纲范文)
摘要 |
ABSTRACT |
第一章 绪论 |
1.1 研究背景和意义 |
1.2 国内外研究现状及发展趋势 |
1.2.1 二维码识读技术 |
1.2.2 文档图像边界检测技术 |
1.2.3 文档图像增强技术 |
1.2.4 矩阵图码检测技术 |
1.2.5 文字识别技术 |
1.3 主要工作以及贡献 |
1.4 本文的章节内容安排 |
第二章 二维码识读技术研究 |
2.1 引言 |
2.2 二维码识读技术 |
2.2.1 二维码识读流程 |
2.2.2 鼎九码识读算法 |
2.3 图像二值化算法 |
2.3.1 全局阈值法 |
2.3.2 局部自适应二值化算法 |
2.4 基于图像方差图二值化算法(TBAIV) |
2.4.1 图像的方差图 |
2.4.2 图像的积分图 |
2.4.3 TBAIV算法流程 |
2.4.4 实验结果 |
2.5 小结 |
第三章 基于动态规划文档图像的边界检测算法 |
3.1 引言 |
3.2 预备知识 |
3.2.1 手机拍照文档图像特点 |
3.2.2 动态规划算法 |
3.3 文档图像边界检测方法 |
3.3.1 划分检测区域 |
3.3.2 边缘线检测 |
3.4 基于动态规划的边界检测 |
3.4.1 最优路径函数C(i,j)及像素点特征函数 |
3.4.2 最长路径的回溯方法 |
3.5 边界组合算法 |
3.6 实验 |
3.6.1 PC机上测试 |
3.6.2 手机平台上测试 |
3.7 小结 |
第四章 基于局部自适应文档图像增强算法 |
4.1 引言 |
4.2 图像增强技术介绍 |
4.2.1 常用图像增强技术 |
4.2.2 手机拍照文档图像的特点 |
4.3 文档图像增强算法 |
4.3.1 文档图像的偏色处理 |
4.3.2 直方图拉伸算法 |
4.3.3 特殊区域的处理低 |
4.3.4 减少网格效应 |
4.4 实验 |
4.4.1 源图像与增强后图像的一致性测试 |
4.4.2 增强前后的图像对比测试 |
4.5 小结 |
第五章 基于卷积神经网络文字识别技术 |
5.1 卷积神经网络发展 |
5.2 卷积神经网络的组成 |
5.2.1 输入层 |
5.2.2 卷积层 |
5.2.3 池化层(Pooling Layer) |
5.2.4 Inception模块 |
5.2.5 激励函数(Activation Function) |
5.3 基于卷积神经网络中文识别方法 |
5.3.1 训练数据准备 |
5.3.2 网络结构 |
5.3.3 模型训练 |
5.3.4 网络优化 |
5.4 文字识别技术在在线教育上实践应用 |
5.4.1 项目描述 |
5.4.2 算法设计原则 |
5.4.3 文本行检测 |
5.4.4 文本行识别 |
5.5 小结 |
第六章 一种新的序列文本识别模型 |
6.1 序列文本识别技术介绍 |
6.1.1 序列模型介绍 |
6.1.2 文本序列识别模型 |
6.1.3 TRDD模型 |
6.2 TRDD序列文本识别模型 |
6.3 实验 |
6.3.1 感受野分析 |
6.3.2 训练过程网络收敛速度和精度对比 |
6.3.3 测试过程模型识别速度和准确率对比 |
6.3.4 手机拍照图像的文本识别 |
6.4 小结 |
第七章 基于深度学习矩阵图码边界检测方法 |
7.1 引言 |
7.2 基于候选区域的边界检测算法 |
7.3 BORD边界检测算法 |
7.3.1 网络结构图 |
7.3.2 网络参数优化 |
7.3.3 实验数据 |
7.4 总结 |
第八章 一种新的场景文本检测模型 |
8.1 引言 |
8.2 场景文本检测技术介绍 |
8.3 RFTD场景文本检测算法 |
8.3.1 特征提取网络 |
8.3.2 网络检测方法 |
8.3.3 实验结果 |
8.4 小结 |
第九章 总结与展望 |
9.1 本文工作总结 |
9.2 未来工作展望 |
附录 缩略语 |
参考文献 |
致谢 |
攻读博士学位期间学术成果目录 |
(7)退化文档图像的二值化问题分析与研究(论文提纲范文)
中文摘要 |
英文摘要 |
1 绪论 |
1.1 研究背景及意义 |
1.2 国内外研究现状 |
1.3 研究内容与创新点 |
1.4 本文结构安排 |
2 退化文档二值化算法概述 |
2.1 引言 |
2.2 传统阈值算法 |
2.2.1 全局阈值法 |
2.2.2 局部阈值法 |
2.3 基于机器学习的阈值化算法 |
2.3.1 基于统计学的二值化算法 |
2.3.2 基于学习的二值化算法 |
2.4 二值化算法性能评估指标 |
2.5 公用数据集介绍 |
2.6 本章小结 |
3 多阈值融合的局部二值化算法 |
3.1 引言 |
3.2 基于边缘的局部二值化算法 |
3.3 改进的Sauvola算法局部二值化算法 |
3.4 多阈值融合的局部二值化算法 |
3.5 实验结果与分析 |
3.6 本章小结 |
4 基于深度学习的退化文档图像二值化算法 |
4.1 引言 |
4.2 训练数据的扩展 |
4.3 网络结构 |
4.3.1 基于卷积神经网络的特征提取 |
4.3.2 本文网络结构 |
4.4 损失函数 |
4.5 实验结果与分析 |
4.5.1 与传统经典算法比较 |
4.5.2 与非级联深度网络结构比较 |
4.6 本章小结 |
5 总结与展望 |
5.1 论文工作总结 |
5.2 论文研究展望 |
参考文献 |
附录 |
A 作者在攻读硕士学位期间发表的论文和专利 |
B 学位论文数据集 |
致谢 |
(8)基于无透镜单像素成像的多功能扫描仪(论文提纲范文)
摘要 |
Abstract |
第1章 绪论 |
1.1 课题研究背景 |
1.1.1 单像素成像研究现状 |
1.1.2 传统扫描仪 |
1.1.3 无透镜成像 |
1.2 课题研究意义 |
1.3 本论文研究工作 |
第2章 无透镜单像素成像技术及扫描仪设计 |
2.1 无透镜单像素成像扫描仪 |
2.1.1 单像素成像扫描仪原理 |
2.1.2 无透镜单像素扫描装置 |
2.2 灰度扫描仿真与实验 |
2.2.1 灰度扫描算法仿真 |
2.2.2 灰度扫描实验 |
2.3 全彩色扫描仿真与实验 |
2.3.1 彩色扫描原理 |
2.3.2 彩色扫描算法仿真 |
2.3.3 彩色扫描实验 |
2.4 本章小结 |
第3章 单像素扫描光学字符识别 |
3.1 单像素扫描光学字符识别原理 |
3.2 单像素扫描光学字符识别实验 |
3.2.1 不同字号大小及字体类型的单像素扫描光学字符识别实验 |
3.2.2 不同厚度纸张的单像素扫描光学字符识别实验 |
3.3 本章小结 |
第4章 实时加密单像素成像扫描 |
4.1 引言 |
4.2 加密扫描算法原理 |
4.3 加密扫描算法仿真 |
4.4 加密扫描实验 |
4.5 本章小结 |
第5章 总结与展望 |
5.1 全文总结 |
5.2 讨论 |
5.3 研究展望 |
参考文献 |
攻读硕士学位期间发表的学术论文 |
致谢 |
(9)文档图像的版面分析与文本行提取算法研究(论文提纲范文)
摘要 |
ABSTRACT |
第1章 绪论 |
1.1 课题来源 |
1.2 课题研究的目的及意义 |
1.3 国内外相关技术研究现状 |
1.3.1 复杂文档版面分析研究现状 |
1.3.2 自然场景的文字识别研究现状 |
1.4 本文的主要研究内容 |
1.5 本文的章节结构 |
第2章 文档识别与检测的相关技术 |
2.1 基于深度学习的目标检测算法 |
2.2 基于深度学习的语义分割算法 |
2.3 文档切分 |
2.4 本章小结 |
第3章 基于深度学习的文档对象检测 |
3.1 引言 |
3.2 预处理 |
3.2.1 倾斜文档图像矫正 |
3.2.2 图像去噪与增强 |
3.3 基于深度学习的文档对象检测 |
3.3.1 基于深度学习目标检测算法的文档对象检测 |
3.3.2 基于深度学习目标检测算法的文档对象检测算法改进 |
3.3.3 基于深度学习语义分割算法的文档对象检测 |
3.3.4 基于深度学习语义分割算法的文档对象检测算法改进 |
3.3.5 基于深度学习的文档对象检测实验结果 |
3.4 本章小结 |
第4章 文本行检测与提取 |
4.1 表格和印章处理 |
4.2 文本行检测与提取 |
4.2.1 纯文本页面的文本行检测 |
4.2.2 有表格页面的文本行检测 |
4.2.3 文本行检测实验结果 |
4.3 本章小结 |
结论 |
参考文献 |
致谢 |
(10)基于深度学习和知识策略的蒙古文古籍识别研究(论文提纲范文)
摘要 |
ABSTRACT |
第1章 引言 |
1.1 课题的背景和意义 |
1.2 文字识别技术的发展与现状 |
1.3 蒙古文古籍介绍 |
1.3.1 古典蒙古文 |
1.3.2 蒙古文古籍 |
1.4 本文的研究内容和创新点 |
1.4.1 研究内容 |
1.4.2 创新点 |
1.5 论文结构安排 |
第2章 蒙古文古籍识别方案及预处理 |
2.1 引言 |
2.2 蒙古文古籍识别方案 |
2.2.1 识别单元和编码方案 |
2.2.2 识别方案和流程 |
2.2.3 单词识别方法的选择 |
2.3 蒙古文古籍预处理 |
2.3.1 文档二值化 |
2.3.2 文档列切分 |
2.3.3 单词切分 |
2.3.4 单词去噪 |
2.4 小结 |
第3章 基于卷积神经网络的整词识别 |
3.1 引言 |
3.2 卷积神经网络 |
3.2.1 深度学习介绍 |
3.2.2 卷积神经网络 |
3.3 半自动选取训练样本 |
3.4 卷积神经网络参数训练 |
3.5 实验 |
3.5.1 蒙古文古籍标注 |
3.5.2 实验数据 |
3.5.3 实验结果及分析 |
3.6 小结 |
第4章 基于字形基元切分的单词识别 |
4.1 引言 |
4.2 基于轮廓分析的字形基元切分 |
4.2.1 轮廓关键点检测 |
4.2.2 主干线定位 |
4.2.3 分割线生成 |
4.3 基于卷积神经网络的字形基元识别 |
4.4 基于知识的系统性能提升策略 |
4.4.1 整合主干线信息 |
4.4.2 字形基元分组 |
4.4.3 识别欠切分和过切分片段 |
4.5 实验 |
4.5.1 实验数据和参数设置 |
4.5.2 性能评测 |
4.6 小结 |
第5章 识别后处理 |
5.1 引言 |
5.2 错误检测 |
5.2.1 古典蒙古文词典构建 |
5.2.2 字形基元相邻规则 |
5.3 错误校正 |
5.3.1 加权编辑距离模型 |
5.3.2 改进噪声信道模型 |
5.4 实验 |
5.4.1 实验数据 |
5.4.2 实验结果及分析 |
5.5 小结 |
第6章 总结与展望 |
6.1 本文工作总结 |
6.2 未来工作展望 |
参考文献 |
致谢 |
攻读博士学位期间发表的论文 |
攻读博士学位期间参加的科研项目 |
四、规则文档图像噪声处理方法(论文参考文献)
- [1]屏摄鲁棒水印方法研究[D]. 方涵. 中国科学技术大学, 2021(09)
- [2]数字图像的大容量信息隐藏方法研究[D]. 李喜艳. 战略支援部队信息工程大学, 2021(01)
- [3]文档图像质量评价系统的设计与实现[D]. 李学文. 北京邮电大学, 2020(05)
- [4]基于深度学习的低质量文档图像二值化算法研究[D]. 贾锈闳. 湖北工业大学, 2020(08)
- [5]基于深度学习的购物票据识别方法研究[D]. 汤杨. 湖南大学, 2020(08)
- [6]复杂场景下矩阵图码识读增强关键技术研究[D]. 王茂森. 北京邮电大学, 2020(01)
- [7]退化文档图像的二值化问题分析与研究[D]. 唐倩. 重庆大学, 2019(01)
- [8]基于无透镜单像素成像的多功能扫描仪[D]. 苏子健. 暨南大学, 2019(07)
- [9]文档图像的版面分析与文本行提取算法研究[D]. 张青. 哈尔滨工业大学, 2019(02)
- [10]基于深度学习和知识策略的蒙古文古籍识别研究[D]. 苏向东. 内蒙古大学, 2016(08)