帮助中心 广告联系

灵宝信息网-灵宝天气预报-灵宝教育网-灵宝租房-灵宝新闻网-灵宝生活网

热门关键词:

关于骡(luó)扬(yánɡ)究竟什么原因?

来源:原创/投稿/转载 发布时间:2023-06-27

  在将文件材料扫描成电子文档的过程中,时常会出现漏字、错位等现象,如何破解这个常见的技术难题?日前,在由中国人工智能学会、中国图象图形学学会主办的2023年度视觉与学习青年学者研讨会上(Vision And Learning SEminar, VALSE),智能文档处理领域的代表合合信息受邀出席,介绍、演示的智能文档处理技术成果,有效地解决了这一困扰众人的问题。

  文档中除文字信息外,通常还含有大量的图片、表格等非文字内容,其版面往往包含页眉、页脚、表格、二维码等多种元素。版面分析技术便是在向系统输入文档图像后,机器会对文字部分和版面元素进行分析和识别,把若干行文字关联起来,从而获得正确的顺序与段落关系。

  版面分析的任务目标被分为物理版面分析和逻辑版面分析两类,物理版面分析主要解决区域分割问题,此类较为简单。而逻辑版面分析则更关注区域之间的逻辑关系或阅读顺序。如何精准地辨别各类元素,并在文档电子化过程中让它们回归到应有的位置,是该项技术的难点之一。

  “版面分析与文档还原技术能够帮助机器看懂文档结构,让文档电子化获得所见即所得的处理效果。”合合信息技术人员在分享环节提到,文档图片的格式转化流程中,在检测、识别完出文字信息中的字符、坐标信息,以及版面中段落、印章、表格等元素信息后,机器才能“理解”文档的组成,更好地将图像“还原”成一个可编辑的Word或Excel文件。

  版面分析的精准度无法提升,文件材料在被拍照、扫描成电子文档的过程中可能出现漏字、错位的现象,还要再进行二次核对编辑,大大增加了工作量,图片转Word、图片转Excel等“可编辑”性的需求也将无法被满足。

  合合信息相关技术人员提到,随着OCR技术应用面的持续拓宽,复杂多变的版面、多样化的文本内容都给文档的识别和还原带来了新的挑战。在提升文档图像电子化的视觉效果、信息提取精准度等方面,“版面分析与文档还原”技术又非常关键,是公司重点发力的方向。

  据了解,合合信息版面分析技术通过深度算法,更精准地确定文档中的文字位置、字体、大小和排版方式等元素,从而精准获取信息,较好地解决了传统算法中对于图像质量要求高的问题。

  相信随着技术和产品的发展,智能文档能够应对更广更深的文档处理工作。未来,合合信息也将持续大力投入相关产品技术研发,加速企业全生命周期文档电子化进程,为用户创造更大的价值。

本网转载作品的目的在于传递更多信息,并不代表本网赞同其观点或证实其内容的真实性,不承担此类作品侵权行为的直接责任及连带责任。如涉及作品内容、版权等问题,请联系我们进行修改或删除!

联系我们 -