世界第一!腾讯优图刷新国际权威比赛ICDAR OCR信息提取纪录

近日,腾讯优图在国际权威的ICDAR 2019“Scanned Receipts OCR and Information Extraction”关键信息抽取任务中,通过自研智能结构化方案,以97.67%的Hmean排名刷新榜单纪录。从识别到内容理解,优图OCR正在不断突破技术边界,进行着核心技术的创新。

111.jpg

ICDAR SROIE比赛榜单

222.jpg

ICDAR SROIE榜单结果

ICDAR(International Conference on Document Analysis and Recognition)是全球OCR领域公认最权威的比赛之一, 有OCR领域的奥斯卡盛会之称。ICDAR 在2019年新增了SROIE(Scanned Receipts OCR and Information Extraction)关键信息抽取任务,标志着OCR从识别到理解的进化。

作为首个针对结构化文档提出的信息抽取任务,SROIE因其技术的挑战性和广泛的应用性,一直是全球各大名校、科技公司竞逐的焦点。此次,腾讯优图刷新OCR信息提取纪录,也标志着业界对腾讯OCR科研成果的认可。

333.jpg

优图OCR技术能力

作为快速数据采集的手段,OCR技术已在越来越多贴近消费端需求的真实场景中落地,例如金融、政务、医疗、财务报销等领域,OCR技术在优化业务流程、解放生产力和降低企业成本方面,实效凸显,得到了行业和客户的广泛认可。

据腾讯优图研究人员表示,在此次SROIE任务中主要存在两方面难点,首先是票据中的地址和公司名称字段长短不一,位置近邻,内容相似且干扰较多。其次是,在应付款项字段提取中,同一张票据中可能存在多个相同或相近的金额,例如单价、小计、含税金额、优惠金额等,而不同票据之间对于该项的前缀描述也不尽相同,这些难题对于OCR算法的适应能力更具挑战性。

444.jpg

555.jpg

方案结果对比

为了攻克这两大难题,腾讯优图提出了一种智能结构化模型,基于相对位置Attention的结构避免语义可读性对模型性能的影响。融入图像整体表征,使得模型能够在了解版式分布的同时,关注局部细微差异。此外,腾讯优图还细化了标签层级,内聚关键字段内部特征,强化字段交界处的语义变化表征,提升模型在地址、公司字段难例上的表现效果。因此相较于TOP榜单模型,腾讯优图的智能结构化方案结合自然语言处理能力,不仅在速度上更快,字段提取准确率也更高。

目前,腾讯优图OCR通用文字识别涵盖了印刷体、英文、手写、表格、印章、速算等诸多能力,结构化识别实现了从多个垂直场景结构化到自定义模板结构化方案及智能结构化方案的全覆盖,帮助各产品和业务提升效率、创造价值。

腾讯优图始终积极推动研究成果在业务领域的落地。在OCR领域,腾讯优图基于多角度文本检测、语义增强的文字识别、公式识别、NLP后处理等基础技术,输出了通用文字识别、证照识别、智能票据、单据识别、车辆信息识别、教育试题识别、金融保险单据识别等多个产品及解决方案, 并在政务、金融、教育、医疗等多个应用场景落地。

未来,优图将以更加开放的心态,深耕于技术领域,不断扩展技术成果的落地场景和应用空间,带给大众更多切实便利和惊喜体验。

0 条评论

目前没有人发表评论

发表评论

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。

分享:

支付宝

微信