腾讯优图刷新国际权威比赛ICDAR OCR信息提取纪录
从识别到内容理解,优图OCR正在不断突破技术边界。
近日,腾讯优图在国际权威的ICDAR 2019“Scanned Receipts OCR and Information Extraction”关键信息抽取任务中,通过自研智能结构化方案,以97.67%的Hmean排名刷新榜单纪录。从识别到内容理解,优图OCR正在不断突破技术边界,进行着核心技术的创新。
ICDAR(International Conference on Document Analysis and Recognition)是全球OCR领域公认最权威的比赛之一, 有OCR领域的奥斯卡盛会之称。ICDAR 在2019年新增了SROIE(Scanned Receipts OCR and Information Extraction)关键信息抽取任务,标志着OCR从识别到理解的进化。
作为首个针对结构化文档提出的信息抽取任务,SROIE因其技术的挑战性和广泛的应用性,一直是全球各大名校、科技公司竞逐的焦点。此次,腾讯优图刷新OCR信息提取纪录,也标志着业界对腾讯OCR科研成果的认可。
作为快速数据采集的手段,OCR技术已在越来越多贴近消费端需求的真实场景中落地,例如金融、政务、医疗、财务报销等领域,OCR技术在优化业务流程、解放生产力和降低企业成本方面,实效凸显,得到了行业和客户的广泛认可。
据腾讯优图研究人员表示,在此次SROIE任务中主要存在两方面难点,首先是票据中的地址和公司名称字段长短不一,位置近邻,内容相似且干扰较多。其次是,在应付款项字段提取中,同一张票据中可能存在多个相同或相近的金额,例如单价、小计、含税金额、优惠金额等,而不同票据之间对于该项的前缀描述也不尽相同,这些难题对于OCR算法的适应能力更具挑战性。
为了攻克这两大难题,腾讯优图提出了一种智能结构化模型,基于相对位置Attention的结构避免语义可读性对模型性能的影响。融入图像整体表征,使得模型能够在了解版式分布的同时,关注局部细微差异。此外,腾讯优图还细化了标签层级,内聚关键字段内部特征,强化字段交界处的语义变化表征,提升模型在地址、公司字段难例上的表现效果。因此相较于TOP榜单模型,腾讯优图的智能结构化方案结合自然语言处理能力,不仅在速度上更快,字段提取准确率也更高。
目前,腾讯优图OCR通用文字识别涵盖了印刷体、英文、手写、表格、印章、速算等诸多能力,结构化识别实现了从多个垂直场景结构化到自定义模板结构化方案及智能结构化方案的全覆盖,帮助各产品和业务提升效率、创造价值。
腾讯优图始终积极推动研究成果在业务领域的落地。在OCR领域,腾讯优图基于多角度文本检测、语义增强的文字识别、公式识别、NLP后处理等基础技术,输出了通用文字识别、证照识别、智能票据、单据识别、车辆信息识别、教育试题识别、金融保险单据识别等多个产品及解决方案, 并在政务、金融、教育、医疗等多个应用场景落地。
未来,优图表示将以更加开放的心态,深耕于技术领域,不断扩展技术成果的落地场景和应用空间,带给大众更多切实便利和惊喜体验。
— 完 —
- 0元起步打造你的AI搜索!实测秘塔知识库新功能,竟能指导我升职加薪了2024-11-11
- o1满血版泄露!奥数题图片推理手拿把掐,奥特曼上线剧透o22024-11-03
- 科研版AI搜索来了!知乎直答接入正版论文库,一手实测在此2024-11-01
- 微软清华改进Transformer:用降噪耳机原理升级注意力,一作在线答疑2024-11-03