超神经HyperAI · 11月27日 · 北京

超越传统OCR!一键部署谷歌最新成果InkSight:精准识别手写文字,中英文均无压力

微信图片_20241127151827.png
过去,人们走进校园的第一课便是学习正确的握笔姿势,进而从基础的阿拉伯数字与汉语拼音开始学习写字,再逐步进阶到汉字与英文。很多时候,一个人的写字风格往往也与其性格特点息息相关,苍劲有力与豪迈洒脱,秀丽飘逸与优雅恬静……

如今,基于电脑、手机、平板电脑的电子记录在很多场景下快速取代了手写,「无纸化」也在环保降碳的大趋势下稳步推进。然而,手写文字仍然活跃在人们的日常生活中,例如学习笔记、临时起意的灵感创意等等,同时,古老的文献资料也多为手工抄录,将其转换为电子格式有助于长期存储或是即时检索。

针对于此,手写文字的准确识别至关重要,传统的光学字符识别 (OCR) 技术在面对背景杂乱、字迹模糊的情况往往表现不佳,导致识别准确率大打折扣。

近日,Google Research 发布了一项全新成果 InkSight,不同于 OCR 单纯地将笔迹转录到文本文档中,InkSight 能够捕捉手写文档的笔画集合,以一种更自然的方式实现手写文字的识别。

具体而言,研究人员提出了一种渲染方法,可以拍摄手写文字的图片,并提取出书写的笔画,同时还摆脱了对典型几何结构的依赖(即利用图像中的渐变、轮廓和形状来提取书写笔画),取而代之的是,训练模型模仿人类去理解「阅读」和「书写」,前者能识别书面文字,后者能输出类似手写的笔画,并通过不断地重写和学习手写文本,积累对文字外观和含义的理解。

现在,HyperAI超神经官网的教程版块已上线「InkSight 将手写文字数字化 Demo」,一键克隆即可在线体验!快来将你的「墨宝」转换成电子格式吧~

教程链接:

https://go.hyper.ai/DR89z

Demo 运行

  1. 登录 hyper.ai,在「教程」页面,选择「InkSight 将手写文字数字化 Demo」,点击「在线运行此教程」。

在这里插入图片描述
在这里插入图片描述

  1. 页面跳转后,点击右上角「克隆」,将该教程克隆至自己的容器中。

在这里插入图片描述

  1. 点击右下角「下一步:选择算力」。

在这里插入图片描述

  1. 页面跳转后,选择「NVIDIA GeForce RTX 4090」以及 「PyTorch」镜像,并根据自身需求选择「按量付费」或者「包日/周/月」,点击「下一步:审核」。新用户使用下方邀请链接注册,可获得 4 小时 RTX 4090 + 5 小时 CPU 的免费时长!

HyperAI超神经专属邀请链接(直接复制到浏览器打开):

https://openbayes.com/console/signup?r=Ada0322_QZy7

在这里插入图片描述

  1. 确认无误后,点击「继续执行」,等待分配资源,首次克隆需等待 3 分钟左右的时间。当状态变为「运行中」后,点击「API 地址」边上的跳转箭头,即可跳转至 Demo 页面。请注意,用户需在实名认证后才能使用 API 地址访问功能。

因模型过大,容器显示运行中后,需要稍微等待 1 分钟左右的时间再打开 API 地址,否则会显示 BadGateway。

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

效果展示

打开 Demo 界面后,教程分为「单词转写 Word-level inference」与「整页撰写 Full page inference」两种模式,注意:「单词转写」仅适用于单个文字或单词的识别。

小编献丑了,手写了「万事顺意」,以及一段「阿甘正传」中的经典台词,中文与英文都准确识别!

在这里插入图片描述

单词转写

在这里插入图片描述

「阿甘正传」英文台词转写

在这里插入图片描述

我们建立了「Stable Diffusion 教程交流群」,欢迎小伙伴们入群探讨各类技术问题、分享应用效果~

添加神经星星微信(微信号:Hyperai01),备注「SD 教程交流群」,即可加入群聊。

推荐阅读
关注数
666
内容数
225
链接人工智能新场景
目录
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
安谋科技学堂公众号
关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源
安谋科技招聘公众号
关注安谋科技招聘
实时获取安谋科技中国职位信息