过去,人们走进校园的第一课便是学习正确的握笔姿势,进而从基础的阿拉伯数字与汉语拼音开始学习写字,再逐步进阶到汉字与英文。很多时候,一个人的写字风格往往也与其性格特点息息相关,苍劲有力与豪迈洒脱,秀丽飘逸与优雅恬静……
如今,基于电脑、手机、平板电脑的电子记录在很多场景下快速取代了手写,「无纸化」也在环保降碳的大趋势下稳步推进。然而,手写文字仍然活跃在人们的日常生活中,例如学习笔记、临时起意的灵感创意等等,同时,古老的文献资料也多为手工抄录,将其转换为电子格式有助于长期存储或是即时检索。
针对于此,手写文字的准确识别至关重要,传统的光学字符识别 (OCR) 技术在面对背景杂乱、字迹模糊的情况往往表现不佳,导致识别准确率大打折扣。
近日,Google Research 发布了一项全新成果 InkSight,不同于 OCR 单纯地将笔迹转录到文本文档中,InkSight 能够捕捉手写文档的笔画集合,以一种更自然的方式实现手写文字的识别。
具体而言,研究人员提出了一种渲染方法,可以拍摄手写文字的图片,并提取出书写的笔画,同时还摆脱了对典型几何结构的依赖(即利用图像中的渐变、轮廓和形状来提取书写笔画),取而代之的是,训练模型模仿人类去理解「阅读」和「书写」,前者能识别书面文字,后者能输出类似手写的笔画,并通过不断地重写和学习手写文本,积累对文字外观和含义的理解。
现在,HyperAI超神经官网的教程版块已上线「InkSight 将手写文字数字化 Demo」,一键克隆即可在线体验!快来将你的「墨宝」转换成电子格式吧~
教程链接:
Demo 运行
- 登录 hyper.ai,在「教程」页面,选择「InkSight 将手写文字数字化 Demo」,点击「在线运行此教程」。
- 页面跳转后,点击右上角「克隆」,将该教程克隆至自己的容器中。
- 点击右下角「下一步:选择算力」。
- 页面跳转后,选择「NVIDIA GeForce RTX 4090」以及 「PyTorch」镜像,并根据自身需求选择「按量付费」或者「包日/周/月」,点击「下一步:审核」。新用户使用下方邀请链接注册,可获得 4 小时 RTX 4090 + 5 小时 CPU 的免费时长!
HyperAI超神经专属邀请链接(直接复制到浏览器打开):
https://openbayes.com/console/signup?r=Ada0322_QZy7
- 确认无误后,点击「继续执行」,等待分配资源,首次克隆需等待 3 分钟左右的时间。当状态变为「运行中」后,点击「API 地址」边上的跳转箭头,即可跳转至 Demo 页面。请注意,用户需在实名认证后才能使用 API 地址访问功能。
因模型过大,容器显示运行中后,需要稍微等待 1 分钟左右的时间再打开 API 地址,否则会显示 BadGateway。
效果展示
打开 Demo 界面后,教程分为「单词转写 Word-level inference」与「整页撰写 Full page inference」两种模式,注意:「单词转写」仅适用于单个文字或单词的识别。
小编献丑了,手写了「万事顺意」,以及一段「阿甘正传」中的经典台词,中文与英文都准确识别!
单词转写
「阿甘正传」英文台词转写
我们建立了「Stable Diffusion 教程交流群」,欢迎小伙伴们入群探讨各类技术问题、分享应用效果~
添加神经星星微信(微信号:Hyperai01),备注「SD 教程交流群」,即可加入群聊。