5.2k星！突破 OCR 困境的超级变革者来了；多语言医疗大模型开源，语料库和基准数据集已提供下载

微信图片_20241012163341.png
在当今数字化进程飞速发展的时代，OCR（光学字符识别）技术虽已普及，但仍存在诸多瓶颈。传统 OCR 模型在面对复杂多变的情况时，识别准确率会大打折扣，且处理流程和操作步骤颇为繁琐，极大地降低了工作效率。

全球首款通用端到端 OCR 模型 GOT-OCR-2.0 近日正式开源！其解决了传统 OCR 在图像质量不佳、复杂背景、手写文字识别等方面的局限。该模型现已在 hyper.ai 官网提供 Demo 教程，跳过复杂的安装步骤，直接克隆即可启动~

在线运行：https://go.hyper.ai/JVVKQ

10 月 1 日-10 月 12 日，hyper.ai 官网更新速览：

优质教程精选：3 个
优质公共数据集：10 个
社区文章精选：5 篇
热门百科词条：5 条
10 月截稿顶会：5 个

访问官网：hyper.ai

公共教程精选

1. GOT-OCR-2.0 全球首款通用端到端 OCR 模型

GOT-OCR-2.0 是一个基于通用 OCR 理论 (General OCR Theory) 的统一端到端模型，专注于提升光学字符识别 (OCR) 的准确性与效率。它采用了一体化的架构，能够高效处理文本的多样性和复杂性。GOT-OCR 2.0 不仅支持场景文本识别，还能处理多页文档，为 OCR 领域带来更多灵活性。根据教程运行容器，直接复制 API 地址，即可对模型进行推理体验。

直接使用：https://go.hyper.ai/JVVKQ

在这里插入图片描述

效果示例

2. IC-Light 图片打光神器、背景自然融合替换

IC-Light 全称为 Imposing Consistent Light，旨在通过机器学习模型实现图像重新照明的项目。它提供了 2 类主要模型：文本条件照明模型和背景条件模型，分别根据文本提示或背景内容对前景图像进行照明调整。

该项目通过 Gradio 接口可以生成前端交互界面，相关模型和依赖已经部署完毕，一键启动即可体验。

直接使用：https://go.hyper.ai/1Y0PQ

在这里插入图片描述

效果示例

3. Fish Speech v1.4 声音克隆-文本转语音工具 Demo

Fish Speech 是由 Fish Audio 于 2024 年开发的文本转语音 (TTS) 模型，它能够生成高质量、自然的语音。这个模型在升级为 v1.4 版本后，经过了大约 70 万小时的数据训练，能够熟练掌握中文、日语和英语等 8 种语言，语言处理能力接近人类水平，并且声音表现形式丰富多变。

本教程已经将模型更新至最新版本，并将环境部署完毕，大家可根据教程指引直接进行声音克隆或文本转语音任务。

直接使用：https://go.hyper.ai/t7O8m

公共数据集精选

1. MMedC 大规模多语言医疗语料库

该数据集包含了约 255 亿个 tokens 的医疗预料数据，涵盖了 6 种主要语言：英语、中文、日语、法语、俄语和西班牙语，并且对更多语言的支持仍在不断更新和扩展中。

直接使用：https://go.hyper.ai/jXv0r

在这里插入图片描述

MMedC 数据集统计概览

2. MMedBench 多语言医学能力测试基准数据集

该数据集旨在评估医学领域多语言模型的发展，涵盖了 6 种语言和 21 种医学子领域。MMedBench 的所有问题直接来源于各国的医学考试题库，确保了评测的准确性和可靠性，避免了由于不同国家医疗实践指南差异导致的诊断理解偏差。

直接使用：https://go.hyper.ai/8X9xD

在这里插入图片描述

MMedBench 数据集统计概览

3. Lacuna 疟疾检测数据集

该数据集共包含 3,925 张疟疾载玻片图像，其中训练集中有 2,747 张图像，测试集中有 1,178 张图像。除了图像外，还记录了捕获图像的载玻片、显微镜的载物台测微计读数和物镜设置，每张载玻片最多可捕获 40 幅图像。

直接使用：https://go.hyper.ai/9oBFv

在这里插入图片描述

数据集图像示例

4. HelpSteer2 人类偏好对齐数据集

HelpSteer2 包含约 1 万对回答，尽管数量上比现有的偏好数据集少一个数量级，但它在训练奖励模型方面非常高效。该数据集旨在训练能够指导大型语言模型 (LLMs) 生成符合人类偏好的高质量回答的奖励模型。

直接使用：https://go.hyper.ai/YePhv

5. MMMLU 多语言多任务语言理解数据集

该数据集旨在评估和提升人工智能模型在不同语言、认知和文化背景下的性能。MMMLU 建立在大规模多任务语言理解 (MMLU) 基准的基础上，是人工智能模型所达到的常识性指标，包含 57 个不同学科领域的任务，涵盖了从初级知识到法律、物理、历史和计算机科学等高级专业学科。

直接使用：https://go.hyper.ai/TY7aR

6. FRAMES-benchmark 检索增强生成测试集

该数据集包含 824 个具有挑战性的多跳问题，这些问题需要从 2 到 15 篇维基百科文章中获取信息。问题涵盖了历史、体育、科学、动物、健康等多个主题，并且每个问题都标有推理类型，如数值、表格、多重约束、时间性和后处理。数据集还提供了每个问题的黄金答案和相关的维基百科文章。

直接使用：https://go.hyper.ai/zp5WQ

7. MedScribble 多图像分割生物医学任务数据集

该数据集包含研究团队收集的来自 3 个注释者的手写涂鸦，从 14 个不同的开放存取的生物医学图像分割数据集中完成了 14 个分割任务。MedScrible 总共包含 64 个 2D 图像分割对，每个图像分割对有 3 组潦草注释。

直接使用：https://go.hyper.ai/X901T

8. CDFSOD-benchmark 跨域小样本对象检测基准数据集

该项目旨在解决在源域与目标域存在显著领域差异时的小样本物体检测问题。它包括一个用于算法评测的数据集，以及用于衡量领域差异的风格 (style)、类间方差 (Inter-class Variance, ICV)、无法定义的边界 (Indefinable Boundaries, IB) 等数据集指标。

直接使用：https://go.hyper.ai/YQsnW

9. CLVR Jaco Play Dataset 遥控机器人片段数据集

这个数据集对于研究机器人遥控、自然语言处理以及人机交互等领域的科学家和开发者来说，是一个非常宝贵的资源。它提供了 1,085 个遥控机器人 Jaco 2 的片段，并配有相应的语言注释。

直接使用：https://go.hyper.ai/Xde69

10. Berkeley Cable Routing 多阶段机器人电缆任务数据集

Berkeley Cable Routing 数据集是一个用于研究多阶段机器人操作任务的数据集，特别是应用于电缆布线任务。该任务要求机器人必须将电缆穿过一系列夹子，这代表了复杂多阶段机器人操作场景的挑战，包括处理可变形物体、闭合视觉感知循环以及处理由多个步骤组成的扩展行为。

直接使用：https://go.hyper.ai/aiML0

更多公共数据集，请访问：

https://hyper.ai/datasets

社区文章精选

1. 登 Nature 子刊！论文一作详解蛋白质语言模型的小样本学习方法，解决湿实验数据匮乏难题

在「Meet AI4S」系列直播第三期中，上海交通大学自然科学研究院、洪亮教授课题组的博士后周子宜以「蛋白质语言模型的小样本学习方法」为题，分享了团队的最新研究成果，并探讨了 AI 辅助定向进化的新思路。本文是他的演讲精华实录，干货满满。

查看完整汇总：https://go.hyper.ai/MzXfg

2. Jeff Dean 点赞谷歌新研究：鲸鱼生物声学模型，可识别 8 种鲸类

Google Research 团队开发一种新的鲸鱼生物声学模型。该模型可以识别目前已知的 94 种鲸鱼种类中的 8 个不同的物种。本文是对论文的详细解读与分享。

查看完整报道：https://go.hyper.ai/1l2HO

3. Agent 心理诊所上线！基于 1.3K 抑郁症问诊对话，上海交大团队搭建大模型对话 Agent，可初诊抑郁症

上海交通大学 X-LANCE 实验室吴梦玥老师团队与天桥脑科学研究院和 ThetaAI 公司一同合作，搭建了一种自动化大模型对话 Agent 模拟系统——智能体心理诊所 AMC，用于抑郁症的初步诊断。本文是对研究论文的详细解读与分享。

查看完整报道：https://go.hyper.ai/AdjI5

4. 实现蛋白质动态对接预测！上海交大/星药科技/中山大学等联合推出几何深度生成模型DynamicBind

上海交通大学郑双佳课题组联合星药科技、中山大学药学院以及美国莱斯大学，提出了为蛋白质动态对接设计的几何深度生成模型 DynamicBind，为后 AlphaFold 时代的药物研发提供了一种基于深度学习的、考虑蛋白动态变化的新研究范式。本文是对研究论文的详细解读与分享。

查看完整报道：https://go.hyper.ai/nErwd

5. AlphaFold 加冕诺奖，DeepMind CEO 获奖感言：最优秀的科学家与 AI 配合，将完成令人难以置信的工作

David Baker、Demis Hassabis 和 John M. Jumper 荣获 2024 年诺贝尔化学奖。DeepMind CEO Demis Hassabis 表示「最优秀的科学家与这些 AI 工具配合，将能够完成令人难以置信的工作。」David Baker 更是直言「AlphaFold 很有启发性。」本文是对此次诺贝尔化学奖得主的详细报道。

查看完整报道：https://go.hyper.ai/UPpuB

热门百科词条精选

1. Transformer 模型

2. 变分自编码器 VAE

3. 人工神经网络 NNs

4. 帕累托前沿 Pareto Front

5. 大规模多任务语言理解 MMLU

这里汇编了数百条 AI 相关词条，让你在这里读懂「人工智能」：

https://go.hyper.ai/wiki

在这里插入图片描述