超神经HyperAI · 2月23日 · 河北

每周编辑精选|MathPile 数学推理语料库开源、协和眼科牵头用 AI 助力 13 种眼底疾病检测

近日,上海交通大学生成式人工智能研究实验室 (GAIR),开源了专为数学领域量身定制的高质量且多样化的预训练数据集 MathPile,及其可商用版本 MathPile-Commercial,现在在 hyper.ai 官网可以下载啦!还有更多如 MathVista、Math23K 等热门数学数据集等你使用哦~

2 月 19 日-2 月 23 日,hyper.ai 官网更新速览

  • 优质公共数据集:10 个
  • AI4S 论文案例:4 篇
  • 热门百科词条:10 条

访问官网:hyper.ai

公开数据集精选

1. MathPile 数学推理预训练语料库

上海交通大学生成式人工智能实验室推出了 MathPile 数据集。这是一套专门针对数学领域的高质量、多样化预训练语料库,其中包含约 95 亿 tokens,旨在提升大模型在数学推理方面的能力。

直接使用

https://hyper.ai/datasets/29543

2. MathPile-Commercial 数学推理预训练语料(可商用版)

MathPile-Commercial 是 MathPile 的商业用途版本,是通过剔除 MathPile 中禁止商业用途的文档获得的(最新版本,即 v0.2)。具体来说,研究团队对源数据进行了非商业用途检测,利用 arXiv 源的元数据中的许可信息,并对其他源采用了关键字匹配。

直接使用

https://hyper.ai/datasets/29545

3. AI 生成的图像数据集

该数据集包含由 Copilot 生成的 19 张男孩图像。Copilot 是一个人工智能伴侣,可以创建富有想象力和创新的内容。这些图像适用于面部和姿势检测任务,因为它们的面部表情、姿势、背景、光照和遮挡各不相同。

直接使用

https://hyper.ai/datasets/29527

4. AI 生成的多样化肖像数据集

该数据集包含 140 张由先进 AI 算法精心制作的高质量图像,其中有 70 张女性肖像和 70 张男性肖像。该数据集中的每张图像都证明了人工智能在模仿人类外表的复杂性方面具有非凡的能力。

直接使用

https://hyper.ai/datasets/29529

5. THUCNews 中文文本分类数据集

THUCNews 是根据新浪新闻 RSS 订阅频道 2005~2011 年间的历史数据筛选过滤生成的,包含 74 万篇新闻文档 (2.19 GB) ,均为 UTF-8 纯文本格式。研究团队在原始新浪新闻分类体系的基础上,重新整合划分出了 14 个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。

直接使用

https://hyper.ai/datasets/29521

6. ShareGPT 90k 中英文双语人机问答数据集

ShareGPT-Chinese-English-90k 是中英文平行双语优质人机问答数据集,覆盖真实复杂场景下的用户提问数据。该数据集可用于训练高质量的对话模型。

直接使用

https://hyper.ai/datasets/29523

7. SMP-2017 中文对话意图识别数据集

该数据集为 SMP2017 中文人机对话技术评测 (ECDT) 任务一数据集。该评测旨在促进中文人机对话系统相关研究的发展。

直接使用

https://hyper.ai/datasets/29515

8. 今日头条文本分类数据集

该数据集为今日头条中文新闻(短文本)分类数据集。数据来源为今日头条客户端。共包含 15 个分类,382,688 条文本,采集时间为 2018 年 05 月。

直接使用

https://hyper.ai/datasets/29517

更多本周更新数据集,请访问

https://hyper.ai/datasets

ScienceAI 论文案例精选

1. 协和眼科牵头 ,5 家眼科中心同发力,用 AI 助力 13 种眼底疾病检测

眼科疾病的诊断高度依赖于图像识别,眼科专业非常适合深度学习等技术的应用。为进一步挖掘深度学习在眼底疾病诊断中的潜在价值,由北京协和医院眼科主任陈有信牵头、全国 5 家眼科中心与北京致远慧图科技有限公司、中国人民大学信息学院李锡荣教授合作,共同开发了深度学习系统。该系统助力初级眼科医生的诊断一致性提高了约 12%,为 13 种主要眼底疾病的自动检测提供了一种新的方法。相关论文已发表于「Nature」期刊。

查看完整报道

https://hyper.ai/news/29549

2. 超 5 万人参与,浙大吴息凤教授团队新作:健康与办公场所绿化水平有关

生态环境对人类健康的影响是潜移默化的。浙江大学公共卫生学院吴息凤教授课题组通过卷积神经网络模型,基于街景图像的绿色视图指数对可见绿色暴露进行评估,进而探讨了工作场所可视绿化水平与成年人代谢综合征之间是否存在有益关联。课题组通过逻辑回归模型对杭州市 5 万多名成年人的工作环境室外可视绿化水平进行评估,证实了两者间的有益关联。相关成果已发表于「Environment International」期刊。

查看完整报道

https://hyper.ai/news/29559

3. 上海交大 AI4S 团队提出「智能化科学设施」构想,建立跨学科 AI 科研助手

上海交通大学人工智能研究院 AI for Science 团队杨小康教授等人提出了一种智能化科学设施的建设构想,形成科学领域大模型、生成式模拟与反演、自主智能无人实验及大规模可信科研协作等创新功能。相关研究成果已发表于「中国科学院院刊」。

查看完整报道

https://hyper.ai/news/29559

4. 亚马逊工程师严选,超 40 篇 LLM 论文汇总

越来越多的企业、传统行业开始探索如何应用大语言模型与自身业务相结合,快速膨胀的市场需求也反向推动了相关领域的研究进一步深化、创新,arXiv 等平台上的论文更新也愈发频繁。为了帮助大家更快检索高价值论文,亚马逊工程师 Eugene Yan 等人建立了一个语言模型论文阅读清单,持续分享前沿论文,目前已经汇总了 40 余篇高质量论文。

查看完整论文汇总

https://hyper.ai/news/29582

热门百科词条精选

  1. 召回率 Recall Rate
  2. 人类反馈强化学习 RLHF
  3. 通用人工智能 AGI
  4. 检索增强生成 RAG
  5. 神经辐射场 NeRF

这里汇编了数百条 AI 相关词条,让你在这里读懂「人工智能」:

https://hyper.ai/wiki


以上就是本周编辑精选的全部内容,如果你有想要收录 hyper.ai 官方网站的资源,也欢迎留言或投稿告诉我们哦!

下周再见!

关于 HyperAI超神经 (hyper.ai)

HyperAI超神经 (hyper.ai) 是国内领先的人工智能及高性能计算社区,致力于成为国内数据科学领域的基础设施,为国内开发者提供丰富、优质的公共资源,截至目前已经:

  • 为 1200+ 公开数据集提供国内加速下载节点
  • 收录 300+ 经典及流行在线教程
  • 解读 100+ AI4Science 论文案例
  • 支持 500+ 相关词条查询
  • 托管国内首个完整的 Apache TVM 中文文档

访问官网开启学习之旅

https://hyper.ai/

推荐阅读
关注数
694
文章数
436
目录
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
安谋科技学堂公众号
关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源
安谋科技招聘公众号
关注安谋科技招聘
实时获取安谋科技中国职位信息