每周编辑精选｜FewJoint 基准数据集上线、科技部监督司发布 AI 新规

小样本学习 (Few-shot Learning) 是指像人类一样能够通过很少的样本来学习掌握新任务。这一领域已经成为机器学习社区的热点，并被认为是推动机器智能接近人类智能的关键方向之一。哈工大推出了 FewJoint 基准数据集，为 NLP 小样本评测提供了公共的评价基准。该数据集已在 hyper.ai 上线，hyper.ai 还有更多供中文大模型训练的 NLP 数据集可以下载哦～一起来看看吧！

1 月 29 日-2 月 2 日，hyper.ai 官网更新速览：

优质公共数据集：10 条
AI4S 论文案例：3 篇
热门百科词条：10 条

访问官网：hyper.ai

公开数据集精选

1. FewJoint 小样本基准数据集

FewJoint 基准数据集是来自于讯飞 AIUI 开放平台上真实用户语料和专家构造的语料（比例约为 3：7），包含 59 个真实领域，是目前包含领域最多的对话数据集之一。

直接使用：

https://hyper.ai/datasets/29239

2. 100 PoisonMpts 中文大模型治理数据集

100 PoisonMpts 是业内首个大语言模型治理开源中文数据集，由数十位知名专家学者组成首批「给 AI 的 100 瓶毒药」的标注工程师。标注人各提出 100 个诱导偏见、歧视回答的刁钻问题，并对大模型的回答进行标注，完成与 AI 从「投毒」和「解毒」的攻防。

直接使用：

https://hyper.ai/datasets/29203

3. CLUE 中文语言理解评测基准数据集

CLUE (A Chinese Language Understanding Evaluation Benchmark) 是用于对中文语法理解任务进行训练、校验和测试的数据集。

直接使用：

https://hyper.ai/datasets/29094

4. Wikipedia 维基百科数据集

该数据集由 Wikipedia dumps 构建，每种语言有一个子集，每个子集连接一列拆分。每个示例都包含一篇完整的维基百科文章的内容，并清理以删除标记和不需要的部分（如「参考」，等）。

直接使用：

https://hyper.ai/datasets/28528

5. CCI 中文互联网语料库

中文互联网语料库（Chinese Corpora Internet，简称 CCI）由来自中国大陆互联网网站的高质量、可信任的来源组成。CCI 经过严格的数据清洗和去重，在内容质量方面进行了有针对性的检测和过滤。

直接使用：

https://hyper.ai/datasets/29186

6. PKU 简体中文分词数据集

SIGHAN 2005 数据集国际中文自动分词评测（简称 SIGHAN 评测）整合了多个机构的分词数据集构成。该数据集由中国微软研究所、北京大学、香港城市大学、台湾中央研究院联合发布，用以进行中文分词模型的训练与评测。其中 PKU 为简体中文分词数据集。

直接使用：

https://hyper.ai/datasets/29168

7. Chinese-Poetry 最全中文诗歌古典文集数据库

该数据集是目前最全的中华古典文集数据库，包含 5.5 万首唐诗、26 万首宋词、2.1 万首宋词等古典文集。诗人包括唐宋两朝近 1.4 万古诗人，和两宋时期 1.5k 古词人。数据来源于互联网。

直接使用：

https://hyper.ai/datasets/29257

8. PD&CFT 中文阅读理解数据集

该数据集是第一个中文阅读理解数据集，其中包括人民日报和儿童童话（People Daily&Children's Fairy Tale，简称 PD&CFT）的文本内容。

直接使用：

https://hyper.ai/datasets/29260

更多本周更新数据集，请访问：

https://hyper.ai/datasets

ScienceAI 论文案例精选

1.帕金森早期诊断准确率提高至 90.2%，深圳先进院联合中山一院提出 GSP-GCNs 模型

中山大学附属第一医院&中科大先进院等研究团队，提出了一种深度学习模型——图信号处理-图卷积网络 (GSP-GCNs)，利用从涉及声调调节的特定任务中获得的事件相关脑电图数据来诊断帕金森病。相关论文已发表于「Nature」期刊。

查看完整报道：

https://hyper.ai/news/29189

2. 科技部出手！科研人员的 AIGC 使用手册来了，学术界开始防范 AI 枪手

2023 年 12 月 21 日，科技部监督司发布《负责任研究行为规范指引（2023）》，针对社会关注的人工智能、重大成果发布等热点问题，规范了 AI 等技术在科研中的应用。

查看完整报道：

https://hyper.ai/news/29228

3. 中科院半导体所论文再登 TNNLS 顶刊，贡献探索数学表达式的新视角

中国科学院半导体研究所的研究人员将表达式结构的求解视为分类问题，并通过监督学习进行解决，提出一种名为 DeepSymNet 的符号网络来表示符号表达式。与目前流行的几种基于监督学习的 SR 算法相比，DeepSymNet 使用标签 (label) 更短，减少了预测的搜索空间，同时提升了算法鲁棒性。相关论文已发表于「IEEE」期刊。

查看完整报道：

https://hyper.ai/news/29243

公开数据集精选

ScienceAI 论文案例精选

热门百科词条精选

推荐阅读

超神经HyperAI

目录