超神经HyperAI · 7月24日

入选ACL 2024!浙大推出首个海洋大语言模型OceanGPT,水下具身智能成现实

640.png
大语言模型 (LLM) 在内的 AI 工具正逐渐改变科学范式,被 Nature 列为 2024 年值得关注的科学事件之一。 作为文本数据挖掘领域的核心工具,大语言模型可以从海量文本数据中提取关键的科学信息、模式和趋势, 从而加深对不同学科的理解,并为科学研究进程、决策制定和复杂问题解决提供强有力的支持与洞见。

比如,生物医药领域, 微软曾在 PubMed 数据库数百万篇相关科学论文上训练了语言模型 BioGPT,该模型擅长理解专业术语、基因名、蛋白质序列等复杂概念,相比非专业模型,BioGPT 可快速准确地生成生物医学问题答案, 完成文本挖掘、实验报告撰写、分子设计、文献综述撰写等任务。

同样地,在海洋科学领域, 利用大语言模型分析海量海洋科学文本数据,理解海洋特征、变化规律、资源开发利用等相关的理论、方法,对全球气候调节、天气模式塑造、生物多样性维护、人类未来经济发展至关重要。

然而,多维度、多尺度的海洋数据,规模庞杂且类型丰富,传统的数据处理方法难以应对。同时,海洋科学涵盖多领域和学科,每个领域和学科都有其独特的数据属性和模式,这就要求 LLM 具备更丰富的专业知识储备,但当前的主流 LLM 仍不能完全满足海洋学家的特定需求。

对此,浙江大学计算机科学与技术学院张宁豫、陈华钧团队提出了首个海洋领域大语言模型 OceanGPT, 该模型擅长处理各种海洋科学任务,可以根据海洋学家的指令回答问题。通过海洋学基准 OCEANBENCH 的评估,OceanGPT 不仅在海洋科学任务中表现出较高的专业知识 (knowledge expertise),而且在海洋工程方面获得了初步具身智能 (embodied intelligence) 能力。
OceanGPT 项目地址:

http://oceangpt.zjukg.cn/

此外,为了缓解获取海洋数据的困难,研究人员还提出了一个基于多 Agent 协作 (multi-agent collaboration) 的海洋科学指令生成框架 DoInstruct, 其中,每个 Agent 被视为某一特定领域(如科学与研究、资源与开发、生态与环境等)的专家,并负责生成相应领域的数据。

该研究以「OceanGPT: A Large Language Model for Ocean Science Tasks」为题,近期被自然语言处理顶级会议 ACL 2024(CCF-A 类会议)录用为主会论文。

研究亮点:

  • 与现有的开源大型语言模型相比,海洋领域大语言模型 OceanGPT 能够处理更专业的海洋任务
  • 海洋科学指令生成框架 DoInstruct 具有很大的灵活性,可被优化并应用于不同科学领域(例如天文学)

在这里插入图片描述

论文地址:

https://arxiv.org/abs/2310.02031

开源项目「awesome-ai4s」汇集了百余篇 AI4S 论文解读,并提供海量数据集与工具:

https://github.com/hyperai/awesome-ai4s

数据集:高质量驱动,来自 67,633 篇海洋科学文献

研究人员收集近几年 67,633 篇海洋科学领域文献作为原始语料库, 还选择一些历史上的重大意义文献帮助 LLM 理解海洋领域发展史,为确保多样性,文章来自不同渠道,涵盖各种研究视角和方法。

为确保数据的质量和一致性, 研究人员利用正则表达式 (regular expressions) 过滤掉图形、表格、页眉、页脚、页码、URLs 和引用,移除多余的空格、换行符和其他非文本字符,还替换或删除特殊字符、表情符号和乱码字符。处理后的文档涵盖海洋科学的各个领域,如海洋物理、海洋化学、海洋生物学、地质学、水文学等。

随后,研究人员采用哈希算法对数据进行去重, 这有助于减少模型预训练过程中的过拟合风险,并提高其泛化能力。

由于海洋科学语料库包含多个领域和主题,每个主题都有其独特的数据特性和模式,为了有效模拟和获取这些数据,研究人员提出了一个领域指令生成框架 DoInstruct。
*海洋主题:根据海洋学专家的专业知识,将海洋科学数据手动分为 5 个相对独立的海洋主题,分别是科学与研究、资源与开发、生态与环境、技术与工程、生活、文化及其他。

高质/专业/多样,DoInstruct 可生成海洋指令数据

领域指令生成框架 DoInstruct 基于多 Agent 协作,可有效实现海洋数据生成。

在这里插入图片描述

DoInstruct 框架

据上图所示,在 DoInstruct 框架下,研究人员设计了 3 种 Agent 角色: 演化式的数据合成 Agent (Evolving Agent as Generator)、经过微调的文献阅读 Agent (Fine-tuned Agent as Literature Extractor) 和审核 Agent (Agent as Inspector)。每个 Agent 都被视为某个特定领域(主题)的专家,并负责生成相应的数据。

演化式的数据合成 Agent:Evolving Agent as the Generator

为构建种子数据集 (Seed Data),研究人员雇佣数十位具有丰富海洋科学背景的标注者,每位标注者负责几个主题,并为每个海洋主题手动编写一些具有代表性的示例。

然后,研究人员使用大型语言模型模仿现有数据并生成大量类似样本,所有样本都由标注者手动检查。最终的种子指令数据集包括 5 个主要类别、500 多个子类别和 1 万多个数据样本。

在这里插入图片描述

左图:演化式的数据合成 Agent

得到种子指令数据集后,研究人员从中选择样本,并调用 Agent (gpt-3.5-turbo) 来演化所选样本。

如左图所示,具体而言,补充拓展种子样本的背景知识,对种子数据包含的知识点进行细化分析增强和改进,通过多轮迭代,研究人员可快速扩展现有种子数据集,并扩展信息的广度和深度。

经过微调的文献阅读 Agent:Fine-Tuned Agent as the Literature Extractor

在这里插入图片描述

经过微调的文献阅读 Agent

研究人员收集了一个专家标注语料库 (Expert-annotated corpus),并用 BM25 算法从更大的海洋语料库 (Oean Corpus) 中检索高质量句子,将二者视为高质量的候选样本 (High-quality Candidates)。同时,研究人员使用种子指令数据集对 gpt-3.5-turbo 进行微调,将微调后的 Agent 视为文献提取器,该 Agent 可以从海量海洋语料库中提取高质量文本。

确保数据质量的审核 Agent:Agent as the Inspector with Rule Constraints

在这里插入图片描述

确保数据质量的审核 Agent

对于生成的大量指令,研究人员使用语法、语义、海洋领域基本定义等作为规则约束,通过提示的方式构建 Agent,并对数据进行过滤,确保生成的海洋指令数据具有更高质量。

为进一步确保数据质量,研究人员从生成的指令数据集中随机抽取 10% 样本,让培训后的领域专家志愿者验证这些样本是否存在潜在错误,最终数据的 IAA(标注者间一致性)得分为 0.82,满足研究目的。

如下图所示,DoInstruct 框架能够利用多 Agent 快速构建海洋科学数据集,可扩展超过 150,000 条指令 (Data-Evolving, Data-Extracting),此外,数据的专业性和准确性也得到了保障。

在这里插入图片描述

最终指令数据集的统计数据

如下图所示,研究人员通过知识质量 (Quality)、专业性 (Expertise) 和多样性 (Diversity) 角度来衡量 DoInstruct 的数据生成效果。

在这里插入图片描述

不同 Agent 的性能分析

可以看出,evolving generator Agent 能够有效增强海洋数据的丰富性。extraction Agent 可以提升内容的专业性,inspector Agent 可以提高生成的数据质量。综上,多代理协作对于海洋指令生成是有效的。

基于 LLaMA-2,OceanGPT 在海洋任务中表现更优

在得到指令数据后,研究人员基于 LLaMA-2,用 6 块 Nvidia A800 GPU 对 OceanGPT 进行了为期 7 天的预训练 (Pre-training)。

在这里插入图片描述

OceanGPT 模型的总体框架

得到预训练模型 OceanGPT 后,研究人员采用 LoRA 方法对模型进行微调。为了评估大型语言模型 OceanGPT 在海洋学任务中的能力,研究人员选择 LLaMA-2 (Llama-2-7b-chat-hf)、Vicuna-1.5、ChatGLM2-6B 这 3 个模型与 OceanGPT 进行比较。

在进行对比之前,研究人员设计了一个基准测试 OCEANBENCH,据下图所示,该基准测试包括 15 个与海洋相关的任务,如 Analysis、Judgment 等。

在这里插入图片描述

OCEANBENCH 详细统计数据

据下图所示,研究员在海洋领域的 15 个子任务上,从任务级别 (task-level) 比较 OceanGPT 与 3 个基线模型的性能,结果发现 OceanGPT 在自动评估、人类评估中的表现均优于其他模型。

在这里插入图片描述

海洋 task-level 结果左:GPT-4 自动评估,右:人类评估

上图所示,研究人员展示了 OceanGPT 模型在 OCEANBENCH 海洋科学任务中的评估结果,结果发现,OceanGPT 在绝大多数任务中优于其他基线语言模型。

在这里插入图片描述

OceanGPT在OCEANBENCH海洋科学任务中的评估结果

从核污染到水下机器人,OceanGPT 在海洋领域的双重胜利

为了证明 OceanGPT 在海洋领域的应用潜力,研究人员从海洋科学、海洋工程两个角度对 OceanGPT 进行测试。

放射性核素研究新利器:OceanGPT 有更优秀的专业知识深度

对于海洋科学,研究人员关注海洋环境的核污染问题,并比较 OceanGPT 和 Vicuna-7b-1.5 在该任务中的表现。

在这里插入图片描述

海洋科学任务案例分析 如何开展关键放射性核素的表界面化学与毒理效应研究

据上图所示,OceanGPT 在描述放射性核素研究内容时表现出更高的知识水平。其文本内容不仅结构清晰、组织有序,而且涵盖了放射性核素研究的各个方面,比如实验设计、数据分析、风险评估、处理指南等。

相比之下,虽然 Vicuna-7b-1.5 的表达清晰且逻辑性强,但它缺乏与放射性核素相关更深度、具体的内容。

综上,OceanGPT 在知识专业性、质量和丰富性方面具有优势。

海洋工程智能化:OceanGPT 实现水下机器人精准控制

海洋工程对海上作业的可持续性和安全性方面至关重要。为促进 OceanGPT 与外部世界的交互,研究人员合成了机器人代码数据,并将这些机器代码指令集成到训练数据中,通过代码或控制台命令评估模型能力。

在这里插入图片描述

OceanGPT 控制水下机器人

据上图所示,OceanGPT 可以通过代码或控制台命令向水下机器人发出指令,以便水下机器人执行复杂任务(基于人类指令),这说明 OceanGPT 获得了初步的具身智能能力,为高级海洋模型执行复杂的机器人控制和规划任务铺平道路。

OceanGPT 再度「进化」,海洋科学迎来智能化时代

由浙江大学张宁豫、陈华钧教授领衔,汇聚了毕祯、薛逸达、欧翌昕、冀大雄、郑国轴等人的研究团队,成功构建了海洋领域第一个大语言模型 OceanGPT,这标志着海洋领域智能化进程迈出了关键性的一步 ,OceanGPT 成为海洋领域的一个重要里程碑。

然而,OceanGPT 的发展并没有止步于此,随着研究的深入与技术的精进,OceanGPT 迎来了新一轮的优化与升级。

据浙江大学知识引擎实验室 ZJUKG 近日报道,论文的第一作者毕祯宣布了 OceanGPT 的一系列重大进展:

  • 首先,正式推出 OceanGPT-14B、OceanGPT-2B 两个新版本;
  • 其次,新增基于 Qwen2 中文基座的 OceanGPT ,实现中英文双语能力高效交互;
  • 同时,团队还开源了 20K 规模的海洋大模型指令数据集 OceanInstruct,为海洋科学研究人员提供了宝贵的资源支持;

OceanInstruct 数据集下载地址:

https://go.hyper.ai/3QuLq

  • 最后,OceanGPT-V 多模态版本登场,不仅支持对声呐数据、科学图片等多模态海洋信息的处理,还提供 OceanGPT-V 在线演示,为海洋科学探索开启全新的视角与可能,据悉,该模型即将开源。

为了分析模型更新后的能力变化, 以 OceanGPT-14B 为例,研究人员给定中文问题「请生成一份东海海域海底管缆的建设方案」,如下图所示:

在这里插入图片描述

结果发现 OceanGPT 生成的内容丰富度更高、覆盖更多层次,海洋科学知识理解与生成能力更强。

同时,为验证 OceanGPT 英文生成能力,研究人员给定英文输入「请描述东海海域的海底地形地貌特征」,如下图所示:

在这里插入图片描述

结果发现,OceanGPT 生成的描述在细节、全面性、专业性和区域划分上相对较好,能够提供更准确和深入的海底地形地貌信息。

此外,毕祯也给出了 OceanGPT 的发展规划,如下图所示:

在这里插入图片描述

OceanGPT 的规划

预计 2024 年 8-12 月期间,将推出 OceanGPT-V+ 双语多模态版本。 基于大规模语料库,他们会继续使用更大规模的模型(例如 30B、70B)训练 OceanGPT,并通过添加新数据和新任务来维护 OceanGPT,探索海洋科学的更多未知世界。

期待 OceanGPT 带来更多惊喜与突破,开启海洋科学研究新篇章!

参考资料:
https://blog.csdn.net/gitblog_00055/article/details/138176998
https://mp.weixin.qq.com/s/TZuVvZfr1DsRGUXsxc3cGQ

召集令

HyperAI超神经 (hyper.ai) 是中国最⼤的数据科学领域搜索引擎,长期聚焦 AI for Science 最新研究成果,解读了百余篇顶级期刊学术论文。

欢迎正在围绕 AI for Science 开展研究探索的课题组、研究团队与我们联系,分享最新研究成果、投稿深度解读文章、参与 Meet AI4S 直播栏目,更多推广 AI4S 的方式等待我们共同探索!

推荐阅读
关注数
694
文章数
435
目录
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
安谋科技学堂公众号
关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源
安谋科技招聘公众号
关注安谋科技招聘
实时获取安谋科技中国职位信息