Visual-RFT 代表了视觉语言模型微调领域的技术创新,通过将基于规则的可验证奖励与强化学习相结合,有效克服了传统监督微调 (SFT) 在数...
人工智能技术正在深刻重塑药物研发的进程,其中分子性质预测与分子生成作为两大核心任务,长期以来却沿着独立的技术路径发展。 分子性质...
今天(3 月 5 日)上午,十四届全国人大三次会议正式开幕,恰逢我国「十四五」规划的收官之年,站在这个具有承上启下意义的重要节点上,...
在图神经网络(Graph Neural Networks, GNNs)的发展历程中,注意力机制扮演着至关重要的角色。通过赋予模型关注图中最相关节点和连接的...
在快速发展的自然语言处理(NLP)领域,分词(tokenization)作为将原始文本转换为机器可处理格式的首要环节,具有不可替代的重要性。分词过...
自上个世纪以来,科学家们便投身于依据氨基酸序列来预测蛋白质结构的探索之中,并怀揣着利用氨基酸创造全新蛋白质、构建生命蓝图的愿景...
蛋白质-蛋白质相互作用 (protein–protein interactions, PPIs) 是所有生物执行各种生物功能的基础,主要通过不同蛋白质分子之间的相互作...
这篇论文探讨了基于规则的强化学习(RL)如何解锁 LLM 中的高级推理能力。通过在受控的逻辑谜题上进行训练并强制执行结构化的思考过程,...
近期,DeepSeek-R1 引发的推理模型热潮仍在持续走高——1 月 31 日,OpenAI 推出全新推理模型 o3-mini;2 月 18 日,xAI 推出 Grok 3,包...
地理加权回归 (Geographically Weighted Regression, GWR) 是一种广泛应用于地理空间分析的统计方法,用于捕捉地理现象的空间非平稳性(...
近年来,随着几部悬疑、犯罪类题材的影视剧叫好卖座,一个充满神秘色彩的学科也被带到了观众面前——法医学。简单来说,法医学就如同隐藏...
DeepSeek R1 的完整训练流程核心在于,在其基础模型 DeepSeek V3 之上,运用了多种强化学习策略。本文将从一个可本地运行的基础模型起步...
DeepSeek 开源引发的全球热潮余温尚在,近日,阶跃星辰携手吉利汽车集团再度出手,强势开源了 Step-Audio-TTS-3B 模型,再次引发了业内...
指标收集是每个机器学习项目不可或缺的组成部分,它使我们能够跟踪模型性能并监控训练进度。理想情况下,我们希望在不给训练过程带来额...
2023 年 11 月,美国劳伦斯伯克利国家实验室的科学家们围着一台机械臂屏息凝神——这个名为 A-Lab 的 AI 材料合成平台刚刚在连续成功制备 ...
近端策略优化(Proximal Policy Optimization, PPO)算法作为一种高效的策略优化方法,在深度强化学习领域获得了广泛应用。特别是在大语言...
本文系统性地阐述了大型语言模型(Large Language Models, LLMs)中的解码策略技术原理及其实践应用。通过深入分析各类解码算法的工作机制...
相信很多喜爱漫威电影的朋友都曾被这一幕所惊艳,在电影「钢铁侠 2」中,人工智能管家贾维斯通过采集斯塔克的血液样本,利用深度学习算...
2021 年,OpenAI 发布了革命性的 CLIP (Contrastive Language-ImagePre-training) 模型——通过无监督学习的方式,CLIP 在不需要额外标注...
STAR (Spatial-Temporal Augmentation with Text-to-Video Models) 提出了一种创新的视频超分辨率解决方案,针对现有模型中存在的过度平...