研究者提出了一种新的关联思维链(Chain-of-Associated-Thoughts, CoAT)方法,该方法通过整合蒙特卡洛树搜索(Monte Carlo Tree Search, M...
人工智能 (AI) 进入汽车领域已经不再是未来世界才会出现的情景了。从能够通过每次车程汲取经验的智能导航,到驾驶员与汽车之间的智能交...
抛弃长思维链和人类的语言,直接在连续的高维潜空间用隐藏状态推理,可自适应地花费更多计算来思考更长时间。
当前,计算架构中的「武林世界」出现了状况——许多架构同时存在,有x86、鲲鹏等,提到不同人都有使用不同的架构。它们代表着不同流派或修...
涡轮叶片作为飞机发动机中最重要的部件之一,需要在超过 1000℃ 的高温下持续工作,同时承受巨大的机械应力。2018 年,美国西南航空的一...
在众多时间序列模型中,SARIMA(seasonal autoregressive integrated moving average,季节性自回归积分滑动平均模型)能够有效处理时间...
系统介绍mbp pro一、Ollama 安装与配置1.1 跨平台安装指南Ollama 作为本地运行大模型的利器,支持三大主流操作系统: {代码...} 1.2 服...
“DeepSeek R1” 刚上线时,就在全球范围内刮起了一股新的智能对话风潮。它看起来“好像什么都知道”,但在使用中,人们也会碰到重复 Debug...
大语言模型在汽车行业的最大用途(如果不是之一的话)是让人类像控制马一样控制车辆。让车辆变成能听懂人话的灵性智能体。
今年 10 月在费城开 COLM 的时候,我有幸见到了 NVDA 两篇工作的 post,一篇是 RULER,现在已经是 long context 几乎必测的 benchmark;...
过年期间沉迷休息,心怀愧疚地无视了读者催我们写DeepSeek的要求。后来我发现,这催更不仅适用于科技博主,比如在一个跟AI毫无关系的搞...
“服务器繁忙,请稍后再试”,这两天有无数慕名而来体验DeepSeek的用户,都被这句提示框,浇了一头凉水。
蛋白质的功能很大程度上取决于其 3D 结构。19 世纪中期,科学界普遍认为蛋白质结构是固定的、刚性的,类似「锁与钥匙」模型 (lock-and-k...
Apache TVM 是一个深度的深度学习编译框架,适用于 CPU、GPU 和各种机器学习加速芯片。更多 TVM 中文文档可访问 →[链接]
当模型在训练数据上表现良好,但在测试数据上表现不佳时,即出现“过拟合”。这意味着模型从训练数据中学习了过多的噪声模式,从而丧失了...
本文编译自 Azure High Performance Computing (HPC) Blog,原文标题《Running DeepSeek-R1 on a single NDv5 MI300X VM》。
在 AI 大火之后,AI 代码一直是讨论的热题,之前比较火的 cursor 就是基于此出现的,但是国内访问受限,而且价格昂贵,我们今天就做个平...
最近,视觉语言模型(VLMs)如 CLIP 在视觉任务的自监督表示学习方面取得了显著成功。然而,有效地将 VLMs 应用到下游任务仍具有挑战性...
地球科学作为一个高度跨学科的领域,正在经历一场由 AI 引领的重大变革。回顾 2024 年,研究人员在智慧城市建设、房价预测、海洋生态建...
DeepSeekMoE 是一种创新的大规模语言模型架构,通过整合专家混合系统(Mixture of Experts, MoE)、改进的注意力机制和优化的归一化策略,...
本文关注 DeepSeek-R1 在技术上最重要的突破——用纯深度学习的方法让 AI 自发涌现出推理能力。这一研究可能会对模型推理训练后续的范式产...
首先我会简单回顾下 2024 年的学习收获,然后我会聊一聊我在 SGLang 中度过的几个月业余开源开发的经历。无论是最近火遍全球的 DeepSeek...
DeepSeek在这个春节假期卷翻了硅谷,我们注意到,对于模型和应用的讨论很多,但鲜有人追问:DeepSeek的现象级爆火,为AI商业化撕开了怎...
vLLM 是一款专为大语言模型推理加速而设计的框架,实现了 KV 缓存内存几乎零浪费,解决了内存管理瓶颈问题。
神经常微分方程(Neural ODEs)是深度学习领域的创新性模型架构,它将神经网络的离散变换扩展为连续时间动力系统。与传统神经网络将层表...
在科幻电影「阿凡达」中的潘多拉星球,那座被绿色藤蔓缠绕、悬浮于云端的哈利路亚山,无疑给观众留下了深刻的印象。其悬浮的奥秘,就在...
DeepSeek-V3 横空出世,训练和推理成本极低,一个重要的原因就是采用了 FP8 进行训练和推理,今天结合最近的实践来分析一下其中的原理:
在现代科学计算和数据分析领域,数据降维与压缩技术对于处理高维数据具有重要意义。本文主要探讨两种基础而重要的数学工具:Karhunen-Lo...
研究者提出了一种新的关联思维链(Chain-of-Associated-Thoughts, CoAT)方法,该方法通过整合蒙特卡洛树搜索(Monte Carlo Tree Search, M...
人工智能 (AI) 进入汽车领域已经不再是未来世界才会出现的情景了。从能够通过每次车程汲取经验的智能导航,到驾驶员与汽车之间的智能交...
抛弃长思维链和人类的语言,直接在连续的高维潜空间用隐藏状态推理,可自适应地花费更多计算来思考更长时间。
当前,计算架构中的「武林世界」出现了状况——许多架构同时存在,有x86、鲲鹏等,提到不同人都有使用不同的架构。它们代表着不同流派或修...
涡轮叶片作为飞机发动机中最重要的部件之一,需要在超过 1000℃ 的高温下持续工作,同时承受巨大的机械应力。2018 年,美国西南航空的一...
在众多时间序列模型中,SARIMA(seasonal autoregressive integrated moving average,季节性自回归积分滑动平均模型)能够有效处理时间...
系统介绍mbp pro一、Ollama 安装与配置1.1 跨平台安装指南Ollama 作为本地运行大模型的利器,支持三大主流操作系统: {代码...} 1.2 服...
“DeepSeek R1” 刚上线时,就在全球范围内刮起了一股新的智能对话风潮。它看起来“好像什么都知道”,但在使用中,人们也会碰到重复 Debug...
大语言模型在汽车行业的最大用途(如果不是之一的话)是让人类像控制马一样控制车辆。让车辆变成能听懂人话的灵性智能体。
今年 10 月在费城开 COLM 的时候,我有幸见到了 NVDA 两篇工作的 post,一篇是 RULER,现在已经是 long context 几乎必测的 benchmark;...
过年期间沉迷休息,心怀愧疚地无视了读者催我们写DeepSeek的要求。后来我发现,这催更不仅适用于科技博主,比如在一个跟AI毫无关系的搞...
“服务器繁忙,请稍后再试”,这两天有无数慕名而来体验DeepSeek的用户,都被这句提示框,浇了一头凉水。
蛋白质的功能很大程度上取决于其 3D 结构。19 世纪中期,科学界普遍认为蛋白质结构是固定的、刚性的,类似「锁与钥匙」模型 (lock-and-k...
Apache TVM 是一个深度的深度学习编译框架,适用于 CPU、GPU 和各种机器学习加速芯片。更多 TVM 中文文档可访问 →[链接]
当模型在训练数据上表现良好,但在测试数据上表现不佳时,即出现“过拟合”。这意味着模型从训练数据中学习了过多的噪声模式,从而丧失了...
本文编译自 Azure High Performance Computing (HPC) Blog,原文标题《Running DeepSeek-R1 on a single NDv5 MI300X VM》。
在 AI 大火之后,AI 代码一直是讨论的热题,之前比较火的 cursor 就是基于此出现的,但是国内访问受限,而且价格昂贵,我们今天就做个平...
最近,视觉语言模型(VLMs)如 CLIP 在视觉任务的自监督表示学习方面取得了显著成功。然而,有效地将 VLMs 应用到下游任务仍具有挑战性...
地球科学作为一个高度跨学科的领域,正在经历一场由 AI 引领的重大变革。回顾 2024 年,研究人员在智慧城市建设、房价预测、海洋生态建...
DeepSeekMoE 是一种创新的大规模语言模型架构,通过整合专家混合系统(Mixture of Experts, MoE)、改进的注意力机制和优化的归一化策略,...
本文关注 DeepSeek-R1 在技术上最重要的突破——用纯深度学习的方法让 AI 自发涌现出推理能力。这一研究可能会对模型推理训练后续的范式产...
首先我会简单回顾下 2024 年的学习收获,然后我会聊一聊我在 SGLang 中度过的几个月业余开源开发的经历。无论是最近火遍全球的 DeepSeek...
DeepSeek在这个春节假期卷翻了硅谷,我们注意到,对于模型和应用的讨论很多,但鲜有人追问:DeepSeek的现象级爆火,为AI商业化撕开了怎...
vLLM 是一款专为大语言模型推理加速而设计的框架,实现了 KV 缓存内存几乎零浪费,解决了内存管理瓶颈问题。
神经常微分方程(Neural ODEs)是深度学习领域的创新性模型架构,它将神经网络的离散变换扩展为连续时间动力系统。与传统神经网络将层表...
在科幻电影「阿凡达」中的潘多拉星球,那座被绿色藤蔓缠绕、悬浮于云端的哈利路亚山,无疑给观众留下了深刻的印象。其悬浮的奥秘,就在...
DeepSeek-V3 横空出世,训练和推理成本极低,一个重要的原因就是采用了 FP8 进行训练和推理,今天结合最近的实践来分析一下其中的原理:
在现代科学计算和数据分析领域,数据降维与压缩技术对于处理高维数据具有重要意义。本文主要探讨两种基础而重要的数学工具:Karhunen-Lo...