当模型在训练数据上表现良好,但在测试数据上表现不佳时,即出现“过拟合”。这意味着模型从训练数据中学习了过多的噪声模式,从而丧失了...
本文编译自 Azure High Performance Computing (HPC) Blog,原文标题《Running DeepSeek-R1 on a single NDv5 MI300X VM》。
在 AI 大火之后,AI 代码一直是讨论的热题,之前比较火的 cursor 就是基于此出现的,但是国内访问受限,而且价格昂贵,我们今天就做个平...
2025,国产AI火力全开!天翼云“息壤”深度适配DeepSeek-R1/V3实现“国产模型+国产算力+国产云服务”全产业链闭环打造国产AI新高度助力千行...
地球科学作为一个高度跨学科的领域,正在经历一场由 AI 引领的重大变革。回顾 2024 年,研究人员在智慧城市建设、房价预测、海洋生态建...
DeepSeekMoE 是一种创新的大规模语言模型架构,通过整合专家混合系统(Mixture of Experts, MoE)、改进的注意力机制和优化的归一化策略,...
DeepSeek在这个春节假期卷翻了硅谷,我们注意到,对于模型和应用的讨论很多,但鲜有人追问:DeepSeek的现象级爆火,为AI商业化撕开了怎...
vLLM 是一款专为大语言模型推理加速而设计的框架,实现了 KV 缓存内存几乎零浪费,解决了内存管理瓶颈问题。
在科幻电影「阿凡达」中的潘多拉星球,那座被绿色藤蔓缠绕、悬浮于云端的哈利路亚山,无疑给观众留下了深刻的印象。其悬浮的奥秘,就在...
DeepSeek-V3 横空出世,训练和推理成本极低,一个重要的原因就是采用了 FP8 进行训练和推理,今天结合最近的实践来分析一下其中的原理:
在现代科学计算和数据分析领域,数据降维与压缩技术对于处理高维数据具有重要意义。本文主要探讨两种基础而重要的数学工具:Karhunen-Lo...
古话说,「人非圣贤,孰能无过」,但在医学领域,像误诊这样的「过」,造成的后果却可能是惨痛的。一方面对于患者而言,轻则虚惊一场,...
春节前后,DeepSeek 着实火了一把,朋友圈也是刷爆了(不知道你朋友圈有没有关于 Deepseek 的消息?)。
Triton 是一种用于并行编程的语言和编译器。它旨在提供一个基于 Python 的编程环境,以高效编写自定义 DNN 计算内核,并能够在现代 GPU ...
YOLO (You Only Look Once) 是计算机视觉领域中最具影响力的实时目标检测算法之一,以其高精度与高效性深受业界青睐,广泛应用于自动驾...
2024 年,AI 浪潮依旧凶猛地奔涌向前,未见颓势,悄然重塑着世界的轮廓,书写了一个个创纪录的革新性事件。
新年新目标,阅读伴成长2025 年的第一本书你选好了吗?HyperAI超神经精选了 10 本 AI 领域必读书籍用知识武装自己,在新的一年跑得更远吧!
正月初三,年味正浓。新春的喜庆氛围不仅弥漫在大街小巷,也在人工智能领域引发了诸多创新应用。从 AI 生成春联,到春运交通标志的智能...
DeepSeek-R1 通过创新的训练策略实现了显著的成本降低,同时保持了卓越的模型性能。本文将详细分析其核心训练方法。
2025年初,大模型赛场热度不减,有拼成本优势,拼Tokens调用量的短跑赛;有比慢思考,比大模型推理能力的长跑赛。但在观看这些“经典赛事...