上周 MiniMax 开源了他们 4560 亿参数的 MoE 大模型,其中一个亮点是这个模型是一个 Lightning Attention 和 Softmax Attention 的混合...
博客来源:[链接] 这里做了翻译。这篇博客主要讲了如何用 Triton 来优化 Float8 格式的矩阵乘法(GEMM)运算。文章提出了一个叫 GridQuant...
自 “Prompt 工作手册” 发布以来,我持续研究大模型能力的应用及研发方法,结合产业发展,在研发框架和模型应用上有了新的思考,并形成了...
Transformer 模型,自 2017 年由 Vaswani 等人提出以来,在自然语言处理(NLP)领域引发了革命性的变革。这一模型的核心在于其独特的自...
缩放定律(Scaling Law)为深度学习模型的设计和训练提供了理论指导,特别是在构建和训练大规模模型时,如何有效地分配有限的计算资源以...
Apache TVM 是一个深度的深度学习编译框架,适用于 CPU、GPU 和各种机器学习加速芯片。更多 TVM 中文文档可访问 →[链接]
除夕是农历年的最后一天,在这个旧岁新年更替之际,人们往往会通过贴春联、挂灯笼等活动来祈福并正式开启「春节模式」。春联也称为「对...
知识蒸馏是一种通过性能与模型规模的权衡来实现模型压缩的技术。其核心思想是将较大规模模型(称为教师模型)中的知识迁移到规模较小的...
快过年了,大家是否和我一样,跟家乡的关系弱了,归家途中“近乡情更怯”,担心大过年的把天给聊尬了。但踏上故土的那一刻,听到熟悉的乡...
以 AlphaFold 为代表的 AI 系统,能够以前所未有的精度预测蛋白质三维结构,为理解蛋白质功能和开发靶向药物提供了革命性工具。在药物研...
过去几年,以英伟达、谷歌为首的科技巨头纷纷表达对 AI 医疗的重视,近千亿元资金被砸进该赛道,医疗领域也成为 AI 应用最广、成效最明...
AI for Science 作为科学发现的「第五范式」, 正在开创一场全新的科研革命,在材料化学领域,这场变革尤为显著。
在性能要求较高的应用场景中,Python 常因其执行速度不及 C、C++或 Rust 等编译型语言而受到质疑。然而通过合理运用 Python 标准库提供...
近年来,人工智能的快速发展正以前所未有的深度和广度影响着科学研究的各个领域。作为推动科技进步的重要引擎之一,「AI for Science」...
yifuwang 在 [链接] 中实现了一个 triton_all_gather_matmul.py ,也就是可以把 AllGather 和 MatMul kernel fuse 起来变成一个 kernel...
在 1 月初的 CES 2025 大会上,黄仁勋身着新款皮衣为大家带来了多重惊喜,除了「世界最快GPU RTX 5090」之外,世界基础模型 Cosmos 也引...
vLLM 是一款专为大语言模型推理加速而设计的框架,实现了 KV 缓存内存几乎零浪费,解决了内存管理瓶颈问题。
大型语言模型(LLMs)在处理复杂推理任务时面临挑战,这突显了其在模拟人类认知中的不足。尽管 LLMs 擅长生成连贯文本和解决简单问题,...
一、写在前面在 OpenAI o1 刚放出来时,它有限的技术报告里,有 2 个内容格外抓人眼球:Inference/test-time scalingRL我一直是把这 2 ...
不知道大家对这句话感受如何,作为科技博主的我,经常心有戚戚。这些年来,我似乎见证了太多堪称历史性的变革,AI技术从无人问津到街谈...
2023 年 12 月,谷歌 DeepMind 在「Nature」上发布其在材料化学领域的深度学习模型 GNoME,宣称发现了 220 万种新的无机材料的晶体结构...
大语言模型(LLM)通过其参数储存了大量信息,这些信息主要以密集层中线性矩阵变换的权重形式存在。然而,参数规模的扩大必然导致计算成...
过去的一年,多模态大模型不断给行业带来惊喜,随着生成式AI和大模型技术加速破圈,算力进入“建设为王”的新时代。
前两天,月之暗面推出了Kimi k1.5多模态思考模型,DeepSeek也发布了DeepSeek-R1文本推理模型,二者都在推理能力上对标OpenAI正式版o1。
今天(1 月 22 日)凌晨,在白宫新闻发布会上,OpenAI CEO Sam Altman、软银 CEO 孙正义、甲骨文 (Oracle) CEO Larry Ellison 与特朗普...
2019 年 12 月,新冠疫情 (COVID-19) 突然爆发,这种由 SARS-CoV-2 病毒引起的疾病具有高度传染性,仅一个月时间,我国病例涉及人数就超...
Triton 是一种用于并行编程的语言和编译器。它旨在提供一个基于 Python 的编程环境,以高效编写自定义 DNN 计算内核,并能够在现代 GPU ...
在进行时间序列分析之前,确定序列的平稳性是一个关键步骤。平稳性指的是时间序列的统计特性(如均值和方差)在时间维度上保持不变。本...
在今天,我们随便出国走一走,就会惊讶于AI技术在中国有多么普及。高铁、机场可以人脸识别验票,公共场所随处可见AI安防系统,酒店里到...
近年来,在深度学习等 AI 技术的辅助下,蛋白质结构预测领域发展迅猛,2024 年 10 月份,因为 AlphaFold,DeepMind 的 Demis Hassabis、...
金融资产波动率建模在现代金融工程中具有重要地位,其应用涵盖风险管理、衍生品定价和投资组合优化等核心领域。本文着重探讨三种主流波...
联邦学习的研究最近从卷积神经网络(CNNs)转向了视觉 Transformer (ViTs),因为 ViTs 具有更优越的能力。由于 ViTs 缺乏 CNN 固有的 ...
从古至今,人类从未停止过与疾病的抗争,一款新药的出现可能挽救成千上万的生命,甚至还会延长人类的整体寿命。
Apache TVM 是一个深度的深度学习编译框架,适用于 CPU、GPU 和各种机器学习加速芯片。更多 TVM 中文文档可访问 →[链接]
状态空间模型通过构建生成可观测数据的潜在未观测状态模型来进行时间序列分析。作为该方法论的核心,卡尔曼滤波为实时估计这些隐状态提...