这一周完成了 vllm 迁移到 SGLang 的工作,其实迁移本身非常简单,基本上将之前 vllm 的 serving 指令更换为 SGLang 的 serving 指令即...
本文介绍来自华为诺亚方舟实验室、清华大学和香港中文大学联合在大语言模型量化上的最新工作 FlatQuant (Fast and Learnable Affine Tra...
大家好,今天我们继续vllm源码的解析,一起来看下它最近总是被频繁提起、也是较不好理解的一个创新点:Prefix Caching(本文同时也是Blo...
书接上文,今天起来后感谢合作者的点醒,大概发现了如何用 vllm 去 serve embedding model,并且成功利用 serve 了 gte-7b。
手写记录是许多人在日常生活中记录灵感的方式,但如何高效地将手写内容转化为电子文本一直是一大挑战。传统的 OCR(光学字符识别)技术...
Text Embedding 榜单:MTEB、C-MTEB 《MTEB: Massive Text Embedding Benchmark(海量文本嵌入基准)》 判断哪些文本嵌入模型效果较好,通...
11月15日,以“智算力,大模型,新经济”为主题的第六届中国超级算力大会(ChinaSC2024)在北京举办,六位院士携手数十位专家齐聚此次盛会...
然而晶体材料的生成和设计过程并不简单,通常需要同时考虑离散变量和连续变量的组合。其中离散变量定义了材料的基本框架(如原子类型和...
Megatron Sequence Parallelism:本质是想通过降低单卡激活值大小的方式,尽可能多保存激活值,少做重计算,以此提升整体训练速度,一般...
要说谁是引领蛋白质设计的世界级大师,美国华盛顿大学的 David Baker 教授可谓是当之无愧,作为该领域的顶级专家,Baker 在蛋白质方向发...
「传统研究方法高度依赖于科研人员自身的特征和问题定义能力,通常采用小数据,在泛化能力和拓展能力上存疑。而 AI 研究方法则需要引入...
以 ChatGPT、ChatGLM 和 LLaMA 等为代表的大语言模型已成为人们探索未知世界的有力工具,这些拥有数十亿参数的模型,通过大规模文本语料...
来源:[链接] 。下面文章包含2个主题,第一个是FSDP2中开启Float8 All-Gather的Discussion的翻译,第二个是TorchAO中的Float8实现速览的...
论文标题:Harmonizing Visual Text Comprehension and Generation 论文地址:[链接] 论文源码:[链接]
「开源能够确保世界上更多人从 AI 的发展中获得利益与机会」,扎克伯格曾在 Llama 3.1 发布时撰写长文,阐述了开源的意义。诚然,伴随 A...
随着大型语言模型(LLMs)参数的不断增加,数百亿甚至数千亿参数,对专用硬件加速器制造商产生了巨大压力,使后者的创新设计成为人工智...
在第 20 届 CCF 全国高性能计算学术年会 (CCF HPC China 2024)——数值模拟工程应用中的智能超算融合技术论坛上,来自中国科学院计算机网...
在全球范围内,肠胃病正成为一个严峻的公共卫生挑战。据世界卫生组织国际癌症研究机构统计,胃病在人群中的发病率高达 80%,而在中国,...
[【ChatGLM2-6B 入门】清华大学开源中文版 ChatGLM-6B 模型学习与实战]论文名称:ChatGLM2-6B: An Open Bilingual Chat LLM | 开源双语...
检索增强生成 (RAG) 是一种强大的技术,它将信息检索与生成式 AI 相结合,以产生更准确、上下文更丰富的响应。本文将探讨 15 种高级 R...
近日,一段「机器狗当挑夫勇闯泰山」的视频火爆全网,这个「机器狗」不仅能够轻松驮载沉重物资,还能在泰山的陡峭山路上「健步如飞」,...
我的课程笔记,欢迎关注:[链接]来源:[链接] 。这个笔记介绍了大型语言模型推理的各个方面。它首先解释了推理的基本概念,如预填充和解...
随着医疗信息化的普及,医疗数据从规模到质量都实现了不同程度的提升。进入大模型时代以来,面向精准医疗、诊断辅助、医患交互等不同场...
让 AI 在某些条件下具备类似人类的反应能力,从而代替人类高效地从事特定工作,是 AI 领域研究人员孜孜不倦的追求。正如在医学图像和人...
10月18日,阳光新能源在北京召开“以‘不变’应万变——电站创新技术发布会”,重磅发布新能源电站“魔方”技术平台,集中展示阳光新能源电站技...
Apache TVM 是一个端到端的深度学习编译框架,适用于 CPU、GPU 和各种机器学习加速芯片。更多 TVM 中文文档可访问 →[链接]作者:Tianqi ...
作为生物功能的主要载体,蛋白质结构和功能在数十亿年的进化中所展示出的多样性,为药物发现和材料科学等领域的进步提供了重要机遇,然...
特斯拉第一代智能驾驶使用Mobileye芯片和视觉算法,在 2015款Model S 车型中实现L2+级别的Autopilot;中国新势力蔚来小鹏第一代L2+ 智能...
在8月20日正式发售当日,单以Steam平台为例,《黑神话:悟空》不到三小时在线玩家数量便破百万,首日在线峰值超过了222万!这个数据在St...
随着生成式人工智能(Artificial Intelligence Generated Content,简写为 AIGC)时代的到来,使用大规模预训练语言模型(LLM)来进行 t...
目录-为什么是LLM大语言对话模型?-测试项目:token/秒(平均延时)、首个token延时-官方对比测试数字——补充参考-当iGPU性能达到CPU Cor...
前言大模型作为一个语言模型,实际上没有真正的记忆功能。所谓的对话记忆只是开发者将对话历史向GPT发送消息时将最近的对话历史通过提示...
中国信通院近期正式发布《大模型驱动的媒体生产与处理》标准,阿里云智能媒体服务,以“首批首家”通过卓越级评估,并在9大模块50余项测评...