V 头像

V

3900 声望
他还没有填写个人简介
关注了
0
粉丝数
3
最新动态
  • 发布了文章 ·
    提高 RAG 应用准确度,时下流行的 Reranker 了解一下?

    检索增强生成(RAG)是一种新兴的 AI 技术栈,通过为大型语言模型(LLM)提供额外的“最新知识”来增强其能力。

    摘要图
  • 发布了文章 ·
    Moirai:Salesforce的时间序列预测基础模型

    在过去的几个月中,时间序列基础模型的发展速度一直在加快,每个月都能看到新模型的发布。从TimeGPT 开始,我们看到了 Lag-Llama 的发布,Google 发布了 TimesFM,Amazon 发布了 Chronos,Salesforce 发布了 Moirai。TimesFM是信息最多的模型,而Lag-Llama、Chronos我们都做过详细的介绍。今天我们来详细介绍一下Moirai...

  • 发布了文章 ·
    PyTorch小技巧:使用Hook可视化网络层激活(各层输出)

    这篇文章将演示如何可视化PyTorch激活层。可视化激活,即模型内各层的输出,对于理解深度神经网络如何处理视觉信息至关重要,这有助于诊断模型行为并激发改进。

  • 发布了文章 ·
    ORPO偏好优化:性能和DPO一样好并且更简单的对齐方法

    现在有许多方法可以使大型语言模型(LLM)与人类偏好保持一致。以人类反馈为基础的强化学习(RLHF)是最早的方法之一,并促成了ChatGPT的诞生,但RLHF的成本非常高。与RLHF相比,DPO、IPO和KTO的成本明显更低,因为它们不需要奖励模型。

  • 发布了文章 ·
    时空图神经网络ST-GNN的概念以及Pytorch实现

    在我们周围的各个领域,从分子结构到社交网络,再到城市设计结构,到处都有相互关联的图数据。图神经网络(GNN)作为一种强大的方法,正在用于建模和学习这类数据的空间和图结构。它已经被应用于蛋白质结构和其他分子应用,例如药物发现,以及模拟系统,如社交网络。标准的GNN可以结合来自其他机器学习模型的想法,比如...

  • 发布了文章 ·
    PiSSA :将模型原始权重进行奇异值分解的一种新的微调方法

    我们开始看4月的新论文了,这是来自北京大学人工智能研究所、北京大学智能科学与技术学院的研究人员发布的Principal Singular Values and Singular Vectors Adaptation(PiSSA)方法。

  • 发布了文章 ·
    10个大型语言模型(LLM)常见面试问题和答案解析

    今天我们来总结以下大型语言模型面试中常问的问题1、哪种技术有助于减轻基于提示的学习中的偏见?A.微调 Fine-tuningB.数据增强 Data augmentationC.提示校准 Prompt calibrationD.梯度裁剪 Gradient clipping答案:C提示校准包括调整提示,尽量减少产生的输出中的偏差。微调修改模型本身,而数据增强扩展训练数据。梯度裁...

  • 发布了文章 ·
    推测解码:在不降低准确性的情况下将LLM推理速度提高2 - 3倍

    在本篇文章我们将详细讨论推测解码,这是一种可以将LLM推理速度提高约2 - 3倍而不降低任何准确性的方法。我们还将会介绍推测解码代码实现,并看看它与原始transformer 实现相比到底能快多少。

  • 发布了文章 ·
    高维解码|Redis 收紧许可证!开源软件公司如何在云时代生存?

    最近,Redis 从开放源代码的 BSD 许可证过渡到了更加限制性的 Server Side Public License (SSPLv1)。一石激起千层浪,Redis 的这一举动,不仅分化了前 Redis 维护者,也再次引发业界对于“开源项目可持续性以及许可证决策对其社区的影响”的讨论。

    摘要图
  • 发布了文章 ·
    为什么大型语言模型都在使用 SwiGLU 作为激活函数?

    如果你一直在关注大型语言模型的架构,你可能会在最新的模型和研究论文中看到“SwiGLU”这个词。SwiGLU可以说是在大语言模型中最常用到的激活函数,我们本篇文章就来对他进行详细的介绍。SwiGLU其实是2020年谷歌提出的激活函数,它结合了SWISH和GLU两者的特点。

  • 发布了文章 ·
    归一化技术比较研究:Batch Norm, Layer Norm, Group Norm

    归一化层是深度神经网络体系结构中的关键,在训练过程中确保各层的输入分布一致,这对于高效和稳定的学习至关重要。归一化技术的选择(Batch, Layer, GroupNormalization)会显著影响训练动态和最终的模型性能。每种技术的相对优势并不总是明确的,随着网络体系结构、批处理大小和特定任务的不同而变化。

  • 发布了文章 ·
    大模型中常用的注意力机制GQA详解以及Pytorch代码实现

    分组查询注意力 (Grouped Query Attention) 是一种在大型语言模型中的多查询注意力 (MQA) 和多头注意力 (MHA) 之间进行插值的方法,它的目标是在保持 MQA 速度的同时实现 MHA 的质量。

  • 发布了文章 ·
    SiMBA:基于Mamba的跨图像和多元时间序列的预测模型

    这是3月26日新发的的论文,微软的研究人员简化的基于mamba的体系结构,并且将其同时应用在图像和时间序列中并且取得了良好的成绩。

  • 发布了文章 ·
    大语言模型中常用的旋转位置编码RoPE详解:为什么它比绝对或相对位置编码更好?

    自 2017 年发表“ Attention Is All You Need ”论文以来,Transformer 架构一直是自然语言处理 (NLP) 领域的基石。它的设计多年来基本没有变化,随着旋转位置编码 (RoPE) 的引入,2022年标志着该领域的重大发展。

  • 发布了文章 ·
    如何开始定制你自己的大型语言模型

    2023年的大型语言模型领域经历了许多快速的发展和创新,发展出了更大的模型规模并且获得了更好的性能,那么我们普通用户是否可以定制我们需要的大型语言模型呢?

  • 发布了文章 ·
    Chronos: 将时间序列作为一种语言进行学习

    这是一篇非常有意思的论文,它将时间序列分块并作为语言模型中的一个token来进行学习,并且得到了很好的效果。

  • 发布了文章 ·
    BurstAttention:可对非常长的序列进行高效的分布式注意力计算

    提高llm中注意力机制效率的努力主要集中在两种方法上:优化单设备计算和存储能力,如FlashAttention,以及利用多设备的分布式系统,如RingAttention。

  • 发布了文章 ·
    8个常见的数据可视化错误以及如何避免它们

    在当今以数据驱动为主导的世界里,清晰且具有洞察力的数据可视化至关重要。然而,在创建数据可视化时很容易犯错误,这可能导致对数据的错误解读。本文将探讨一些常见的糟糕数据可视化示例,并提供如何避免这些错误的建议。

  • 发布了文章 ·
    使用GaLore在本地GPU进行高效的LLM调优

    训练大型语言模型(llm),即使是那些“只有”70亿个参数的模型,也是一项计算密集型的任务。这种水平的训练需要的资源超出了大多数个人爱好者的能力范围。为了弥补这一差距,出现了低秩适应(LoRA)等参数高效方法,可以在消费级gpu上对大量模型进行微调。

  • 发布了文章 ·
    文生图的基石CLIP模型的发展综述

    CLIP的英文全称是Contrastive Language-Image Pre-training,即一种基于对比文本-图像对的预训练方法或者模型。CLIP是一种基于对比学习的多模态模型,CLIP的训练数据是文本-图像对:一张图像和它对应的文本描述,这里希望通过对比学习,模型能够学习到文本-图像对的匹配关系。

认证与成就
获得 780 次点赞
2021年08月31日 加入
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
安谋科技学堂公众号
关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源
安谋科技招聘公众号
关注安谋科技招聘
实时获取安谋科技中国职位信息