V 头像

V

4400 声望
他还没有填写个人简介
关注了
0
粉丝数
3
最新动态
  • 发布了文章 ·
    精简模型,提升效能:线性回归中的特征选择技巧

    在本文中,我们将探讨各种特征选择方法和技术,用以在保持模型评分可接受的情况下减少特征数量。通过减少噪声和冗余信息,模型可以更快地处理,并减少复杂性。

    摘要图
  • 发布了文章 ·
    贝叶斯分析与决策理论:用于确定分类问题决策点的应用

    在分类问题中,一个常见的难题是决定输出为数字时各类别之间的切分点。例如,一个神经网络的输出是介于0到1之间的数字,比如0.7,这是对应于正类(1)还是负类(0)?常识告诉我们使用0.5作为决策标记,但如果低估正类的风险较高怎么办?或者如果类别不平衡呢?

    摘要图
  • 发布了文章 ·
    大语言模型对时间序列预测真的有用吗?

    我们已经看到了语言模型的巨大进步,但时间序列任务,如预测呢?今天我们推荐一篇论文,对现有的语言模型和时间序列做了深入的研究。将探讨了是否可以从大型语言模型(LLMs)中获益于时间序列(TS)预测。

    摘要图
  • 发布了文章 ·
    用PyTorch从零开始编写DeepSeek-V2

    DeepSeek-V2是一个强大的开源混合专家(MoE)语言模型,通过创新的Transformer架构实现了经济高效的训练和推理。该模型总共拥有2360亿参数,其中每个令牌激活21亿参数,支持最大128K令牌的上下文长度。

    摘要图
  • 发布了文章 ·
    VQ-VAE:矢量量化变分自编码器,离散化特征学习模型

    VQ-VAE 是变分自编码器(VAE)的一种改进。这些模型可以用来学习有效的表示。本文将深入研究 VQ-VAE 之前,不过,在这之前我们先讨论一些概率基础和 VAE 架构。

    摘要图
  • 发布了文章 ·
    使用Pytorch中从头实现去噪扩散概率模型(DDPM)

    扩散模型通常是一种生成式深度学习模型,它通过学习去噪过程来创建数据。扩散模型有许多变体,其中最流行的是条件文本模型,能够根据提示生成特定的图像。某些扩散模型(如Control-Net)甚至能将图像与某些艺术风格融合。

  • 发布了文章 ·
    谷歌的时间序列预测的基础模型TimesFM详解和对比测试

    TimesFM是一个为时间序列数据量身定制的大型预训练模型——一个无需大量再训练就能提供准确预测的模型。TimesFM有2亿参数,并在1000亿真实世界时间点上进行了训练。可以允许额外的协变量作为特征。

    摘要图
  • 发布了文章 ·
    Pytorch的编译新特性TorchDynamo的工作原理和使用示例

    在深度学习中,优化模型性能至关重要,特别是对于需要快速执行和实时推断的应用。而PyTorch在平衡动态图执行与高性能方面常常面临挑战。传统的PyTorch优化技术在处理动态计算图时效果有限,导致训练时间延长和模型性能不佳。TorchDynamo是一种为PyTorch设计的即时(JIT)编译器,通过在运行时拦截Python代码、优化它,并...

  • 发布了文章 ·
    注意力机制中三种掩码技术详解和Pytorch实现

    注意力机制是许多最先进神经网络架构的基本组成部分,比如Transformer模型。注意力机制中的一个关键方面是掩码,它有助于控制信息流,并确保模型适当地处理序列。

    摘要图
  • 发布了文章 ·
    持续学习中的Elastic Weight Consolidation Loss数学原理及代码实现

    训练人工神经网络最重要的挑战之一是灾难性遗忘。神经网络的灾难性遗忘(catastrophic forgetting)是指在神经网络学习新任务时,可能会忘记之前学习的任务。这种现象特别常见于传统的反向传播算法和深度学习模型中。主要原因是网络在学习新数据时,会调整权重以适应新任务,这可能会导致之前学到的知识被覆盖或忘记,尤...

    摘要图
  • 发布了文章 ·
    Lookback Lens:用注意力图检测和减轻llm的幻觉

    在总结文章或回答给定段落的问题时,大语言模型可能会产生幻觉,并会根据给定的上下文回答不准确或未经证实的细节,这也被称为情境幻觉。为了解决这个问题,这篇论文的作者提出了一个简单的幻觉检测模型,其输入特征由上下文的注意力权重与新生成的令牌(每个注意头)的比例给出。它被称为回看或基于回看比率的检测器。

    摘要图
  • 发布了文章 ·
    LLM代理应用实战:构建Plotly数据可视化代理

    如果你尝试过像ChatGPT这样的LLM,就会知道它们几乎可以为任何语言或包生成代码。但是仅仅依靠LLM是有局限的。对于数据可视化的问题我们需要提供一下的内容

    摘要图
  • 发布了文章 ·
    统计学入门:时间序列分析基础知识详解

    时间序列分析中包含了许多复杂的数学公式,它们往往难以留存于记忆之中。为了更好地掌握这些内容,本文将整理并总结时间序列分析中的一些核心概念,如自协方差、自相关和平稳性等,并通过Python实现和图形化展示这些概念,使其更加直观易懂。希望通过这篇文章帮助大家更清楚地理解时间序列分析的基础框架和关键点。

    摘要图
  • 发布了文章 ·
    11个提升Python列表编码效率的高级技巧

    Python中关于列表的一些很酷的技巧 1、collections.dequedeque(双端队列)非常适合从列表的两端快速添加和删除项目。 2、使用带有if-else条件的列表推导式使用if-else的列表推导式可以以简洁的方式创建具有条件逻辑的列表。3、itertools.product {代码...} 从两个或多个列表中生成所有可能的项目组合。 4、itertools.grou...

    摘要图
  • 发布了文章 ·
    LLM推理引擎怎么选?TensorRT vs vLLM vs LMDeploy vs MLC-LLM

    LLM擅长文本生成应用程序,如聊天和代码完成模型,能够高度理解和流畅。但是它们的大尺寸也给推理带来了挑战。有很多个框架和包可以优化LLM推理和服务,所以在本文中我将整理一些常用的推理引擎并进行比较。

  • 发布了文章 ·
    RouteLLM:高效LLM路由框架,可以动态选择优化成本与响应质量的平衡

    该论文提出了一个新的框架,用于在强模型和弱模型之间进行查询路由选择。通过学习用户偏好数据,预测强模型获胜的概率,并根据成本阈值来决定使用哪种模型处理查询 。该研究主要应用于大规模语言模型(LLMs)的实际部署中,通过智能路由在保证响应质量的前提下显著降低成本。

  • 发布了文章 ·
    字符串相似度算法完全指南:编辑、令牌与序列三类算法的全面解析与深入分析

    在自然语言处理领域,人们经常需要比较字符串,这些字符串可能是单词、句子、段落甚至是整个文档。如何快速判断两个单词或句子是否相似,或者相似度是好还是差。这类似于我们使用手机打错一个词,但手机会建议正确的词来修正它,那么这种如何判断字符串相似度呢?本文将详细介绍这个问题。

  • 发布了文章 ·
    深入解析高斯过程:数学理论、重要概念和直观可视化全解

    与其他算法相比,高斯过程不那么流行,但是如果你只有少量的数据,那么可以首先高斯过程。在这篇文章中,我将详细介绍高斯过程。并可视化和Python实现来解释高斯过程的数学理论。

  • 发布了文章 ·
    图神经网络版本ov Arn的Kolmogorold(KAN)代码实现和效果对比

    Kolmogorov Arnold Networks (KAN)最近作为MLP的替代而流行起来,KANs使用Kolmogorov-Arnold表示定理的属性,该定理允许神经网络的激活函数在边缘上执行,这使得激活函数“可学习”并改进它们。

  • 发布了文章 ·
    DeepMind的新论文,长上下文的大语言模型能否取代RAG或者SQL这样的传统技术呢?

    长上下文大型语言模型(LCLLMs)确实引起了一些关注。这类模型可能使某些任务的解决更加高效。例如理论上可以用来对整本书进行总结。有人认为,LCLLMs不需要像RAG这样的外部工具,这有助于优化并避免级联错误。但是也有许多人对此持怀疑态度,并且后来的研究表明,这些模型并没有真正利用长上下文。还有人声称,LCLLMs会...

认证与成就
获得 880 次点赞
2021年08月31日 加入
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
安谋科技学堂公众号
关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源
安谋科技招聘公众号
关注安谋科技招聘
实时获取安谋科技中国职位信息