V 头像

V

4990 声望
他还没有填写个人简介
关注了
0
粉丝数
3
最新动态
  • 发布了文章 ·
    SWEET-RL:基于训练时信息的多轮 LLM 代理强化学习框架

    SWEET-RL(Step-WisE Evaluation from Training-time information,基于训练时信息的逐步评估)是多轮大型语言模型(LLM)代理强化学习领域的重要技术进展。该算法相较于现有最先进的方法,成功率提升了 6%,使 Llama-3.1-8B 等小型开源模型能够达到甚至超越 GPT-4O 等大型专有模型的性能水平。本文将深入分析 SWEET-RL ...

    摘要图
  • 发布了文章 ·
    时间序列异常检测:MSET-SPRT 组合方法的原理和 Python 代码实现

    在异常检测领域,尤其针对工业机械、核反应堆和网络安全等复杂系统,传统方法往往难以有效处理高维度且相互关联的数据流。多元状态估计技术(MSET) 与序贯概率比检验(SPRT) 的组合方法在此类场景中展现出显著优势。MSET-SPRT 是一种结合机器学习状态估计与统计假设检验的混合技术框架,通过其高精度和稳健性,被广泛应用...

    摘要图
  • 发布了文章 ·
    RAL-Writer Agent:基于检索与复述机制,让长文创作不再丢失关键信息

    RAL-Writer Agent 是一种专业的人工智能写作辅助技术,旨在解决生成高质量、内容丰富的长篇文章时所面临的技术挑战,确保全文保持连贯性和相关性。本研究将系统分析 RAL-Writer 的核心技术架构、功能特点及其在内容创作、学术研究和专业交流领域的应用前景。

    摘要图
  • 发布了文章 ·
    Conformalized Quantile Regression实现更可靠的预测区间

    预测不确定性量化在数据驱动决策过程中具有关键作用。无论是评估医疗干预的风险概率还是预测金融市场的价格波动范围,我们常需要构建预测区间——即以特定置信度包含目标真值的概率区间。

    摘要图
  • 发布了文章 ·
    广义优势估计(GAE):端策略优化 PPO 中偏差与方差平衡的关键技术

    广义优势估计(Generalized Advantage Estimation, GAE)由 Schulman 等人在 2016 年的论文中提出,是近端策略优化(PPO)算法的重要基础理论,也是促使 PPO 成为高效强化学习算法的核心因素之一。

    摘要图
  • 发布了文章 ·
    SEARCH-R1: 基于强化学习的大型语言模型多轮搜索与推理框架

    这个研究提出了一种新型强化学习(RL)框架SEARCH-R1,该框架使大型语言模型(LLM)能够实现多轮、交错的搜索与推理能力集成。不同于传统的检索增强生成(RAG)或工具使用方法,SEARCH-R1 通过强化学习训练 LLM 自主生成查询语句,并优化其基于搜索引擎结果的推理过程。该模型的核心创新在于完全依靠强化学习机制(无需人工标...

    摘要图
  • 发布了文章 ·
    生成 AI 的两大范式:扩散模型与 Flow Matching 的理论基础与技术比较

    生成模型已成为人工智能领域的关键突破,赋予机器创建高度逼真的图像、音频和文本的能力。在众多生成技术中,扩散模型和 Flow Matching 尤为引人注目。这两种方法虽然都致力于在噪声与结构化数据之间建立转换,但其基础原理存在本质区别。本文将系统地比较这两种先进技术,深入探讨其数学原理、实际应用及理论解释。

    摘要图
  • 发布了文章 ·
    融合 AMD 与 NVIDIA GPU 集群的 MLOps:异构计算环境中的分布式训练架构实践

    在深度学习的背景下,NVIDIA 的 CUDA 与 AMD 的 ROCm 框架缺乏有效的互操作性,导致基础设施资源利用率显著降低。随着模型规模不断扩大而预算约束日益严格,2-3 年更换一次 GPU 的传统方式已不具可持续性。但是 Pytorch 的最近几次的更新可以有效利用异构计算集群,实现对所有可用 GPU 资源的充分调度,不受制于供应商限...

    摘要图
  • 发布了文章 ·
    GoT:基于思维链的语义-空间推理框架为视觉生成注入思维能力

    计算机视觉领域正经历一次技术革新:一种不仅能将文本转换为图像,还能在生成过程中实施结构化推理的系统。这一系统即为GoT(Generative Thoughts of Thinking,生成式思维链)框架——一种将显式推理机制引入图像生成与编辑领域的创新架构。本文将深入分析 GoT 的技术原理,详细探讨其架构设计,并评估其在实际应用中的表...

    摘要图
  • 发布了文章 ·
    RAG-Gym: 基于过程监督的检索增强生成代理优化框架

    传统检索增强生成(RAG)架构因依赖静态检索机制,在处理需要顺序信息搜索的复杂问题时存在效能限制。尽管基于代理的推理与搜索方法提供了更具适应性的解决方案,但现有方法大多过度依赖提示工程技术。

    摘要图
  • 发布了文章 ·
    PyTorch PINN实战:用深度学习求解微分方程

    神经网络技术已在计算机视觉与自然语言处理等多个领域实现了突破性进展。然而在微分方程求解领域,传统神经网络因其依赖大规模标记数据集的特性而表现出明显局限性。物理信息神经网络(Physics-Informed Neural Networks, PINN)通过将物理定律直接整合到学习过程中,有效弥补了这一不足,使其成为求解常微分方程(ODE)和偏...

    摘要图
  • 发布了文章 ·
    大语言模型中的归一化技术:LayerNorm 与 RMSNorm 的深入研究

    在 LLama 等大规模 Transformer 架构的语言模型中,归一化模块是构建网络稳定性的关键组件。本文将系统分析归一化技术的必要性,并详细阐述为何原始 Transformer 架构中的 LayerNorm 在 LLama 模型中被 RMSNorm 所替代的技术原理。

    摘要图
  • 发布了文章 ·
    SigLIP 2:多语言语义理解、定位和密集特征的视觉语言编码器

    SigLIP 2 是一个新型多语言视觉-语言编码器系列,通过整合基于字幕的预训练、自监督学习机制(包括自蒸馏和掩码预测)以及在线数据管理策略,对原始 SigLIP 模型进行了显著改进。这些优化使 SigLIP 2 在零样本分类、图像-文本检索以及为视觉语言模型(VLM)提供视觉表示提取方面均取得了卓越性能。模型在定位和密集预测任...

    摘要图
  • 发布了文章 ·
    FANformer:融合傅里叶分析网络的大语言模型基础架构

    近期大语言模型(LLM)的基准测试结果引发了对现有架构扩展性的思考。尽管 OpenAI 推出的 GPT-4.5 被定位为其最强大的聊天模型,但在多项关键基准测试上的表现却不及某些规模较小的模型。DeepSeek-V3 在 AIME 2024 评测中达到了 39.2%的 Pass@1 准确率,在 SWE-bench Verified 上获得 42%的准确率,而 GPT-4.5 在这两项基...

    摘要图
  • 发布了文章 ·
    S3FT 选择性自监督微调:通过智能选择训练样本提升大模型整体表现

    选择性自我监督微调(Selective Self-to-Supervised Fine-Tuning,S3FT)是一种创新的大语言模型微调方法,该方法通过部署专门的语义等价性判断器来识别训练集中模型自身生成的正确响应。在微调过程中,S3FT 策略性地结合这些正确响应与剩余样本的标准答案(或其释义版本)来优化模型。与传统监督微调(SFT)相比,S3FT ...

    摘要图
  • 发布了文章 ·
    Visual-RFT:基于强化学习的视觉语言模型微调技术研究

    Visual-RFT 代表了视觉语言模型微调领域的技术创新,通过将基于规则的可验证奖励与强化学习相结合,有效克服了传统监督微调 (SFT) 在数据稀缺场景下的局限性。本文将深入剖析 Visual-RFT 的技术原理,结合原始研究论文中的图表解释其架构设计,并探讨该方法在实际应用场景中的潜力。Visual-RFT 的核心理念在于促进模型通...

    摘要图
  • 发布了文章 ·
    趋势还是噪声?ADF 与 KPSS 检验结果矛盾时的高级时间序列处理方法

    在时间序列分析领域,评估数据的平稳性是构建准确模型的基础。ADF(Augmented Dickey-Fuller,增广迪基-富勒检验)和 KPSS(Kwiatkowski-Phillips-Schmidt-Shin)检验是用于评估时间序列数据平稳性的两种关键统计假设检验方法。当我们遇到 ADF 检验失败而 KPSS 检验通过的情况时,这表明我们面对的是一个平稳但具有确定...

    摘要图
  • 发布了文章 ·
    深入解析图神经网络注意力机制:数学原理与可视化实现

    在图神经网络(Graph Neural Networks, GNNs)的发展历程中,注意力机制扮演着至关重要的角色。通过赋予模型关注图中最相关节点和连接的能力,注意力机制显著提升了 GNN 在节点分类、链接预测和图分类等任务上的性能。尽管这一机制的重要性不言而喻,但其内部工作原理对许多研究者和工程师而言仍是一个"黑盒"。

    摘要图
  • 发布了文章 ·
    深入解析Tiktokenizer:大语言模型中核心分词技术的原理与架构

    在快速发展的自然语言处理(NLP)领域,分词(tokenization)作为将原始文本转换为机器可处理格式的首要环节,具有不可替代的重要性。分词过程将文本分割成离散单元——即token,这些token构成了后续分析的基础,包括词嵌入(embedding)、语法解析和模型训练等多个环节。从历史视角来看,早期的文本处理方法主要依赖简单的空格...

  • 发布了文章 ·
    机器学习特征筛选:向后淘汰法原理与Python实现

    向后淘汰法(Backward Elimination)是机器学习领域中一种重要的特征选择技术,其核心思想是通过系统性地移除对模型贡献较小的特征,以提高模型性能和可解释性。该方法从完整特征集出发,逐步剔除不重要的特征,最终保留对预测结果最具影响力的变量子集。

    摘要图
认证与成就
获得 993 次点赞
2021年08月31日 加入
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
安谋科技学堂公众号
关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源
安谋科技招聘公众号
关注安谋科技招聘
实时获取安谋科技中国职位信息