发 帖  
  • 图b所示,FlashAttention和FlashDecoding对softmax操作进行了分块处理,但是块与块之间需要进行同步(主要是局部最大值)。本文发现这种同步操作的开销约为20%。因此,作者希望去除同步操作,也就...
    0
    1018次阅读
    0条评论
  • 之前玩内测版的时候就需要cuda-12.x,正式出来仍是需要cuda-12.x,主要是因为tensorr-llm中依赖的CUBIN(二进制代码)是基于cuda12.x编译生成的,想要跑只能更新驱动。...
    0
    2388次阅读
    0条评论
  • 本方案的完整算法是在SD地图中定位一组环视图像。它从环视图像生成本地BEV表示,并从给定粗略3D位置先验的SD地图tile中生成神经地图编码(例如来自航海设备的嘈杂GPS信号和指南针)。...
    0
    578次阅读
    0条评论
  • llama.cpp 的代码结构比较直观,如下所示,为整体代码结构中的比较核心的部分的代码结构...
    0
    2231次阅读
    0条评论
  • 1. 文章一览 本文介绍了一种名为长短距离循环更新(LRRU)网络的轻量级深度网络框架,用于深度补全。深度补全是指从稀疏的距离测量估计密集的深度图的过程。现有的深度学习方法使用参数众多的大型网络进行深度补全,导致计算复杂...
    0
    1037次阅读
    0条评论
  • 因此,本文提出了Flash-Decoding,可以推理过程中显著加速attention操作(例如长序列生成速度提高8倍)。其主要思想是最大化并行加载keys和values的效率,通过重新缩放组合得到正确结果。...
    0
    1155次阅读
    0条评论
  • 每一秒大概可以解码8个token,我感觉速度勉强够用了。由于RWKV5迭代到了第5个版本,后续希望能支持RWKV5的模型,当然也可以寻求新的优化机会提升解码速度。...
    0
    904次阅读
    0条评论
  • 云端深度学习的服务的性能加速通常需要算法和工程的协同加速,需要模型推理和计算节点的融合,并保证整个“木桶”没有太明显的短板。...
    0
    713次阅读
    0条评论
  • NVIDIA Megatron 是一个基于 PyTorch 的分布式训练框架,用来训练超大Transformer语言模型,其通过综合应用了数据并行,Tensor并行和Pipeline并行来复现 GPT3,值得我们深入分析...
    0
    2966次阅读
    0条评论
  • 下面展示一下在 https://github.com/BBuf/RWKV-World-HF-Tokenizer 做的自定义实现的RWKV world tokenizer的测试,RWKV world模型转换,检查lambd...
    0
    955次阅读
    0条评论
  • 写在前面 :本文将对 Faster Transformer v2.1 版本源码进行解读,重点介绍该版本基于 v1.0 和 v2.0 所做的优化内容,剖析源码作者优化意图。 1 v2.1 版本发布背景 在 FasterTr...
    0
    1383次阅读
    0条评论
  • 写在前面:本文将对 Nvidia BERT 推理解决方案 Faster Transformer 源码进行深度剖析,详细分析作者的优化意图,并对源码中的加速技巧进行介绍,希望对读者有所帮助。本文源码解读的内容仅限 Fast...
    0
    967次阅读
    0条评论
  • 这次我们要解读的工作发表在 IPMI 2023(IPMI全名 Information Processing in Medical Imaging,两年一届,是医学影像分析处理领域公认的最具特色的会议),同时也是 Test...
    0
    1408次阅读
    0条评论
  • 针对 GPU 计算特点,在显存允许的情况下,XTuner 支持将多条短数据拼接至模型最大输入长度,以此最大化 GPU 计算核心的利用率,可以显著提升训练速度。例如,在使用 oasst1 数据集微调 Llama2-7B 时...
    0
    2316次阅读
    0条评论
  • 0x0. 前言 我的 ChatRWKV 学习笔记和使用指南 这篇文章是学习RWKV的第一步,然后学习了一下之后决定自己应该做一些什么。所以就在RWKV社区看到了这个将RWKV World系列模型通过MLC-LLM部署在各...
    0
    2926次阅读
    0条评论
ta 的专栏

成就与认可

  • 获得 3 次赞同

    获得 0 次收藏

谁来看过他

关闭

站长推荐 上一条 /6 下一条

返回顶部