发 帖  
  • 占据预测是指在自动驾驶系统中,根据传感器的输入,预测三维空间中的每个体素是否被物体占据。...
    0
    4521次阅读
    0条评论
  • 编程层次上,TensorCore处于Warp(连续的32个threads)这一层,一个WARP内持有A, B, C, D四个操作数的数据。...
    0
    1482次阅读
    0条评论
  • 详解CUTLASS的工作原理

    2023-12-26 09:49
    嗨,我们要开始了。我叫马修·尼斯利。我是NVIDIA的深度学习compiler PM,今天我将介绍一些针对NVIDIA Tensorcores的使用方法。首先我要讲一下Cutlass。我会给你一些背景和概述,为什么你可能...
    0
    3929次阅读
    0条评论
  • 经过前面几章关于triton在nv gpu上调优的讲解,我们这章开始来看看triton的一个third_party库,该库是为了让triton去支持更多其他的backend。该项目的地址如下所示,并且已经在triton的...
    0
    2885次阅读
    0条评论
  • TorchFix是我们最近开发的一个新工具,旨在帮助PyTorch用户维护健康的代码库并遵循PyTorch的最佳实践。首先,我想要展示一些我们努力解决的问题的示例。...
    0
    1619次阅读
    0条评论
  • Triton是一种用于编写高效自定义深度学习原语的语言和编译器。Triton的目的是提供一个开源环境,以比CUDA更高的生产力编写快速代码,但也比其他现有DSL具有更大的灵活性。Triton已被采用为Torch indu...
    0
    5095次阅读
    0条评论
  • 大家好,我叫Kulinseth,我在苹果的MPS团队工作,今天我将讨论PyTorch中MPS后端的改进。接下来,我将介绍MPS后端进入Beta Stage的新功能。我们添加了一些新功能,如支持分析器、自定义内核和MPS开...
    0
    3395次阅读
    0条评论
  • MQA (Multi Query Attention,多查询注意力) 是多头注意力的一种变体。其主要区别在于,在 MQA 中不同的注意力头共享一个K和V的集合,每个头只单独保留了一份查询参数。...
    0
    10932次阅读
    0条评论
  • 关于规约的定义,相信能读到这篇文章的读者都不陌生,笔者在早期的文章中也介绍过一些规约方法,基本思想都是折半规约,主要应用于较大元素规模的向量规约,有兴趣的读者可以移步【CUDA编程】CUDA编程中的并行规约问题。...
    0
    1093次阅读
    0条评论
  • GPU performance characteristics. GPU主要计算单元(如浮点运算单元)和内存层次结构。大多数现代GPU包含专用的低精度矩阵乘法单元(如Nvidia GPU的Tensor Core用于FP1...
    0
    3133次阅读
    0条评论
  • 在基于PytorchQuantization导出的含有QDQ节点的onnx时,我们发现尽管量化版本的torch模型精度很高,但是在TensorRT部署时精度却很低,TRT部署收精度损失很严重,通过可视化其他量化形式的en...
    0
    2474次阅读
    0条评论
  • 视觉数据集通常用于分类、检测和分割等任务的算法基准测试或大型神经网络的预训练。然而,这存在一个问题,那就是实际的目标并不总是与数据集中提供的数据相一致。...
    0
    1469次阅读
    0条评论
  • 对LLM的理解比较有限,从代码实现的角度来说,RWKV的状态和KV Cache不同,不依赖序列长度,这让RWKV模型在各种长度下运行内存和运行速度都是趋于稳定的,所以我感觉工程价值是比基于Transformer架构比如L...
    0
    1704次阅读
    0条评论
  • XLA (Accelerated Linear Algebra)是一个开源的机器学习编译器,对PyTorch、Tensorflow、JAX等多个深度学习框架都有支持。最初XLA实际上是跟Tensorflow深度结合的,很...
    0
    1519次阅读
    0条评论
  • 首先将 batch 拆分为 micro-batch,其中 micro-batch 数等于 pipeline 深度,micro-batch通过动态队列的顺序产生token 并避免 bubbles。另外另外由于两个阶段的耗时...
    0
    7888次阅读
    0条评论
ta 的专栏

成就与认可

  • 获得 3 次赞同

    获得 0 次收藏
关闭

站长推荐 上一条 /9 下一条

返回顶部