发 帖  
  • 过去十年,对基于数据驱动的可供性感知的计算模型重新产生了兴趣。早期的研究采用了中介方法,通过推断或使用中间语义或3D信息来辅助可供性感知。一些难以预测的可供性例子包括涉及物体之间复杂交互或需要更高层次推理和对场景上下文的...
    0
    694次阅读
    0条评论
  • 前文说过,用Megatron做分布式训练的开源大模型有很多,我们选用的是THUDM开源的CodeGeeX(代码生成式大模型,类比于openAI Codex)。选用它的原因是“完全开源”与“清晰的模型架构和预训练配置图”,...
    0
    7055次阅读
    0条评论
  • 使用Megatron来训练gpt类大模型的项目有很多。在这个系列里,我选择了由THUDM开发的CodeGeeX项目,它是gpt在代码生成方向上的应用,对标于openAI的CodeX。github地址在此。...
    1
    7467次阅读
    0条评论
  • 在之前的内容中,我们已经介绍过流水线并行、数据并行(DP,DDP和ZeRO)。 今天我们将要介绍最重要,也是目前基于Transformer做大模型预训练最基本的并行范式:来自NVIDIA的张量模型并行(TP)。 它的基本...
    0
    4166次阅读
    0条评论
  • 前言 通过前两章对于triton的简单介绍,相信大家已经能够通过从源码来安装triton,同时通过triton提供的language前端写出自己想要的一些计算密集型算子。这章开始,我们通过构建一套比较标准的batch g...
    0
    3740次阅读
    0条评论
  • CVPR 2023:GLIGEN: Open-Set Grounded Text-to-Image Generation 1. 论文信息 论文题目:GLIGEN: Open-Set Grounded Text-to-Im...
    0
    1650次阅读
    0条评论
  • 公共子表达式消除的作用很简单,就是把公共的表达式折叠为1个表达式来避免重复的计算开销。...
    0
    803次阅读
    0条评论
  • 但在实际应用中,流水线并行并不特别流行,主要原因是模型能否均匀切割,影响了整体计算效率,这就需要算法工程师做手调。因此,今天我们来介绍一种应用最广泛,最易于理解的并行范式:数据并行。...
    0
    1839次阅读
    0条评论
  • 在上篇介绍中,通讯负载不均的优化我们解释过了,但还遗留了一个显存开销问题:数据并行中,每个GPU上都复制了一份完整模型,当模型变大时,很容易打爆GPU的显存,那要怎么办呢?...
    0
    1323次阅读
    0条评论
  • 回顾ChatGPT的发展历程,我们可以总结出大语言模型(LLM)取得惊艳效果的要点(重要性从高到低排序): 愿意烧钱,且接受“烧钱 != 好模型”的现实   高质量的训练语料 高效的分布式训练框架和充沛优质的硬件资源 算...
    0
    1837次阅读
    0条评论
  • 基于LLAMA的魔改部署

    2023-5-23 15:08
      借着热点,简单聊聊 大模型的部署方案 ,作为一个只搞过CV部署的算法工程师,在最近LLM逐渐改变生活的大背景下,猛然意识到LLM部署也是很重要的。大模型很火,而且确实有用(很多垂类场景可以针对去训练),并且和Visi...
    0
    6248次阅读
    0条评论
  • 继续深度学习编译器的优化工作解读,本篇文章要介绍的是OneFlow系统中如何基于MLIR实现Layerout Transform。...
    0
    1341次阅读
    0条评论
  • 当前语义分割任务存在一个特别常见的问题是收集 groundtruth 的成本和耗时很高,所以会使用预训练。例如监督分类或自监督特征提取,通常用于训练模型 backbone。基于该问题,这篇文章介绍的方法被叫做 decod...
    0
    1232次阅读
    0条评论
  • RT-DETR是由百度近期推出的DETR-liked目标检测器,该检测器由HGNetv2、混合编码器和带有辅助预测头的Transformer编码器组成...
    0
    5100次阅读
    0条评论
  • 上一章的反响还不错,很多人都私信催更想看Triton的具体优化有哪些,为什么它能够得到比cuBLAS更好的性能。...
    0
    3317次阅读
    0条评论
ta 的专栏

成就与认可

  • 获得 3 次赞同

    获得 0 次收藏
关闭

站长推荐 上一条 /9 下一条

返回顶部