jf_pmFSk4VX的专栏_电子工程师 - 电子技术论坛

jf_pmFSk4VX

经验：积分：14

查看完整档案 >>

+关注发私信

CVPR 2023：把人放在他们的位置，把人自然地插到图像里
2023-6-9 16:52

过去十年，对基于数据驱动的可供性感知的计算模型重新产生了兴趣。早期的研究采用了中介方法，通过推断或使用中间语义或3D信息来辅助可供性感知。一些难以预测的可供性例子包括涉及物体之间复杂交互或需要更高层次推理和对场景上下文的...

0

694次阅读

0条评论
图解大模型训练之：Megatron源码解读2，模型并行
2023-6-7 15:08

前文说过，用Megatron做分布式训练的开源大模型有很多，我们选用的是THUDM开源的CodeGeeX（代码生成式大模型，类比于openAI Codex）。选用它的原因是“完全开源”与“清晰的模型架构和预训练配置图”，...

0

7055次阅读

0条评论
图解大模型系列之：Megatron源码解读1，分布式环境初始化
2023-6-6 15:22

使用Megatron来训练gpt类大模型的项目有很多。在这个系列里，我选择了由THUDM开发的CodeGeeX项目，它是gpt在代码生成方向上的应用，对标于openAI的CodeX。github地址在此。...

1

7467次阅读

0条评论
基于Transformer做大模型预训练基本的并行范式
2023-5-31 14:38

在之前的内容中，我们已经介绍过流水线并行、数据并行（DP，DDP和ZeRO）。今天我们将要介绍最重要，也是目前基于Transformer做大模型预训练最基本的并行范式：来自NVIDIA的张量模型并行(TP)。它的基本...

0

4166次阅读

0条评论
如何使用triton的language api来实现gemm的算子
2023-5-29 14:34

前言通过前两章对于triton的简单介绍，相信大家已经能够通过从源码来安装triton，同时通过triton提供的language前端写出自己想要的一些计算密集型算子。这章开始，我们通过构建一套比较标准的batch g...

0

3740次阅读

0条评论
GLIGEN在开放世界泛化方面的有效性
2023-5-29 11:08

CVPR 2023：GLIGEN: Open-Set Grounded Text-to-Image Generation 1. 论文信息论文题目：GLIGEN: Open-Set Grounded Text-to-Im...

0

1650次阅读

0条评论
如何学习深度学习框架
2023-5-29 09:42

公共子表达式消除的作用很简单，就是把公共的表达式折叠为1个表达式来避免重复的计算开销。...

0

803次阅读

0条评论
Google GPipe为代表的流水线并行范式
2023-5-26 14:40

但在实际应用中，流水线并行并不特别流行，主要原因是模型能否均匀切割，影响了整体计算效率，这就需要算法工程师做手调。因此，今天我们来介绍一种应用最广泛，最易于理解的并行范式：数据并行。...

0

1839次阅读

0条评论
Server的通讯量与GPU数量呈线性关系
2023-5-26 14:38

在上篇介绍中，通讯负载不均的优化我们解释过了，但还遗留了一个显存开销问题：数据并行中，每个GPU上都复制了一份完整模型，当模型变大时，很容易打爆GPU的显存，那要怎么办呢？...

0

1323次阅读

0条评论
以Gpipe作为流水线并行的范例进行介绍
2023-5-25 11:41

回顾ChatGPT的发展历程，我们可以总结出大语言模型（LLM）取得惊艳效果的要点（重要性从高到低排序）：愿意烧钱，且接受“烧钱 != 好模型”的现实高质量的训练语料高效的分布式训练框架和充沛优质的硬件资源算...

0

1837次阅读

0条评论
基于LLAMA的魔改部署
2023-5-23 15:08

借着热点，简单聊聊大模型的部署方案，作为一个只搞过CV部署的算法工程师，在最近LLM逐渐改变生活的大背景下，猛然意识到LLM部署也是很重要的。大模型很火，而且确实有用（很多垂类场景可以针对去训练），并且和Visi...

0

6248次阅读

0条评论
深度学习编译器之Layerout Transform优化
2023-5-18 17:32

继续深度学习编译器的优化工作解读，本篇文章要介绍的是OneFlow系统中如何基于MLIR实现Layerout Transform。...

0

1341次阅读

0条评论
模型在学习可转移的语义分割表示方面的有效性
2023-5-18 11:35

当前语义分割任务存在一个特别常见的问题是收集 groundtruth 的成本和耗时很高，所以会使用预训练。例如监督分类或自监督特征提取，通常用于训练模型 backbone。基于该问题，这篇文章介绍的方法被叫做 decod...

0

1232次阅读

0条评论
介绍RT-DETR两种风格的onnx格式和推理方式
2023-5-17 17:46

RT-DETR是由百度近期推出的DETR-liked目标检测器，该检测器由HGNetv2、混合编码器和带有辅助预测头的Transformer编码器组成...

0

5100次阅读

0条评论
Triton的具体优化有哪些
2023-5-16 09:40

上一章的反响还不错，很多人都私信催更想看Triton的具体优化有哪些，为什么它能够得到比cuBLAS更好的性能。...

0

3317次阅读

0条评论