jf_pmFSk4VX的专栏_电子工程师 - 电子技术论坛

jf_pmFSk4VX

经验：积分：14

查看完整档案 >>

+关注发私信

【FlashAttention-V4，非官方】FlashDecoding++
2023-11-14 15:41

图b所示，FlashAttention和FlashDecoding对softmax操作进行了分块处理，但是块与块之间需要进行同步（主要是局部最大值）。本文发现这种同步操作的开销约为20%。因此，作者希望去除同步操作，也就...

0

1926次阅读

0条评论
浅析tensorrt-llm搭建运行环境以及库
2023-11-13 14:42

之前玩内测版的时候就需要cuda-12.x，正式出来仍是需要cuda-12.x，主要是因为tensorr-llm中依赖的CUBIN（二进制代码）是基于cuda12.x编译生成的，想要跑只能更新驱动。...

0

3167次阅读

0条评论
基于高度感知的鸟瞰图分割和神经地图的重定位
2023-11-8 15:59

本方案的完整算法是在SD地图中定位一组环视图像。它从环视图像生成本地BEV表示，并从给定粗略3D位置先验的SD地图tile中生成神经地图编码(例如来自航海设备的嘈杂GPS信号和指南针)。...

0

1152次阅读

0条评论
llama.cpp代码结构&调用流程分析
2023-11-7 09:23

llama.cpp 的代码结构比较直观，如下所示，为整体代码结构中的比较核心的部分的代码结构...

0

4684次阅读

0条评论
长短距离循环更新（LRRU）网络的轻量级深度网络框架介绍
2023-11-3 09:24

1. 文章一览本文介绍了一种名为长短距离循环更新（LRRU）网络的轻量级深度网络框架，用于深度补全。深度补全是指从稀疏的距离测量估计密集的深度图的过程。现有的深度学习方法使用参数众多的大型网络进行深度补全，导致计算复杂...

0

1948次阅读

0条评论
FlashAttenion-V3: Flash Decoding详解
2023-10-31 16:18

因此，本文提出了Flash-Decoding，可以推理过程中显著加速attention操作（例如长序列生成速度提高8倍）。其主要思想是最大化并行加载keys和values的效率，通过重新缩放组合得到正确结果。...

0

2376次阅读

0条评论
如何使用MLC-LLM在A100/Mac M2上部署RWKV模型
2023-10-29 16:39

每一秒大概可以解码8个token，我感觉速度勉强够用了。由于RWKV5迭代到了第5个版本，后续希望能支持RWKV5的模型，当然也可以寻求新的优化机会提升解码速度。...

0

1706次阅读

0条评论
torchpipe: Pytorch内的多线程计算并行库
2023-10-27 14:57

云端深度学习的服务的性能加速通常需要算法和工程的协同加速，需要模型推理和计算节点的融合，并保证整个“木桶”没有太明显的短板。...

0

1518次阅读

0条评论
基于PyTorch的模型并行分布式训练Megatron解析
2023-10-23 11:01

NVIDIA Megatron 是一个基于 PyTorch 的分布式训练框架，用来训练超大Transformer语言模型，其通过综合应用了数据并行，Tensor并行和Pipeline并行来复现 GPT3，值得我们深入分析...

0

5316次阅读

0条评论
CPU后端和CUDA后端的执行代码和效果
2023-10-16 17:46

下面展示一下在 https://github.com/BBuf/RWKV-World-HF-Tokenizer 做的自定义实现的RWKV world tokenizer的测试，RWKV world模型转换，检查lambd...

0

1459次阅读

0条评论
Faster Transformer v2.1版本源码解读
2023-9-19 11:39

写在前面：本文将对 Faster Transformer v2.1 版本源码进行解读，重点介绍该版本基于 v1.0 和 v2.0 所做的优化内容，剖析源码作者优化意图。 1 v2.1 版本发布背景在 FasterTr...

0

2284次阅读

0条评论
Faster Transformer v1.0源码详解
2023-9-8 10:20

写在前面：本文将对 Nvidia BERT 推理解决方案 Faster Transformer 源码进行深度剖析，详细分析作者的优化意图，并对源码中的加速技巧进行介绍，希望对读者有所帮助。本文源码解读的内容仅限 Fast...

0

1881次阅读

0条评论
基于一种用于医学图像分割的方法
2023-9-5 11:29

这次我们要解读的工作发表在 IPMI 2023（IPMI全名 Information Processing in Medical Imaging，两年一届，是医学影像分析处理领域公认的最具特色的会议），同时也是 Test...

0

2065次阅读

0条评论
8G显存一键训练，解锁Llama2隐藏能力！XTuner带你玩转大模型
2023-9-4 16:12

针对 GPU 计算特点，在显存允许的情况下，XTuner 支持将多条短数据拼接至模型最大输入长度，以此最大化 GPU 计算核心的利用率，可以显著提升训练速度。例如，在使用 oasst1 数据集微调 Llama2-7B 时...

0

3237次阅读

0条评论
MLC-LLM的编译部署流程
2023-9-4 09:22

0x0. 前言我的 ChatRWKV 学习笔记和使用指南这篇文章是学习RWKV的第一步，然后学习了一下之后决定自己应该做一些什么。所以就在RWKV社区看到了这个将RWKV World系列模型通过MLC-LLM部署在各...

0

4240次阅读

0条评论