发 帖  
  • LDM 就是 Stable Diffusion 使用的模型架构。扩散模型的一大问题是计算需求大,难以拟合高分辨率图像。为了解决这一问题,实现 LDM时,会先训练一个几乎能无损压缩图像的自编码器,能把 512x512 的真...
    0
    641次阅读
    0条评论
  • 作者对Transformer Block移除了各种参数,减少了15%参数量,提高了15%的训练速度,各个环节都有做充分的实验,但一些经验性得到的结论也并没有直接回答一些问题(如LN为什么影响收敛速度)。...
    0
    589次阅读
    0条评论
  • 本文提出了一种新的中心对焦网络(CFNet)。具体来说,本文提出了一种中心对焦特征编码(CFFE)模块,它通过移动激光雷达点并填充中心点,显式地建模了原始激光雷达点与虚拟实例中心之间的关系。...
    0
    506次阅读
    0条评论
  • 在 MLC-LLM 部署RWKV World系列模型实战(3B模型Mac M2解码可达26tokens/s) 中提到要使用mlc-llm部署模型首先需要一个编译过程,将原始的基于Realx搭建的模型比如RWKV和给定的d...
    0
    891次阅读
    0条评论
  • 微软研究院最近提出了一个新的 LLM 自回归基础架构 Retentive Networks (RetNet)[1,4],该架构相对于 Transformer 架构的优势是同时具备:训练可并行、推理成本低和良好的性能,不可...
    0
    1213次阅读
    0条评论
  • 对于位置编码,常规的做法是在计算 query, key 和 value 向量之前,会计算一个位置编码向量 pi 加到词嵌入 xi 上,位置编码向量 pi 同样也是 d 维向量,然后再乘以对应的变换矩阵 W{q,k,v}:...
    0
    2424次阅读
    0条评论
  • 整体来说,在阅读MLIR代码方面,Claude已经相当智能,全面领先Newbing(Chatgpt),感觉以后可以日常用Claude来辅助Review IR相关代码。...
    0
    1806次阅读
    0条评论
  • 在半监督学习中,一个典型的例子是 Mean-Teacher。与对抗网络类似,其整体架构包含了两个网络:teacher 网络和 student 网络。...
    0
    1299次阅读
    0条评论
  • 会调用上面的 safe_download 函数。会用在 experimental.py 中的 attempt_load 函数和 train.py 中,都是用来下载预训练权重。...
    0
    762次阅读
    0条评论
  • 在下图中将小车沿着y轴顺时针旋转,待小车和camera连线与相机坐标系的z轴重合时停止,那么紫色的角是没有发生变化的。...
    0
    737次阅读
    0条评论
  • 重叠面积(overlap area)、中心点距离(central pointdistance)和高宽比(aspect ratio),在此基础上提出了完全 损失,从而促进了更快的收敛和更优的性能。...
    0
    2275次阅读
    0条评论
  • 当然具体到硬件实现其实是包含了异或运算和与运算,具体细节可以阅读文末参考的资料。...
    0
    9458次阅读
    0条评论
ta 的专栏

成就与认可

  • 获得 3 次赞同

    获得 0 次收藏

谁来看过他

关闭

站长推荐 上一条 /6 下一条

返回顶部