Dydg66778899的个人主页_电子工程师 - 电子技术论坛

Dydg66778899

经验：积分：0

查看完整档案 >>

+关注发私信

他的动态

发布了文章 2022-12-19 14:00

一种新的轻量级视觉Transformer

既然都叫 EfficientFormerV2，那必然是在上一版的基础上改进了，如图(a)所示。没什么特别新奇的，一个很常规的 ViT 型架构。下面的图表是作者统计的实验改进结果...

0

1223次阅读

0条评论
发布了文章 2022-12-19 09:42

基于先验指导的对抗样本初始化方法提升FAT效果

这种现象最先由Wong等人发现，随后他们又发现使用FGSM生成对抗样本时使用随机初始化可以延缓灾难性遗忘发生的时间，但是随着训练的进行，灾难性遗忘还是无法避免。...

0

719次阅读

0条评论
发布了文章 2022-12-15 14:09

PEMN：参数集约型掩码网络

来自美国东北大学和罗切斯特理工的研究者提出参数集约型掩码网络（Parameter-Efficient Masking Networks (PEMN)）。作者首先探索了有限数量随机数生成的随机网络的表征能力。...

0

799次阅读

0条评论
发布了文章 2022-12-14 15:26

复旦&微软提出OmniVL：首个统一图像、视频、文本的基础预训练模型

根据输入数据和目标下游任务的不同，现有的VLP方法可以大致分为两类：图像-文本预训练和视频-文本预训练。前者从图像-文本对中学习视觉和语言表征的联合分布，后者则从视频-文本对中建立视频帧和文本之间的语义关联。...

0

875次阅读

0条评论
发布了文章 2022-12-12 15:01

基于视觉transformer的高效时空特征学习算法

视觉Transofrmer通常将图像分割为不重叠的块(patch)，patch之间通过自注意力机制(Self-Attention)进行特征聚合，patch内部通过全连接层(FFN)进行特征映射。每个Transformer block中，包含...

0

1458次阅读

0条评论
发布了文章 2022-12-12 11:23

无残差连接或归一化层，也能成功训练深度transformer

残差架构是最流行和成功的，最初是在卷积神经网络（CNN）的背景下开发的，后来自注意力网络中产生了无处不在的 transformer 架构。残差架构之所以取得成功，一种原因是与普通 DNN 相比具有更好的信号传播能力，其中信号传播指的是几何信...

0

696次阅读

0条评论
发布了文章 2022-12-9 14:53

全球首个面向遥感任务设计的亿级视觉Transformer大模型

简单来说，为了更好地应对遥感图像所具有的大尺寸特性以及图像中的目标物体的朝向任意性，我们提出了一种新的旋转可变尺寸窗口的注意力（Rotated Varied-Size Window Attention, RVSA）来代替Transforme...

0

715次阅读

0条评论
发布了文章 2022-12-5 14:53

一种新神经网络或将启动第三次人工智能浪潮

Hinton 表示，这种设计要求意味着数字计算机已经错过了「硬件的各种可变、随机、不稳定、模拟和不可靠特性」，而这些特性可能对我们非常有用。...

0

344次阅读

0条评论
发布了文章 2022-12-5 14:09

一种基于毒性样本敏感性的有效后门防御！

训练深度神经网络(DNNs)往往需要大量的训练数据，这些数据有时可能由不可信的第三方来源所提供。这些不可信的数据可能会对模型的训练带来严重的安全威胁。...

0

556次阅读

0条评论
发布了文章 2022-12-5 10:54

基于视频语言模型LiteVL的无参的特征池化方法

我们提出了LiteVL，这是一种视频语言模型，它无需大量的视频语言预训练或目标检测器。LiteVL从预先训练的图像语言模型BLIP中继承了空间视觉信息和文本信息之间已经学习的对齐。然后，我们提出了具有动态时间缩放的额外时间注意力块，以学习视...

0

610次阅读

0条评论
发布了文章 2022-11-30 14:31

LSTM之父再次炮轰LeCun：你那5点

1. 通过神经网络（NN）自动生成标注的「自监督学习」：至少可以追溯到我1990-91年的工作。 (I) 通过预测编码在一个循环神经网络（RNN）中进行自监督的目标生成，来学习在多个时间尺度和抽象层次上压缩数据序列。...

0

536次阅读

0条评论
发布了文章 2022-11-30 14:06

用于视觉识别的Transformer风格的ConvNet

需要注意的是：上式中表示Hadamard乘积。上述卷积调制模块使得每个位置的元素与其近邻相关，而通道间的信息聚合则可以通过线性层实现。下面给出了该核心模块的实现代码。...

0

606次阅读

0条评论
发布了文章 2022-11-29 15:40

如何使用DDPM提取特征并研究这些特征可能捕获的语义信息

对于几个预先训练的扩散模型，作者研究了网络中执行逆扩散过程马尔可夫步骤的中间激活。...

0

2137次阅读

0条评论
发布了文章 2022-11-29 15:24

阿里达摩院提出MogFace：人脸检测新工作

为每个anchor点定义cls和reg目标是训练检测器的必要过程，在人脸检测中这个过程称之为标签分配（Label Assignment）。最近，标签分配吸引了诸多研究人员的注意，在人脸检测及通用物体检测领域提出了一系列方法...

0

1073次阅读

0条评论
发布了文章 2022-11-25 11:33

NVIDIA提出Magic3D：高分辨率文本到3D内容创建

Magic3D 还可以执行基于提示的 3D 网格编辑：给定低分辨率 3D 模型和基本提示，可以更改文本从而修改生成的模型内容。此外，作者还展示了保持画风，以及将 2D 图像样式应用于 3D 模型的能力。...

0

1108次阅读

0条评论