Dydg66778899的个人主页_电子工程师 - 电子技术论坛

Dydg66778899

经验：积分：0

查看完整档案 >>

+关注发私信

他的动态

发布了文章 2023-2-6 10:36

ChatGPT到底有多会修bug？

虽然ChatGPT并非是为了专门修改bug而生，但自打它问世以来，不少网友们都发现它是具备这项能力的。因此研究人员为了摸清ChatGPT到底能修改bug到什么程度，便引入了标准的错误修复基准集QuixBugs来进行评估。...

0

1894次阅读

0条评论
发布了文章 2023-2-3 16:28

SLaK：从稀疏性的角度将卷积核扩展到51×51

在现代计算机视觉任务中，通用视觉模型最早以深而 Kernel 小的 CNN 为主。自从 ViTs 出现之后，人们渐渐发现建模全局信息的重要性：人们开始觉得 ViTs 的几本构件：类 Self-attention 模块具有建模全局信息的能力[...

0

1223次阅读

0条评论
发布了文章 2023-2-1 15:57

3D UX-Net：超强的医学图像分割新网络

整体来说，这些模型性能是越来越高，在几个主流的 3D 数据基准测试中也实现了大大小小的 SOTA，特别是 3D 医学图像分割这块。当然，时代在进步，作为一名高科技前沿从业者本身也是需要不断汲取新的知识营养才能不被轻易的淘汰。...

0

2116次阅读

0条评论
发布了文章 2023-1-30 17:09

YOLOv6 v3.0实时目标检测重磅升级

对检测器的Neck部件进行了翻新：引入BiC(Bi-directional Concatenation)提供更精确的定位信息；将SPPF简化为SimCSPSPPF，牺牲较少的速度提升更多的性能。...

0

957次阅读

0条评论
发布了文章 2023-1-30 15:47

DALL-E和生成式AI的未来

OpenAI 研究员、DALL-E 的发明者和 DALL-E 2 的联合开发者 Aditya Ramesh 表示，自那以后，整个领域便取得了飞速的发展。鉴于过去一年生成式 AI 领域取得了飞速的发展，这算是一种很保守的说辞。...

0

647次阅读

0条评论
发布了文章 2023-1-30 11:49

NanoGPT，最简单最快的库来了！

作者补充道，代码并不难，很容易就能满足大家需求——无论是从头开始训练新模型，还是基于预训练进行微调（目前可用的最大模型为1.3B参数的GPT-2）。...

0

2327次阅读

0条评论
发布了文章 2023-1-30 09:55

基于端到端可操作性学习的机器人操纵框架

最近，视觉可操作性（Visual Affordance）学习技术在提供以物体为中心的信息先验和有效的可操作语义方面展现出巨大的潜力。...

0

1149次阅读

0条评论
发布了文章 2023-1-29 11:25

谷歌提出PaLI：一种多模态大模型，刷新多个任务SOTA！

PaLI 使用单独 “Image-and-text to text” 接口执行很多图像、语言以及 "图像 + 语言" 任务。PaLI 的关键结构之一是重复使用大型单模态 backbone 进行语言和视觉建模，以迁移现有能...

0

1352次阅读

0条评论
发布了文章 2023-1-17 12:04

如何用ChatGPT 构建一个神经网络

MNIST 算是机器学习领域的经典问题。即使这个手写数字数据集逐渐淡出了计算机视觉领域，但它的纪念意义仍然不可忽视，很多人入门深度学习的第一个数据集、验证算法的第一个实验都是 MNIST。...

0

1027次阅读

0条评论
发布了文章 2023-1-12 14:12

新型的端到端弱监督篇幅级手写中文文本识别方法PageNet

PageNet与现有方法在MTHv2、SCUT-HCCDoc和JS-SCUT PrintCC数据集上的端到端识别指标对比如下表所示。可以看出，在MTHv2数据集上，PageNet取得了与最佳的全监督模型相近的端到端识别指标。...

0

1852次阅读

0条评论
发布了文章 2023-1-11 14:31

视觉新范式！COCs：将图像视为点集

本文作者研究特征提取器 (Feature Extractor)，但是视角不仅仅局限在 ConvNets 和 ViT 上。虽然卷积和注意力机制已经被证明了可以用来构建高性能视觉架构，但它们并不是唯一的选择。...

0

766次阅读

0条评论
发布了文章 2023-1-10 14:12

一种显著降低Transformer计算量的轻量化方法

然而，transformer的原始公式在输入令牌（token）数量方面具有二次计算复杂度。鉴于这个数字通常从图像分类的14^2到图像去噪的128^2 = 16K不等，内存和计算的这一限制严重限制了它的适用性。...

0

1179次阅读

0条评论
发布了文章 2023-1-9 15:46

DALL-E和Flamingo能相互理解吗？

这就会带来一些同语义相关的有趣问题：对于给定的图像，哪种文本描述最准确地描述了图像？同样地，对于给定的文本，最有意义的图像实现方式又是哪种？针对第一个问题，一些研究宣称最佳的图像描述应该是既自然且还能还原视觉内容的信息。...

0

406次阅读

0条评论
发布了文章 2023-1-9 10:16

谷歌新作Muse：通过掩码生成Transformer进行文本到图像生成

与建立在级联像素空间（pixel-space）扩散模型上的 Imagen (Saharia et al., 2022) 或 Dall-E2 (Ramesh et al., 2022) 相比，Muse 由于使用了离散 token，效率显著提升...

0

832次阅读

0条评论
发布了文章 2023-1-8 09:23

阿里达摩院提出ABPN：高清人像美肤模型

其中为了实现皮肤区域的平滑，同时保留图像中的边缘，传统美颜算法首先使用保边滤波器（如双边滤波、导向滤波等）来对图像进行处理。不同于常用的均值滤波、高斯滤波，保边滤波器考虑了不同区域像素值的变化...

0

595次阅读

0条评论