Dydg66778899的个人主页_电子工程师 - 电子技术论坛

Dydg66778899

经验：积分：0

查看完整档案 >>

+关注发私信

他的动态

发布了文章 2023-1-30 15:47

DALL-E和生成式AI的未来

OpenAI 研究员、DALL-E 的发明者和 DALL-E 2 的联合开发者 Aditya Ramesh 表示，自那以后，整个领域便取得了飞速的发展。鉴于过去一年生成式 AI 领域取得了飞速的发展，这算是一种很保守的说辞。...

0

694次阅读

0条评论
发布了文章 2023-1-30 11:49

NanoGPT，最简单最快的库来了！

作者补充道，代码并不难，很容易就能满足大家需求——无论是从头开始训练新模型，还是基于预训练进行微调（目前可用的最大模型为1.3B参数的GPT-2）。...

0

2403次阅读

0条评论
发布了文章 2023-1-30 09:55

基于端到端可操作性学习的机器人操纵框架

最近，视觉可操作性（Visual Affordance）学习技术在提供以物体为中心的信息先验和有效的可操作语义方面展现出巨大的潜力。...

0

1204次阅读

0条评论
发布了文章 2023-1-29 11:25

谷歌提出PaLI：一种多模态大模型，刷新多个任务SOTA！

PaLI 使用单独 “Image-and-text to text” 接口执行很多图像、语言以及 "图像 + 语言" 任务。PaLI 的关键结构之一是重复使用大型单模态 backbone 进行语言和视觉建模，以迁移现有能...

0

1457次阅读

0条评论
发布了文章 2023-1-17 12:04

如何用ChatGPT 构建一个神经网络

MNIST 算是机器学习领域的经典问题。即使这个手写数字数据集逐渐淡出了计算机视觉领域，但它的纪念意义仍然不可忽视，很多人入门深度学习的第一个数据集、验证算法的第一个实验都是 MNIST。...

0

1051次阅读

0条评论
发布了文章 2023-1-12 14:12

新型的端到端弱监督篇幅级手写中文文本识别方法PageNet

PageNet与现有方法在MTHv2、SCUT-HCCDoc和JS-SCUT PrintCC数据集上的端到端识别指标对比如下表所示。可以看出，在MTHv2数据集上，PageNet取得了与最佳的全监督模型相近的端到端识别指标。...

0

2043次阅读

0条评论
发布了文章 2023-1-11 14:31

视觉新范式！COCs：将图像视为点集

本文作者研究特征提取器 (Feature Extractor)，但是视角不仅仅局限在 ConvNets 和 ViT 上。虽然卷积和注意力机制已经被证明了可以用来构建高性能视觉架构，但它们并不是唯一的选择。...

0

838次阅读

0条评论
发布了文章 2023-1-10 14:12

一种显著降低Transformer计算量的轻量化方法

然而，transformer的原始公式在输入令牌（token）数量方面具有二次计算复杂度。鉴于这个数字通常从图像分类的14^2到图像去噪的128^2 = 16K不等，内存和计算的这一限制严重限制了它的适用性。...

0

1281次阅读

0条评论
发布了文章 2023-1-9 15:46

DALL-E和Flamingo能相互理解吗？

这就会带来一些同语义相关的有趣问题：对于给定的图像，哪种文本描述最准确地描述了图像？同样地，对于给定的文本，最有意义的图像实现方式又是哪种？针对第一个问题，一些研究宣称最佳的图像描述应该是既自然且还能还原视觉内容的信息。...

0

447次阅读

0条评论
发布了文章 2023-1-9 10:16

谷歌新作Muse：通过掩码生成Transformer进行文本到图像生成

与建立在级联像素空间（pixel-space）扩散模型上的 Imagen (Saharia et al., 2022) 或 Dall-E2 (Ramesh et al., 2022) 相比，Muse 由于使用了离散 token，效率显著提升...

0

913次阅读

0条评论
发布了文章 2023-1-8 09:23

阿里达摩院提出ABPN：高清人像美肤模型

其中为了实现皮肤区域的平滑，同时保留图像中的边缘，传统美颜算法首先使用保边滤波器（如双边滤波、导向滤波等）来对图像进行处理。不同于常用的均值滤波、高斯滤波，保边滤波器考虑了不同区域像素值的变化...

0

634次阅读

0条评论
发布了文章 2023-1-8 09:16

腾讯优图/浙大/北大提出：重新思考高效神经模型的移动模块

近年来，随着对存储和计算资源受限的移动应用程序需求的增加，涌现了非常多参数少、FLOPs 低的轻量级模型，例如 Inceptionv3 时期便提出了使用非对称卷积代替标准卷积。后来 MobileNet 提出了深度可分离卷积 depth-wi...

0

805次阅读

0条评论
发布了文章 2023-1-5 10:23

完全卷积掩码自编码器框架——ConvNeXt V2

ConvNeXt V2 最终在各种识别基准上的性能，包括 ImageNet 分类、COCO 检测和 ADE20K 分割任务上均取得了极具竞争力的结果，其中最小的模型仅 3.7M 参数可获取 76.7% top-1 准确率，而最大的模型约 6...

0

4240次阅读

0条评论
发布了文章 2023-1-5 09:44

LSTM之父最新长文：现代AI和深度学习发展史

实用AI地提出，最早可以追溯到1914年。当时Leonardo Torres y Quevedo构建了第一个工作的国际象棋机器终端游戏玩家。当时，国际象棋被认为是一种仅限于智能生物领域的活动。...

0

706次阅读

0条评论
发布了文章 2023-1-5 09:23

基于分割后门训练过程的后门防御方法

后门攻击的目标是通过修改训练数据或者控制训练过程等方法使得模型预测正确干净样本，但是对于带有后门的样本判断为目标标签。例如，后门攻击者给图片增加固定位置的白块(即中毒图片)并且修改图片的标签为目标标签。用这些中毒数据训练模型过后，模型就会判...

0

854次阅读

0条评论