发 帖  
  • 发布了文章 2023-2-9 11:21
    可以看到,视频编辑比图像编辑更加具有挑战性,它需要合成新的动作,而不仅仅是修改视觉外观。此外还需要保持时间上的一致性。因此,将 SDEdit、Prompt-to-Prompt 等图像级别的编辑方法应用于视频帧上不足以实现很好的效果。...
    0
    1475次阅读
    0条评论
  • 发布了文章 2023-2-7 11:50
    有趣的是,2014 年,由 Goodfellow 等人提出的生成对抗网络(GAN),在生成任务中并没有大放异彩,正当大家以为 GAN 在生成方面已经不行的时候,来自英伟达等机构的研究者却试图表明 GAN 仍然具有竞争力,提出 StyleGA...
    0
    1016次阅读
    0条评论
  • 发布了文章 2023-2-6 10:36
    虽然ChatGPT并非是为了专门修改bug而生,但自打它问世以来,不少网友们都发现它是具备这项能力的。因此研究人员为了摸清ChatGPT到底能修改bug到什么程度,便引入了标准的错误修复基准集QuixBugs来进行评估。...
    0
    1924次阅读
    0条评论
  • 发布了文章 2023-2-3 16:28
    在现代计算机视觉任务中,通用视觉模型最早以深而 Kernel 小的 CNN 为主。自从 ViTs 出现之后,人们渐渐发现建模全局信息的重要性:人们开始觉得 ViTs 的几本构件:类 Self-attention 模块具有建模全局信息的能力[...
    0
    1266次阅读
    0条评论
  • 发布了文章 2023-2-1 15:57
    整体来说,这些模型性能是越来越高,在几个主流的 3D 数据基准测试中也实现了大大小小的 SOTA,特别是 3D 医学图像分割这块。当然,时代在进步,作为一名高科技前沿从业者本身也是需要不断汲取新的知识营养才能不被轻易的淘汰。...
    0
    2243次阅读
    0条评论
  • 发布了文章 2023-1-30 17:09
    对检测器的Neck部件进行了翻新:引入BiC(Bi-directional Concatenation)提供更精确的定位信息;将SPPF简化为SimCSPSPPF,牺牲较少的速度提升更多的性能。...
    0
    1016次阅读
    0条评论
  • 发布了文章 2023-1-30 15:47
    OpenAI 研究员、DALL-E 的发明者和 DALL-E 2 的联合开发者 Aditya Ramesh 表示,自那以后,整个领域便取得了飞速的发展。鉴于过去一年生成式 AI 领域取得了飞速的发展,这算是一种很保守的说辞。...
    0
    672次阅读
    0条评论
  • 发布了文章 2023-1-30 11:49
    作者补充道,代码并不难,很容易就能满足大家需求——无论是从头开始训练新模型,还是基于预训练进行微调(目前可用的最大模型为1.3B参数的GPT-2)。...
    0
    2358次阅读
    0条评论
  • 发布了文章 2023-1-30 09:55
    最近,视觉可操作性(Visual Affordance)学习技术在提供以物体为中心的信息先验和有效的可操作语义方面展现出巨大的潜力。...
    0
    1185次阅读
    0条评论
  • 发布了文章 2023-1-29 11:25
    PaLI 使用单独 “Image-and-text to text” 接口执行很多图像、语言以及 "图像 + 语言" 任务。PaLI 的关键结构之一是重复使用大型单模态 backbone 进行语言和视觉建模,以迁移现有能...
    0
    1416次阅读
    0条评论
  • 发布了文章 2023-1-17 12:04
    MNIST 算是机器学习领域的经典问题。即使这个手写数字数据集逐渐淡出了计算机视觉领域,但它的纪念意义仍然不可忽视,很多人入门深度学习的第一个数据集、验证算法的第一个实验都是 MNIST。...
    0
    1043次阅读
    0条评论
  • 发布了文章 2023-1-12 14:12
    PageNet与现有方法在MTHv2、SCUT-HCCDoc和JS-SCUT PrintCC数据集上的端到端识别指标对比如下表所示。可以看出,在MTHv2数据集上,PageNet取得了与最佳的全监督模型相近的端到端识别指标。...
    0
    1952次阅读
    0条评论
  • 发布了文章 2023-1-11 14:31
    本文作者研究特征提取器 (Feature Extractor),但是视角不仅仅局限在 ConvNets 和 ViT 上。虽然卷积和注意力机制已经被证明了可以用来构建高性能视觉架构,但它们并不是唯一的选择。...
    0
    820次阅读
    0条评论
  • 发布了文章 2023-1-10 14:12
    然而,transformer的原始公式在输入令牌(token)数量方面具有二次计算复杂度。鉴于这个数字通常从图像分类的14^2到图像去噪的128^2 = 16K不等,内存和计算的这一限制严重限制了它的适用性。...
    0
    1239次阅读
    0条评论
  • 发布了文章 2023-1-9 15:46
    这就会带来一些同语义相关的有趣问题:对于给定的图像,哪种文本描述最准确地描述了图像?同样地,对于给定的文本,最有意义的图像实现方式又是哪种?针对第一个问题,一些研究宣称最佳的图像描述应该是既自然且还能还原视觉内容的信息。...
    0
    429次阅读
    0条评论
ta 的专栏

成就与认可

  • 获得 1 次赞同

    获得 0 次收藏
关闭

站长推荐 上一条 /7 下一条

返回顶部