发 帖  
  • 发布了文章 2022-11-25 11:33
    Magic3D 还可以执行基于提示的 3D 网格编辑:给定低分辨率 3D 模型和基本提示,可以更改文本从而修改生成的模型内容。此外,作者还展示了保持画风,以及将 2D 图像样式应用于 3D 模型的能力。...
    0
    1108次阅读
    0条评论
  • 发布了文章 2022-11-24 09:38
    特征复用技术是指:通过简单地连接来自不同层的已有的一些特征图,来额外获得一些其他的特征...
    0
    890次阅读
    0条评论
  • 发布了文章 2022-11-22 15:35
    近日,来自香港大学的罗平团队、腾讯 AI Lab 的研究者联合提出一种新框架 DiffusionDet,将扩散模型应用于目标检测。据了解,还没有研究可以成功地将扩散模型应用于目标检测,可以说这是第一个采用扩散模型进行目标检测的工作。...
    0
    1858次阅读
    0条评论
  • 发布了文章 2022-11-21 11:28
    扩大模型的规模是提高特征表示质量的重要策略,在计算机视觉领域,模型参数量的扩大不仅能够有效加强深度模型的表征学习能力,而且能够实现从海量数据中进行学习和知识获取。...
    0
    1019次阅读
    0条评论
  • 发布了文章 2022-11-17 15:25
    目前在计算机视觉取得的巨大进展在很大程度上依赖于大量带标注的数据,然而收集这些数据是一项耗时耗力的工作。为了解决这个问题,通过小样本学习来学习一个模型,并将该模型可以推广到只有少数标注图像的新类别。...
    0
    903次阅读
    0条评论
  • 发布了文章 2022-11-15 14:59
    这样做实质上是把instance当成了“voxel”来处理,因为instance和voxel本质上都属于对整个点云的一种non-overlapping划分。那么我们就可以直接套用提取单个体素特征那一套方案来提取instance特征...
    0
    1346次阅读
    0条评论
  • 发布了文章 2022-11-15 11:32
    本文简要介绍ACM MM 2022录用论文“DiT: Self-supervised Pre-training for Document Image Transformer”[1]的主要工作。该论文是2022年微软亚研院发表的LayoutL...
    0
    1414次阅读
    0条评论
  • 发布了文章 2022-11-14 15:11
    一些大型文本到图像模型基于用自然语言编写的文本提示(prompt)实现了高质量和多样化的图像合成。这些模型的主要优点是从大量的图像 - 文本描述对中学到强大的语义先验,例如将「dog」这个词与可以在图像中以不同姿势出现的各种狗的实例关联在一...
    0
    1332次阅读
    0条评论
  • 发布了文章 2022-11-10 10:18
    为了解决AI部署落地难题,我们发起了FastDeploy项目。FastDeploy针对产业落地场景中的重要AI模型,将模型API标准化,提供下载即可运行的Demo示例。相比传统推理引擎,做到端到端的推理性能优化。FastDeploy还支持在...
    0
    1275次阅读
    0条评论
  • 发布了文章 2022-11-9 15:15
    本文旨在寻求一种无监督的3D物体分割方法。我们发现,运动信息有望帮助我们实现这一目标。如下图1所示,在左图中的蓝色/橙色圆圈内,一辆汽车上的所有点一起向前运动,而场景中其他的点则保持静止。那么理论上,我们可以基于每个点的运动,将场景中属于汽...
    0
    2238次阅读
    0条评论
  • 发布了文章 2022-11-7 14:32
    如下图所示,我们凭经验发现边距和预测分数与每个类的基数相关(一个类的基数即该类别拥有数据的数量)。具体来说,在校准之前,头类往往比尾类具有更大的边距和预测分数。因此,需要校准这种不平衡的边距以获得平衡的预测分数去避免未校准的边距对分类性能产...
    0
    918次阅读
    0条评论
  • 发布了文章 2022-11-2 13:33
    最近的工作表明,transformers 还可以通过将离线强化学习(RL)视作顺序预测问题,进而从离线数据中学习策略。Chen et al. (2021)的工作表明,transformers 可以通过模仿学习从离线 RL 数据中学习单任务策...
    0
    951次阅读
    0条评论
  • 发布了文章 2022-11-1 15:26
    手写数学公式识别是将包含数学表达式的图像转换为结构表达式,例如LaTeX数学表达式或符号布局树的过程。手写数学表达式的识别已经带来了许多下游应用,如在线教育、自动评分和公式图像搜索。在在线教育场景下,手写数学表达式的识别率对提高学习效率和教...
    0
    1652次阅读
    0条评论
  • 发布了文章 2022-10-31 17:03
    自Google提出Vision Transformer(ViT)以来,ViT渐渐成为许多视觉任务的默认backbone。凭借着ViT结构,许多视觉任务的SoTA都得到了进一步提升,包括图像分类、分割、检测、识别等。...
    0
    1014次阅读
    0条评论
  • 发布了文章 2022-10-28 16:00
    当前,绝大部分基于深度学习的图像去模糊算法是不区分场景的,也就是他们是对常见的自然与人为设计的场景进行去模糊。但是,在现实生活中,经常会遇到一些特定场景的图像去模糊。比如人脸去模糊、文本去模糊、双目去模糊。本文总结了这些不同场景的特点,以及...
    0
    2501次阅读
    0条评论
ta 的专栏

成就与认可

  • 获得 1 次赞同

    获得 0 次收藏
关闭

站长推荐 上一条 /6 下一条

返回顶部