发 帖  
  • 为了改进LLM的推理能力,University of California联合Meta AI实验室提出将Contrastive Decoding应用于多种任务的LLM方法。实验表明,所提方法能有效改进LLM的推理能力。让...
    0
    1139次阅读
    0条评论
  • 面对推测性解码的复杂性,研究人员推出了Medusa技术,这个框架回归了Transformer模型的本质,减少了复杂度,增强了效率,让每个生成阶段都能快速产出结果。当将Medusa与基于树的注意机制结合时,生成速度提高了2...
    0
    1232次阅读
    0条评论
  • 为什么?一般有 tensor parallelism、pipeline parallelism、data parallelism 几种并行方式,分别在模型的层内、模型的层间、训练数据三个维度上对 GPU 进行划分。三个并...
    2
    33793次阅读
    0条评论
  • 一般而言,越复杂的任务,越充裕的资源,应该是各自用更加专业的方案来做各自的上限才会比较高,大模型能提供的,是一个基础的、快速的、zero shot或者few shot的baseline方案。...
    0
    3956次阅读
    0条评论
  • 这种编码方式又叫做 Sinusoidal编码 。直觉上看,第个位置的表征向量维度是 ,这个向量的奇数位置元素使用余弦值,偶数位置元素使用正弦值。...
    0
    1267次阅读
    0条评论
  • 目前大部分开源LLM模型都是基于transformers库来做的,它们的结构大部分都和Llama大同小异。...
    0
    4337次阅读
    0条评论
  • Llama 2性能如何

    2023-7-23 13:00
    在几乎所有基准上,Llama 2 70B 的结果均与谷歌 PaLM (540B) 持平或表现更好,不过与 GPT-4 和 PaLM-2-L 的性能仍存在较大差距。...
    0
    1710次阅读
    0条评论
  • 模型结构为Transformer结构,与Llama相同的是采用RMSNorm归一化、SwiGLU激活函数、RoPE位置嵌入、词表的构建与大小,与Llama不同的是增加GQA(分组查询注意力),扩增了模型输入最大长度,语料...
    0
    2091次阅读
    0条评论
  • 首先C-eval本身题目是公开的离线测试,答案是不可见在线提交的形式来评测,这样能一定程度上规避泄漏的问题。...
    0
    3692次阅读
    0条评论
  • 既然已经有了成功ChatGPT这一成功的案例,大家都想基于LLaMA把这条路再走一遍,以期望做出自己的ChatGPT。...
    0
    4630次阅读
    0条评论
  • 与基于 RNN 的编码器-解码器模型类似,基于 transformer 的编码器-解码器模型由一个编码器和一个解码器组成,且其编码器和解码器均由 残差注意力模块 (residual attention blocks) 堆...
    0
    3092次阅读
    0条评论
  • PEFT 技术旨在通过最小化微调参数的数量和计算复杂度,来提高预训练模型在新任务上的性能,从而缓解大型预训练模型的训练成本。这样一来,即使计算资源受限,也可以利用预训练模型的知识来迅速适应新任务,实现高效的迁移学习。因此...
    0
    1058次阅读
    0条评论
  • PFMs能在nlp中盛行起来,得益于能它同时对单词的句法和语义表示进行建模,并根据不同的输入动态改变多义词的表示上下文。PFM能学习丰富的语法和语义推理知识,效果更好。...
    0
    1499次阅读
    0条评论
  • 本文主要从LoRA基本原理及PEFT中的实现、基于mt0-large+lora的完整实践两方面进行了介绍。关于进一步的细节,我们可以熟悉原理后,可以进行动手实践,加深理解。...
    0
    4323次阅读
    0条评论
  • 指令调整(Instruction Tuning)将多种任务转化成自然语言表述的形式,再通过seq2seq的监督学习+多任务学习的方式调整大规模语言模型的参数。...
    0
    1836次阅读
    0条评论
ta 的专栏

成就与认可

  • 获得 7 次赞同

    获得 0 次收藏
关闭

站长推荐 上一条 /9 下一条

返回顶部