发 帖  
  • 发布了文章 2019-5-7 17:59
    作者基于本模型和两种训练技巧分别在IEMOCAP数据集和SpeechOcean中文大数据集上做了测试,所用的具体模型结构如下所示,实验结果表明,在IEMOCAP小数据集上,相比于基线模型,DAT提高了5.6%,CGT提高了7.4%;但是在S...
    0
    4970次阅读
    0条评论
  • 发布了文章 2019-4-10 13:50
    这里的欧几里得距离公式也可以换成其他距离公式(下文延伸分享其他距离公式)。这同样也解释了,我们为什么有时候在损失函数里面加上一个L2损失函数会更好,这样可以防止梯度更新步幅过大,进而引发损失值发生剧烈的抖动。...
    0
    3024次阅读
    0条评论
  • 发布了文章 2019-4-8 17:23
    不过,当事件还没有发生的时候,就不是直接去求信息量了,而应该是求信息量的期望值,所以这个时候,我们要求的是信息熵,需要在信息量前面乘以该事件发生的概率,也就是信息熵H(P)=-Plog(P),所以,信息熵反映的是一个事件还没有发生之前,它发...
    0
    3868次阅读
    0条评论
  • 发布了文章 2018-12-30 08:59
    语音合成的目标是使得计算机能够发出跟人一样自然流畅且带有感情的声音,斯坦福的学者尝试基于Tacotron实现了一个StoryTime模型,该模型依赖于一个编码器、解码器、以及注意力机制来模拟生成人类水平的频谱,期望它可以替代成为说书的。...
    0
    3311次阅读
    0条评论
  • 发布了文章 2018-4-23 17:18
    除了使用了depth-wise可分离卷积层以外,残差连接以及在每一层上都采取了批归一化的技巧对训练有促进作用,整个网络共有约500万个参数。...
    0
    5145次阅读
    0条评论
  • 发布了文章 2018-4-2 14:44
    如上代码所示,range()是tf.data.Dataset类的一个静态函数,用于产生一段序列。需要注意的是,构建的数据集需要是同一种数据类型以及内部结构。除此之外,由于range(10)代表0~9一共十个数,因此,这里的iterator只...
    0
    3665次阅读
    0条评论
  • 发布了文章 2018-1-29 10:39
    WORLD是一个基于C语言的开源语音合成系统,语音合成主要包括波形拼接和参数合成两种方法,WORLD是一种基于vocoder的参数合成方法,它相比于STRAIGHT的优势是减少了计算复杂度,并且可以应用于实时的语音合成。由于STRAIGHT...
    0
    16963次阅读
    0条评论
ta 的专栏

成就与认可

  • 获得 1 次赞同

    获得 0 次收藏
关闭

站长推荐 上一条 /9 下一条

返回顶部