发 帖  
  • 谈谈GPU的使用寿命

    2024-11-1 10:27
    上文结合论文谈一谈,三年寿命的GPU [上]说到,电路腐蚀导致橡树岭实验室的GPU寿命只有3年,更换了11,000块GPU。...
    0
    241次阅读
    0条评论
  • 最近外面总在讨论GPU的寿命只有三年。...
    0
    300次阅读
    0条评论
  • 目前的GPU缺乏cache一致性,需要diable 线程private的L1 cache,或者采用基于软件的bulk coherence决策(比如在同步点,flush掉所有的private L1 cache。...
    0
    286次阅读
    0条评论
  • 继续上文GPGPU体系结构优化方向 [上],介绍提高并行度和优化流水线的方向。...
    0
    263次阅读
    0条评论
  • GPU Warp内,32个线程(NVIDIA)锁步lock step执行时,如果遇到每个分支走上了不同分支,比如20个线程if,12个执行else,那么20个线程会先执行,mask调另外的12个。20个线程执行到分支合并...
    0
    730次阅读
    0条评论
  • LLama.cpp 支持x86,arm,gpu的编译。...
    0
    1498次阅读
    0条评论
  • 大模型学习笔记

    2024-1-8 10:05
    Apple最近发表了一篇文章,可以在iphone, MAC 上运行大模型:【LLM in a flash: Efficient Large Language Model Inference with Limited Me...
    0
    498次阅读
    0条评论
  • 最近大语言模型模型LLM很火,大家总是说chatgpt的175Billion参数。做算法的人更关心网络的结构,而我这种做硬件的人一直很好奇这个参数是怎么计算的。...
    0
    1152次阅读
    0条评论
  • Stanford编译原理详解

    2023-10-25 10:47
    第二部分的作业是语法分析,通过编写cool.y(这个assignment的任务),利用bison将其自动生成语法分析LALR(1)的代码。...
    0
    669次阅读
    0条评论
  • 第一个作业是根据这门课定义的cool语言,写一个词法分析的rule,词法分析对我帮助不大,主要是理解使用就可以,就大部分参照github上的实现了。...
    0
    563次阅读
    0条评论
  • GPU Microarch学习笔记

    2023-8-14 14:39
    GPU的线程从thread grid 到thread block,一个thread block在CUDA Core上执行时,会分成warp执行,warp的颗粒度是32个线程。...
    0
    863次阅读
    0条评论
  • Gem5 Arm Fullsystem仿真

    2023-1-4 14:11
    如果是基于X86 Ubuntu系统模拟gem5 arch,制作disk image比较简单,可以git clone gem5 resource, 在spec2017文件夹下放入spec2017.iso,调用build.s...
    0
    2144次阅读
    0条评论
ta 的专栏
关闭

站长推荐 上一条 /6 下一条

返回顶部