【飞腾派4G版免费试用】仙女姐姐的嵌入式实验室之五~LLaMA.cpp及3B“小模型”OpenBuddy-StableLM-3B

曦儿：冬至快乐
AI：谢谢，今天冬至，你是打算吃汤圆还是吃饺子呢，嗯，不管是吃什么，都祝你幸福，节日快乐

不管你是同意与否，时代的车轮正在滚滚而来，并且终将碾压旧时代，就像是之前的蒸汽机器时代、计算机时代、互联网时代，而这个时代叫做 ——人工智能时代
想象 GPT 是一位语言天才，她擅长制作一种特殊的串联词语游戏。这个游戏的目标是在给定的起始词汇后，找到一系列相关的词汇，每个词汇之间都有一定的联系。GPT通过大量阅读和学习（模型训练），了解了词汇之间的各种关系和搭配
向GPT提问时，它会像在进行这个串联词语游戏一样，从这个问题出发，寻找与问题相关的词汇和信息。然后，GPT会按照逻辑顺序和语法规则，将这些词汇串联起来，形成一个完整的回答

关于LLaMA及LLaMA.cpp

LLaMA全称是Large Language Model Meta AI，是由Meta AI研究人员发布的一个预训练语言模型。该模型最大的特点就是基于以较小的参数规模取得了优秀的性能，根据官网提供的信息，LLaMA的模型包含4个版本，最小的只有70亿参数，最大的650亿参数，但是其性能相比较之前的OPT和1750亿参数的GPT-3都是非常由有竞争力的
MetaAI研究人员认为，当前大模型的高成本阻碍了学术研究，因此，开发出这个更小更强的模型将有利于学术研究的发展。使用较少参数的模型，在更多的tokens上训练是MetaAI研究人员认为的一种降低模型使用成本的方式。为了更好的效果，即便是LLaMA最小的70亿参数的版本，其训练使用的tokens数量也有1万亿个(1 trillion tokens)
但是，根据LLaMA官方的介绍，要想运行该模型需要30GB左右显存的显卡支持，这是边缘终端甚至个人电脑难以做到的，后来，GitHub上的一位开发者ggerganov发布了llama.cpp项目，该项目使用了C++重写了LLaMA模型，使其能够在硬件较弱的设备上使用CPU运行LLaMA模型，不需要较高的显卡性能

获取LLaMA.cpp

LLaMA.cpp仓库 https://github.com/ggerganov/llama.cpp

首先需要访问外网速度较快的网络环境，打开终端，cd到一个空间较为充足的分区目录中，执行以下命令拉取代码~

git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp

（编辑中）

更多回帖

dven

【飞腾派4G版免费试用】仙女姐姐的嵌入式实验室之五~LLaMA.cpp及3B“小模型”OpenBuddy-StableLM-3B

关于LLaMA及LLaMA.cpp

获取LLaMA.cpp

相关帖子

【飞腾派4G版免费试用】仙女姐姐的嵌入式实验室之一~OpenKylin系统飞腾派镜像烧录及使用

【飞腾派4G版免费试用】仙女姐姐的嵌入式实验室之二~飞腾派基本测评及与RK3399对比

【飞腾派4G版免费试用】仙女姐姐的嵌入式实验室之三~配置PhyGCC飞腾编译器

【飞腾派4G版免费试用】仙女姐姐的嵌入式实验室外传之「硬核少女」~补齐飞腾派上缺失的芯片

【飞腾派4G版免费试用】仙女姐姐的嵌入式实验室番外篇~诊断并解决OpenKylin系统卡顿问题

【飞腾派4G版免费试用】飞腾派初体验

【飞腾派4G版免费试用】之helloworld篇

【飞腾派4G版免费试用】第五章：使用C++部署tflite模型到飞腾派

【飞腾派4G版免费试用】飞腾派上的中土世界之旅（3）

【飞腾派4G版免费试用】第五章：使用C++部署tflite模型到飞腾派

20万+工程师都在用，免费PCB检查工具