安装和运行模型
安装和运行模型
要使用 LocalAI 安装模型,您可以:
- 通过网页界面浏览模型画廊,并点击几次即可安装模型。更多详细信息,请参考画廊文档。
- 在启动时指定 LocalAI 画廊中的模型,例如,
local-ai run <model_gallery_name>
。 - 在启动 LocalAI 时使用 URI 指定模型文件(例如,
huggingface://...
、oci://
或ollama://
),例如,local-ai run huggingface://TheBloke/phi-2-GGUF/phi-2.Q8_0.gguf
。 - 在启动 LocalAI 时指定指向模型配置文件的 URL,例如,
local-ai run https://gist.githubusercontent.com/.../phi-2.yaml
。 - 通过将文件复制到模型目录(
--models
)来手动安装模型。
通过画廊运行和安装模型
要运行 LocalAI 画廊中可用的模型,您可以使用 WebUI 或在启动 LocalAI 时指定模型名称。模型可以通过网页界面、模型画廊 或 CLI 使用 local-ai models list
找到。
要从画廊安装模型,请使用模型名称作为 URI。例如,要使用 Hermes 模型运行 LocalAI,请执行以下操作:
local-ai run hermes-2-theta-llama-3-8b
仅安装模型,请使用:
local-ai models install hermes-2-theta-llama-3-8b
注意:LocalAI 中可用的画廊可以自定义以指向不同的 URL 或本地目录。有关如何设置自己的画廊的更多信息,请参见画廊文档。
通过 URI 运行模型
要在启动 LocalAI 时通过 URI 运行模型,请指定指向模型文件或配置文件的 URI。有效的语法包括:
file://path/to/model
huggingface://repository_id/model_file
(例如,huggingface://TheBloke/phi-2-GGUF/phi-2.Q8_0.gguf
)- 来自 OCIs:
oci://container_image:tag
、ollama://model_id:tag
- 来自配置文件:
https://gist.githubusercontent.com/.../phi-2.yaml
配置文件可用于自定义模型默认值和设置。有关高级配置,请参阅自定义模型部分。
示例
# 使用 phi-2 模型启动 LocalAI
local-ai run huggingface://TheBloke/phi-2-GGUF/phi-2.Q8_0.gguf
# 从 Ollama OCI 注册表安装并运行模型
local-ai run ollama://gemma:2b
# 从配置文件运行模型
local-ai run https://gist.githubusercontent.com/.../phi-2.yaml
# 从标准 OCI 注册表(例如,Docker Hub)安装并运行模型
local-ai run oci://localai/phi-2:latest
手动运行模型
按照以下步骤使用 LocalAI 手动运行模型:
准备您的模型和配置文件:
确保您有模型文件,如果需要,还有配置 YAML 文件。使用配置文件自定义模型的默认值和设置。有关高级配置,请参考高级文档。GPU 加速:
有关 GPU 加速的说明,请访问GPU 加速页面。运行 LocalAI:
选择以下方法之一来运行 LocalAI:
# 准备模型到 `models` 目录
mkdir models
# 将您的模型复制到目录中
cp your-model.gguf models/
# 运行 LocalAI 容器
docker run -p 8080:8080 -v $PWD/models:/models -ti --rm quay.io/go-skynet/local-ai:latest --models-path /models --context-size 700 --threads 4
# 预期输出:
# ┌───────────────────────────────────────────────────┐
# │ Fiber v2.42.0 │
# │ http://127.0.0.1:8080 │
# │ (bound on host 0.0.0.0 and port 8080) │
# │ │
# │ Handlers ............. 1 Processes ........... 1 │
# │ Prefork ....... Disabled PID ................. 1 │
# └───────────────────────────────────────────────────┘
# 使用 curl 测试端点
curl http://localhost:8080/v1/completions -H "Content-Type: application/json" -d '{
"model": "your-model.gguf",
"prompt": "A long time ago in a galaxy far, far away",
"temperature": 0.7
}'
其他 Docker 镜像:
有关其他 Docker 镜像,请参考容器镜像部分的表格。
注意:如果在 Apple Silicon(ARM)上运行,不建议使用 Docker 进行模拟。遵循构建说明以使用 Metal 加速实现完整的 GPU 支持。如果在 Apple x86_64 上运行,您可以使用 Docker 而无需从源代码构建额外的收益。
# 克隆 LocalAI
git clone https://github.com/go-skynet/LocalAI
cd LocalAI
# (可选) 检出特定的 LocalAI 标签
# git checkout -b build <TAG>
# 将您的模型复制到模型目录
cp your-model.gguf models/
# (可选) 编辑 .env 文件来设置参数,如上下文大小和线程数
# vim .env
# 使用 Docker Compose 启动
docker compose up -d --pull always
# 或者构建镜像:
# docker compose up -d --build
# 现在 API 可通过 localhost:8080 访问
curl http://localhost:8080/v1/models
# {"object":"list","data":[{"id":"your-model.gguf","object":"model"}]}
curl http://localhost:8080/v1/completions -H "Content-Type: application/json" -d '{
"model": "your-model.gguf",
"prompt": "A long time ago in a galaxy far, far away",
"temperature": 0.7
}'
其他 Docker 镜像:
有关其他 Docker 镜像,请参考入门中的表格。
注意:如果您在 Windows 上,确保项目位于 Linux 文件系统上,以避免模型加载缓慢。有关更多信息,请参阅Microsoft 文档。
有关 Kubernetes 部署,请参阅 Kubernetes 部分。
LocalAI 二进制文件版本可在GitHub上获得。
如果在 macOS 上安装,可能会遇到以下消息:
"local-ai-git-Darwin-arm64"(或您给二进制文件的名字)无法打开,因为 Apple 无法检查其是否存在恶意软件。
点击 OK,然后转到设置 > 隐私与安全性 > 安全性,寻找以下消息:
"local-ai-git-Darwin-arm64" 被阻止使用,因为它不是来自已识别的开发者。
按“允许任何方式”。
有关从源代码构建 LocalAI 的说明,请参阅构建部分。
有关更多模型配置,请访问示例部分。