安装和运行模型

2025年2月22日大约 4 分钟

安装和运行模型

要使用 LocalAI 安装模型，您可以：

通过网页界面浏览模型画廊，并点击几次即可安装模型。更多详细信息，请参考画廊文档。
在启动时指定 LocalAI 画廊中的模型，例如，local-ai run <model_gallery_name>。
在启动 LocalAI 时使用 URI 指定模型文件（例如，huggingface://...、oci:// 或 ollama://），例如，local-ai run huggingface://TheBloke/phi-2-GGUF/phi-2.Q8_0.gguf。
在启动 LocalAI 时指定指向模型配置文件的 URL，例如，local-ai run https://gist.githubusercontent.com/.../phi-2.yaml。
通过将文件复制到模型目录（--models）来手动安装模型。

通过画廊运行和安装模型

要运行 LocalAI 画廊中可用的模型，您可以使用 WebUI 或在启动 LocalAI 时指定模型名称。模型可以通过网页界面、模型画廊或 CLI 使用 local-ai models list 找到。

要从画廊安装模型，请使用模型名称作为 URI。例如，要使用 Hermes 模型运行 LocalAI，请执行以下操作：

local-ai run hermes-2-theta-llama-3-8b

仅安装模型，请使用：

local-ai models install hermes-2-theta-llama-3-8b

注意：LocalAI 中可用的画廊可以自定义以指向不同的 URL 或本地目录。有关如何设置自己的画廊的更多信息，请参见画廊文档。

通过 URI 运行模型

要在启动 LocalAI 时通过 URI 运行模型，请指定指向模型文件或配置文件的 URI。有效的语法包括：

file://path/to/model
huggingface://repository_id/model_file（例如，huggingface://TheBloke/phi-2-GGUF/phi-2.Q8_0.gguf）
来自 OCIs：oci://container_image:tag、ollama://model_id:tag
来自配置文件：https://gist.githubusercontent.com/.../phi-2.yaml

配置文件可用于自定义模型默认值和设置。有关高级配置，请参阅自定义模型部分。

示例

# 使用 phi-2 模型启动 LocalAI
local-ai run huggingface://TheBloke/phi-2-GGUF/phi-2.Q8_0.gguf
# 从 Ollama OCI 注册表安装并运行模型
local-ai run ollama://gemma:2b
# 从配置文件运行模型
local-ai run https://gist.githubusercontent.com/.../phi-2.yaml
# 从标准 OCI 注册表（例如，Docker Hub）安装并运行模型
local-ai run oci://localai/phi-2:latest

手动运行模型

按照以下步骤使用 LocalAI 手动运行模型：

准备您的模型和配置文件：
确保您有模型文件，如果需要，还有配置 YAML 文件。使用配置文件自定义模型的默认值和设置。有关高级配置，请参考高级文档。
GPU 加速：
有关 GPU 加速的说明，请访问GPU 加速页面。
运行 LocalAI：
选择以下方法之一来运行 LocalAI：

# 准备模型到 `models` 目录
mkdir models

# 将您的模型复制到目录中
cp your-model.gguf models/

# 运行 LocalAI 容器
docker run -p 8080:8080 -v $PWD/models:/models -ti --rm quay.io/go-skynet/local-ai:latest --models-path /models --context-size 700 --threads 4

# 预期输出：
# ┌───────────────────────────────────────────────────┐
# │                   Fiber v2.42.0                   │
# │               http://127.0.0.1:8080               │
# │       (bound on host 0.0.0.0 and port 8080)       │
# │                                                   │
# │ Handlers ............. 1  Processes ........... 1 │
# │ Prefork ....... Disabled  PID ................. 1 │
# └───────────────────────────────────────────────────┘

# 使用 curl 测试端点
curl http://localhost:8080/v1/completions -H "Content-Type: application/json" -d '{
     "model": "your-model.gguf",
     "prompt": "A long time ago in a galaxy far, far away",
     "temperature": 0.7
   }'

其他 Docker 镜像：

有关其他 Docker 镜像，请参考容器镜像部分的表格。

注意：如果在 Apple Silicon（ARM）上运行，不建议使用 Docker 进行模拟。遵循构建说明以使用 Metal 加速实现完整的 GPU 支持。如果在 Apple x86_64 上运行，您可以使用 Docker 而无需从源代码构建额外的收益。

# 克隆 LocalAI
git clone https://github.com/go-skynet/LocalAI

cd LocalAI

# (可选) 检出特定的 LocalAI 标签
# git checkout -b build <TAG>

# 将您的模型复制到模型目录
cp your-model.gguf models/

# (可选) 编辑 .env 文件来设置参数，如上下文大小和线程数
# vim .env

# 使用 Docker Compose 启动
docker compose up -d --pull always
# 或者构建镜像：
# docker compose up -d --build

# 现在 API 可通过 localhost:8080 访问
curl http://localhost:8080/v1/models
# {"object":"list","data":[{"id":"your-model.gguf","object":"model"}]}

curl http://localhost:8080/v1/completions -H "Content-Type: application/json" -d '{
     "model": "your-model.gguf",
     "prompt": "A long time ago in a galaxy far, far away",
     "temperature": 0.7
   }'

其他 Docker 镜像：

有关其他 Docker 镜像，请参考入门中的表格。

注意：如果您在 Windows 上，确保项目位于 Linux 文件系统上，以避免模型加载缓慢。有关更多信息，请参阅Microsoft 文档。

有关 Kubernetes 部署，请参阅 Kubernetes 部分。

LocalAI 二进制文件版本可在GitHub上获得。

如果在 macOS 上安装，可能会遇到以下消息：

"local-ai-git-Darwin-arm64"（或您给二进制文件的名字）无法打开，因为 Apple 无法检查其是否存在恶意软件。

点击 OK，然后转到设置 > 隐私与安全性 > 安全性，寻找以下消息：

"local-ai-git-Darwin-arm64" 被阻止使用，因为它不是来自已识别的开发者。

按“允许任何方式”。

有关从源代码构建 LocalAI 的说明，请参阅构建部分。

有关更多模型配置，请访问示例部分。