更新内容
更新内容
发布说明已经完全迁移到 Github 发布页面。
你可以在这里查看发布说明。
更早的发布说明
2023-04-12: v2.0.0
这个版本对某些后端进行了重大改进。
重要更改:
- 后端更名:
llama-stable
更名为llama-ggml
- 提示模板更改: (角色中多余的空格)
- 修复了 Apple metal 的错误:
新增功能:
- 添加了对 LLaVa 和 OpenAI 视觉 API 的支持
- 基于Python的后端现在使用conda来跟踪环境依赖
- 支持并行请求
- 支持转换器嵌入
- 后端看门狗
- Whisper.cpp 更新
- Petals 后端
- 完整的LLM微调示例
由于Python依赖项的大小增加,镜像的大小也增加了。
如果你仍然想使用没有Python依赖的较小镜像,可以使用对应镜像标签结尾为 -core
的镜像。
完整更新日志: https://github.com/mudler/LocalAI/releases/tag/v2.0.0
2023-10-30: v1.40.0
这个版本是 v2 版本之前的准备,现在的工作将是重构、抛光和添加新的后端。跟进:https://github.com/mudler/LocalAI/issues/1126
热门话题
这个版本现在带来了 llama-cpp
后端,这是一个与 llama.cpp 相关联的 C++ 后端。它更紧密地跟踪 llama.cpp 的最新版本。它与当前的 llama
后端不兼容,但计划是用这个后端取代当前的 llama
后端。这个版本可能包含较老的 llama
后端(用 go 和 c++ 编写)的最新版本。这个更改的主要改进是减少了可能暴露给潜在错误的层级 - 同时也简化了维护工作。
对 ROCm/HIPBLAS 的支持
这个版本通过 @65a 添加了对 AMD 的支持。更多细节在
更多 CLI 命令
感谢 @jespino,local-ai 二进制文件现在有更多子命令,允许管理图库或直接尝试推理,试试看!
2023-09-25: v1.30.0
这是一个令人兴奋的 LocalAI 版本!除了错误修复和增强功能外,这个版本通过扩展对 vllm 和 vall-e-x 的支持,将新的后端提升到了一个全新的水平,用于音频生成!
2023-08-26: v1.25.0
大家好,Ettore 在这里,我很高兴分享这个版本 - 尽管这个夏天很热,显然并没有停止 LocalAI 的开发。
这个版本带来了很多新功能、错误修复和更新!也要感谢社区,这是一个伟大的版本!
注意 🚨
从这个版本开始,llama
后端只支持 gguf
文件(见 )。然而,LocalAI 仍然支持 ggml
文件。我们在一个单独的后端中提供了一个版本,名为 llama-stable
,以允许仍然加载 ggml
文件。如果你在这个版本中手动指定 llama
后端来加载 ggml
文件,你应该使用 llama-stable
,或者根本不指定后端(LocalAI 将自动处理)。
图像生成增强
Diffusers 后端现在得到了各种增强,包括支持从图像生成图像、更长的提示和支持更多内核调度程序。查看 Diffusers 文档了解更多信息。
Lora 适配器
现在可以加载 llama.cpp 的 lora 适配器。查看了解更多信息。
设备管理
现在对于单个设备上的单个 GPU,可以指定 --single-active-backend
来允许一次只激活一个后端。
社区亮点
资源管理
感谢社区的努力(来自 的另一个很棒的贡献),现在可以通过 API 程序化地关闭后端。
社区正在努力更好地处理资源。也查看 🔥路线图。
新的 how-to 部分
感谢社区的努力,我们现在有一个新的 how-to 网站,其中包含各种使用 LocalAI 的示例。这对于新用户来说是一个很好的起点!我们目前正在改进它,非常感谢社区中的 在这个方面所做的出色工作!
💡 更多示例!
- 开源自动驾驶?查看由 在我们的 示例 中添加的如何使用 Continue 与 LocalAI 一起使用的新增内容!
- 想尝试用 Insomnia 使用 LocalAI?查看由 添加的新 Insomnia 示例!
LocalAGI 在 discord!
你知道吗,我们现在有几个很酷的 bots 在我们的 Discord 中?来检查它们吧!我们还准备了一个 LocalAGI 实例来帮助您!
更新日志摘要
破坏性更改 🛠
- feat: bump llama.cpp,添加 gguf 支持
令人兴奋的新功能 🎉
- feat(Makefile): 允许限制后端构建
- feat(diffusers): 各种增强
- feat: 使初始化器接受 gRPC 延迟时间
- feat(diffusers): 添加 DPMSolverMultistepScheduler++,DPMSolverMultistepSchedulerSDE++,指导规模
- feat(diffusers): 克服提示限制
- feat(diffusers): 添加 img2img 和 clip_skip,支持更多内核调度程序
- 使用功能
- feat(diffusers): 与管道保持一致,也支持 depthimg2img
- feat: 添加 --single-active-backend 以允许一次只激活一个后端
- feat: 添加 llama-stable 后端
- feat: 允许自定义 rwkv 分词器
- feat: 后端监视器关闭端点,基于进程
- feat: 允许为 llama.cpp 加载 lora 适配器
加入我们的 Discord 社区!我们的社区正在迅速发展,我们总是乐于提供帮助! https://discord.gg/uJAeKSAGDy
完整的更新日志在此处提供:这里。
🔥🔥🔥🔥 2023-08-12: v1.24.0 🔥🔥🔥🔥
这个版本为 LocalAI 带来了四个新的附加后端:🐶 Bark,🦙 AutoGPTQ,🧨 Diffusers,🦙 exllama 以及很多改进!
主要改进:
- feat: 添加 bark 和 AutoGPTQ
- feat: 添加 Diffusers
- feat: 添加 API_KEY 列表支持
- feat: 添加 exllama
- feat: 预配置 LocalAI 图库
🐶 Bark
Bark 是一个基于文本提示的生成音频模型 - 它结合了 GPT 技术从文本生成音频。它是 LocalAI 的一个很好的补充,默认情况下在容器镜像中可用。
它还可以生成音乐,查看示例:lion.webm
🦙 AutoGPTQ
AutoGPTQ 是一个基于 GPTQ 算法的易于使用的 LLMs 量化包,具有用户友好的 API。
它主要针对 GPU 使用。查看 文档 了解使用方法。
🦙 Exllama
Exllama 是 "HF 变换器实现 Llama 的一个更节省内存的重写,用于量化权重"。它是运行在 GPU 上的 LLaMA 模型的更快替代品。查看 Exllama 文档 了解使用方法。
🧨 Diffusers
Diffusers 是生成图像、音频甚至分子 3D 结构的最先进的预训练扩散模型的首选库。目前它是实验性的,并且只支持生成图像,所以你可能会遇到一些问题。以下是根据您的要求,删除了指定内容并提取了标题的Markdown格式文本:
🔑 API Keys
现在可以通过环境变量 API_KEY
指定一个逗号分隔的API密钥列表,用于限制API请求。
🖼️ Galleries
现在默认情况下,模型图库仓库已配置在容器镜像中。
💡 New project
LocalAGI 是一个简单的代理,使用 LocalAI 功能来拥有一个完全本地运行的助手(无需API密钥)。
在 这里 查看 LocalAGI 规划旧金山的旅行演示!
完整的更新日志可在 这里 查阅。
🔥🔥 29-07-2023: v1.23.0 🚀
此版本主要集中在修复错误和更新上,只有几个新功能:
- feat: 添加绳索设置和负提示,由 在 中删除语法后端
- Added CPU information to entrypoint.sh by @finger42 in
- feat: 如果客户端消失,取消流生成,由 @tmm1 在 中添加
此次更新还带来了CUDA等重要修复:
- fix: 在模型加载时添加绳索设置,修复CUDA,由 在 中
- fix: 如果请求中设置了 'name',则选择函数调用,由 在 中
- fix: 在容器中创建 libphonemize 的符号链接,由 在 中
从这次更新开始,OpenAI functions 在 llama
后端中可用。llama-grammar
已被弃用。有关更多信息,请参见 OpenAI functions。
完整的 更新日志 可在此处查阅。
🔥🔥🔥 23-07-2023: v1.22.0 🚀
- feat: 添加 llama-master 后端,由 在 中
- [build] 在构建 libtransformers.a 时传递构建类型给 cmake,由 @TonDar0n 在 中
- feat: 解析 JSONSchema 引用(规划器),由 在 中
- feat: 后端改进,由 在 中
- feat(llama2): 添加聊天消息模板,由 在 中
从这次更新开始,使用 OpenAI functions 需要使用 llama-grammar
后端。已添加 llama
后端用于跟踪 llama.cpp
主分支和 llama-grammar
用于尚未合并到上游的语法功能。有关更多信息,请参见 OpenAI functions。在功能合并之前,我们将有两个 llama 后端。
Huggingface embeddings
在这个版本中,现在可以指定 LocalAI 外部的 gRPC
后端用于推理 。现在可以用任何语言编写内部后端,并且 huggingface-embeddings
后端现在可用于容器镜像中,与 https://github.com/UKPLab/sentence-transformers 一起使用。有关更多信息,请参见 Embeddings。
LLaMa 2 已发布!
感谢社区的努力,现在 LocalAI 支持 LLaMa2 的模板功能!更多信息请参见:,直到我们更新模型图库以包含 LLaMa2 模型!
官方 langchain 集成
已在支持 LocalAI 与 langchain
的集成方面取得进展。请查看:https://github.com/langchain-ai/langchain/pull/8134
🔥🔥🔥 17-07-2023: v1.21.0 🚀
- [whisper] 在转录端点中部分支持 verbose_json 格式,由
@ldotlopez
在 中 - LocalAI functions,由
@mudler
在 中 gRPC
-based backends,由@mudler
在 中- falcon 支持(7b 和 40b)与
ggllm.cpp
一起,由@mudler
在 中
LocalAI functions
这允许运行 OpenAI 博客和文档中描述的 OpenAI functions:https://openai.com/blog/function-calling-and-other-api-updates。
这是运行相同示例的视频,使用 LocalAI
在本地运行:
以及当它实际上选择回复用户而不是使用 functions 时!
注意:functions 仅支持与 llama.cpp
兼容的模型。
完整的示例可在 这里 查阅。
gRPC backends
这是一个内部重构,不面向用户,但它可以简化 LocalAI 的新后端维护和添加!
falcon
支持
现在支持与 https://github.com/cmp-nct/ggllm.cpp 兼容的 Falcon 7b 和 40b 模型。
之前的基于 ggml 的后端已被重命名为 falcon-ggml
。
默认预编译二进制文件
从这次更新开始,镜像的默认行为已更改。启动时不会自动触发编译,要重新编译 local-ai
并从零开始切换回旧行为,可以在环境变量中设置 REBUILD=true
。如果您的 CPU 和/或架构较旧且预编译的二进制文件与您的平台不兼容,则可能需要重新编译。有关更多信息,请参见 构建部分。
🔥🔥🔥 28-06-2023: v1.20.0 🚀
兴奋的新功能 🎉
- 通过
go-piper
添加文本到音频生成功能,由 在 中添加。有关更多信息,请参见我们的文档中的 API endpoints。 - 添加图库仓库,由 在 中添加。有关更多信息,请参见 models。
容器镜像
- 标准(GPT +
stablediffusion
):quay.io/go-skynet/local-ai:v1.20.0
- FFmpeg:
quay.io/go-skynet/local-ai:v1.20.0-ffmpeg
- CUDA 11+FFmpeg:
quay.io/go-skynet/local-ai:v1.20.0-cublas-cuda11-ffmpeg
- CUDA 12+FFmpeg:
quay.io/go-skynet/local-ai:v1.20.0-cublas-cuda12-ffmpeg
更新
更新了 llama.cpp
、go-transformers
、gpt4all.cpp
和 rwkv.cpp
。
NUMA 选项已由 在 中启用,以及许多新参数(mmap
、mmlock
等)。有关完整参数列表,请参见 高级设置。
图库仓库
在这个版本中,支持图库仓库。这些仓库包含模型,可以用来安装模型。默认图库包含仅自由许可的模型,位于 Github:https://github.com/go-skynet/model-gallery,但您可以通过设置 GALLERIES
环境变量使用自己的图库。
例如,现在您可以启动 LocalAI
并使用以下环境变量来使用两个图库:
GALLERIES=[{"name":"model-gallery", "url":"github:go-skynet/model-gallery/index.yaml"}, {"url": "github:ci-robbot/localai-huggingface-zoo/index.yaml","name":"huggingface"}]
在运行时,您现在可以使用以下方式从 huggingface 安装模型:
curl http://localhost:8000/models/apply -H "Content-Type: application/json" -d '{ "id": "huggingface@thebloke__open-llama-7b-open-instruct-ggml__open-llama-7b-open-instruct.ggmlv3.q4_0.bin" }'
或者使用以下方式安装一个 tts
语音:
curl http://localhost:8080/models/apply -H "Content-Type: application/json" -d '{ "id": "model-gallery@voice-en-us-kathleen-low" }'
有关更多信息,请参见 models。
文本到音频
现在 LocalAI
使用 piper 和 go-piper 从文本生成音频。这是一个实验性功能,需要在构建时设置 GO_TAGS=tts
。在预构建的容器镜像中默认启用。
要设置音频模型,您可以使用新的图库,或者按照文档中描述的 API部分 手动设置模型。
您可以在 Github 中查看完整的更新日志。
🔥🔥🔥 19-06-2023: v1.19.0 🚀
- 完全支持 CUDA GPU 卸载(PR 由 mudler。感谢 chnyda 提供了 GPU 访问权限,以及 lu-zero 在调试过程中的帮助)
- 全 GPU Metal 支持现在完全功能正常。感谢 Soleblaze 解决了 Metal Apple silicon 支持问题!
容器镜像:
- 标准(GPT +
stablediffusion
):quay.io/go-skynet/local-ai:v1.19.2
- FFmpeg:
quay.io/go-skynet/local-ai:v1.19.2-ffmpeg
- CUDA 11+FFmpeg:
quay.io/go-skynet/local-ai:v1.19.2-cublas-cuda11-ffmpeg
- CUDA 12+FFmpeg:
quay.io/go-skynet/local-ai:v1.19.2-cublas-cuda12-ffmpeg
---# 更新日志
29-05-2023: v1.18.0
- ✨
/v1/completions
端点支持 token stream (由 samm81 提供) - ✨ 添加了 huggingface 后端 (由 Evilfreelancer 提供)
- 📷 Stablediffusion 现在可以输出
2048x2048
大小的图像,使用esrgan
! (由 mudler 提供)
容器镜像
- 🐋 CUDA 容器镜像 (arm64, x86_64) (由 sebastien-prudhomme 提供)
- 🐋 FFmpeg 容器镜像 (arm64, x86_64) (由 mudler 提供)
依赖更新
- 🆙 Bloomz 已更新到最新的 ggml 变更,包括新的量化格式 (由 mudler 提供)
- 🆙 RWKV 已更新到新的量化格式 (由 mudler 提供)
- 🆙
k-quants
格式支持llama
模型 (由 mudler 提供) - 🆙 gpt4all 已更新,包括上游更改,允许加载旧模型,并且同一个二进制文件支持不同的 CPU 指令集 (仅 AVX,AVX2)! (由 mudler 提供)
通用
- 🐧 完全 Linux 静态二进制发布 (由 mudler 提供)
- 📷 默认在容器镜像中启用 Stablediffusion (由 mudler 提供)
注意:您可以通过设置REBUILD=false
禁用容器镜像重新构建
示例
现在有两个新项目直接与 LocalAI 集成!
27-05-2023: v1.17.0
源代码构建时已添加对 OpenCL 的支持。
您现在可以使用 BUILD_TYPE=clblas
构建 LocalAI 以获得 OpenCL 版本。有关如何安装 OpenCL/CLBlast 的说明,请参阅 这里。
rwkv.cpp 已更新到新的 ggml 格式 提交。
23-05-2023: v1.15.0
已发布。go-gpt2.cpp
后端已重命名为 go-ggml-transformers.cpp
并更新,包括 https://github.com/ggerganov/llama.cpp/pull/1508,这将破坏与旧模型的兼容性。这影响了 RedPajama、GptNeoX、MPT (不是 gpt4all-mpt
)、Dolly、GPT2 和基于 Starcoder 的模型。二进制发布可用,各种修复,包括 。
21-05-2023: v1.14.0
已发布。对 /models/apply
端点进行小更新,llama.cpp
后端更新,包括 https://github.com/ggerganov/llama.cpp/pull/1508,这将破坏与旧模型的兼容性。`gpt4all` 仍然与旧格式兼容。
19-05-2023: v1.13.0
已发布!🔥🔥 gpt4all
和 llama
后端更新,统一 CUDA 支持 ( 由 @bubthegreat 和 @Thireus 提供 ),初步支持通过 API 安装模型 安装模型 API。
17-05-2023: v1.12.0
已发布!🔥🔥 小修复,加上对 llama.cpp
兼容模型的 CUDA () 支持和图像生成 ()。
16-05-2023: 🔥🔥🔥
llama.cpp
后端和 master
中的 Stable diffusion CPU 图像生成实验性支持 ()。
现在 LocalAI 也可以生成图像:
模式=0 | 模式=1 (winograd/sgemm) |
---|---|
14-05-2023: v1.11.1
已发布!rwkv
后端修补版。
13-05-2023: v1.11.0
已发布!🔥 llama.cpp
绑定更新:此更新包含模型文件中的破坏性更改 ( https://github.com/ggerganov/llama.cpp/pull/1405 ) - 旧模型应该仍然可以使用 gpt4all-llama
后端。
12-05-2023: v1.10.0
已发布!🔥🔥 gpt4all
绑定更新。添加对 GPTNeox (实验性)、RedPajama (实验性)、Starcoder (实验性)、Replit (实验性)、MosaicML MPT 的支持。现在 embeddings
端点支持 tokens 数组。请查看 langchain-chroma 示例!注意 - 此更新不包括 https://github.com/ggerganov/llama.cpp/pull/1405,这将使模型不兼容。
11-05-2023: v1.9.0
已发布!🔥 重要的 whisper 更新 ( ) 和扩展的 gpt4all 模型家族支持 ( )。Redpajama/dolly 实验性 ( )。
10-05-2023: v1.8.0
已发布!🔥 添加了对快速准确嵌入的支持,使用 bert.cpp
( )。
09-05-2023:
添加了对转录端点的实验性支持 ( )。
08-05-2023:
使用 llama.cpp
后端支持嵌入 ( )。
02-05-2023:
支持 rwkv.cpp
模型和 /edits
端点 ( )。
01-05-2023:
在 llama.cpp
后端支持 SSE token stream ( )。