FAQ

2025年2月22日大约 3 分钟

FAQ

这里是一些最常见问题的答案。

如何获取模型？

大多数基于gguf的模型应该可以工作，但较新的模型可能需要API的补充。如果一个模型不起作用，请随时提出问题。但是，请谨慎从互联网上下载模型并直接安装到您的计算机上，因为lama.cpp或ggml中可能存在安全漏洞，这些漏洞可能会被恶意利用。一些模型可以在Hugging Face上找到：https://huggingface.co/models?search=gguf，或者gpt4all的模型也是兼容的：https://github.com/nomic-ai/gpt4all。

为什么LocalAI和llama.cpp的基准测试结果不同！

LocalAI在加载使用llama.cpp后端的模型时应用了一组默认设置，其中之一是mirostat采样 - 虽然它取得了更好的结果，但它减慢了推理速度。您可以通过在模型配置文件中设置mirostat: 0来禁用此功能。有关更多信息，请参阅高级部分（高级使用）和这个问题。

与Serge或XXX有什么区别？

LocalAI是一个多模型解决方案，它不专注于特定的模型类型（例如，llama.cpp或alpaca.cpp），并且它内部处理所有这些以实现更快的推理，易于在本地设置和部署到Kubernetes。

为什么一切都那么慢，这是怎么回事？

可能有几种情况会导致这种情况。以下是一些建议：

不要使用HDD来存储您的模型。优先使用SSD而不是HDD。如果您只能使用HDD，请在模型配置文件中禁用mmap，以便它将所有内容加载到内存中。
注意CPU超预订。理想情况下，--threads应该与物理核心数相匹配。例如，如果您的CPU有4个核心，您理想地为模型分配<= 4线程。
使用DEBUG=true运行LocalAI。这提供了更多信息，包括关于标记推理速度的统计信息。
检查您是否确实获得了输出：运行一个简单的curl请求，并使用"stream": true来查看模型的响应速度。

我可以用它来与Discord机器人或XXX配合使用吗？

是的！如果客户端使用OpenAI并支持设置不同的基本URL来发送请求，则可以使用LocalAI端点。这允许与每个设计为与OpenAI配合使用的应用程序配合使用，而无需更改应用程序！

这可以利用GPU吗？

有GPU支持，请参阅GPU加速。

webUI在哪里？

在示例部分中有localai-webui和chatbot-ui的可用性，并且可以根据说明进行设置。但是，由于LocalAI是一个API，因此您已经可以将其插入到提供OpenAI API的UI界面的现有项目中。在Github上已经有一些，应该已经与LocalAI兼容（因为它模仿了OpenAI API）。

它与AutoGPT兼容吗？

是的，请参阅示例！

当出现问题时，我应该如何进行故障排除？

通过在环境变量中设置DEBUG=true来启用调试模式。这将为您提供更多关于发生情况的信息。
您也可以在命令行中指定--debug。

当我使用CUDA运行时，为什么会出现'invalid pitch'错误？

这通常发生在您的提示超出了上下文大小。尝试减小提示大小，或者增加上下文大小。

我为什么会得到'SIGILL'错误？

您的CPU可能不支持某些默认编译在预构建二进制文件中的指令。如果您在容器中运行，尝试设置REBUILD=true并禁用与您的CPU不兼容的CPU指令。例如：CMAKE_ARGS="-DGGML_F16C=OFF -DGGML_AVX512=OFF -DGGML_AVX2=OFF -DGGML_FMA=OFF" make build