FAQ
FAQ
这里是一些最常见问题的答案。
如何获取模型?
大多数基于gguf的模型应该可以工作,但较新的模型可能需要API的补充。如果一个模型不起作用,请随时提出问题。但是,请谨慎从互联网上下载模型并直接安装到您的计算机上,因为lama.cpp或ggml中可能存在安全漏洞,这些漏洞可能会被恶意利用。一些模型可以在Hugging Face上找到:https://huggingface.co/models?search=gguf,或者gpt4all的模型也是兼容的:https://github.com/nomic-ai/gpt4all。
为什么LocalAI和llama.cpp的基准测试结果不同!
LocalAI在加载使用llama.cpp后端的模型时应用了一组默认设置,其中之一是mirostat采样 - 虽然它取得了更好的结果,但它减慢了推理速度。您可以通过在模型配置文件中设置mirostat: 0
来禁用此功能。有关更多信息,请参阅高级部分(高级使用)和这个问题。
与Serge或XXX有什么区别?
LocalAI是一个多模型解决方案,它不专注于特定的模型类型(例如,llama.cpp或alpaca.cpp),并且它内部处理所有这些以实现更快的推理,易于在本地设置和部署到Kubernetes。
为什么一切都那么慢,这是怎么回事?
可能有几种情况会导致这种情况。以下是一些建议:
- 不要使用HDD来存储您的模型。优先使用SSD而不是HDD。如果您只能使用HDD,请在模型配置文件中禁用
mmap
,以便它将所有内容加载到内存中。 - 注意CPU超预订。理想情况下,
--threads
应该与物理核心数相匹配。例如,如果您的CPU有4个核心,您理想地为模型分配<= 4
线程。 - 使用
DEBUG=true
运行LocalAI。这提供了更多信息,包括关于标记推理速度的统计信息。 - 检查您是否确实获得了输出:运行一个简单的curl请求,并使用
"stream": true
来查看模型的响应速度。
我可以用它来与Discord机器人或XXX配合使用吗?
是的!如果客户端使用OpenAI并支持设置不同的基本URL来发送请求,则可以使用LocalAI端点。这允许与每个设计为与OpenAI配合使用的应用程序配合使用,而无需更改应用程序!
这可以利用GPU吗?
有GPU支持,请参阅GPU加速。
webUI在哪里?
在示例部分中有localai-webui和chatbot-ui的可用性,并且可以根据说明进行设置。但是,由于LocalAI是一个API,因此您已经可以将其插入到提供OpenAI API的UI界面的现有项目中。在Github上已经有一些,应该已经与LocalAI兼容(因为它模仿了OpenAI API)。
它与AutoGPT兼容吗?
是的,请参阅示例!
当出现问题时,我应该如何进行故障排除?
通过在环境变量中设置DEBUG=true
来启用调试模式。这将为您提供更多关于发生情况的信息。
您也可以在命令行中指定--debug
。
当我使用CUDA运行时,为什么会出现'invalid pitch'错误?
这通常发生在您的提示超出了上下文大小。尝试减小提示大小,或者增加上下文大小。
我为什么会得到'SIGILL'错误?
您的CPU可能不支持某些默认编译在预构建二进制文件中的指令。如果您在容器中运行,尝试设置REBUILD=true
并禁用与您的CPU不兼容的CPU指令。例如:CMAKE_ARGS="-DGGML_F16C=OFF -DGGML_AVX512=OFF -DGGML_AVX2=OFF -DGGML_FMA=OFF" make build