在本地使用 Ollama 运行 LLM 模型

LM Studio 是一个非常适合在个人电脑上进行测试的系统，但如果想要开发更复杂的原型或小型应用程序，则建议考虑使用其他系统：Ollama 就是其中之一。

Ollama 的介绍与功能

Ollama 是一个跨平台引擎，允许在服务器、容器或虚拟机上运行 LLM（大型语言模型）。

与 LM Studio 类似，它支持搜索模型、下载（采用常见的GGUF格式）、运行及查询模型。

不同于 LM Studio，它没有直接查询模型的图形界面，但可以安装诸如 OpenWeb UI 这样的独立网页界面。

模型可以通过命令行、Python 库或 HTTP API 进行查询。

安装与配置

在 Windows 上安装 Ollama，只需从官方网站[1]下载可执行文件并运行即可。即使安装界面无提示关闭，也不代表安装失败。可通过打开命令行执行：ollama –version 来验证安装。

可在 Ollama 官网[1]或其 GitHub 页面[2]查看支持的模型列表。

通过以下命令序列可以下载并运行模型：

ollama --version
ollama --help
ollama pull mistral:7b     # 下载模型。
ollama list               # 列出已下载模型。
ollama show mistral:7b    # 查看模型详情。

# 方案1：运行模型并打开交互命令行：
ollama run mistral:7b &

# 方案2：示例查询：
ollama run mistral:7b "什么是太阳黑子？"

在 Windows 上，执行 Ollama 命令会启动一个后台运行的程序（服务），响应所有模型请求；在 Linux 上，启动守护进程的命令是：

ollama serve

如果服务未自动启动，也可在 Windows 上使用此命令手动启动。

无论如何，Ollama 的服务（守护进程）负责处理所有来自命令行、HTTP 或 Python 库的请求。

与模型的交互方式

总结来说，可以通过三种方式与 Ollama 守护进程交互：

通过命令行。
通过HTTP API。
使用 Python 的 ollama 库。

在应用程序中使用 Ollama 时，推荐方法是第三种（Python 库），但也可以通过任何支持 HTTP 请求的编程语言使用第二种方法。

以下是一些HTTP 请求示例：

curl http://localhost:11434/api/version
curl http://localhost:11434/api/tags
curl http://localhost:11434/api/generate -H "Content-Type: application/json" -d '{"model": "mistral","prompt": "解释什么是 Docker", "stream": false}'

以下是一个 Python 代码示例：

# 打印可用模型。
models = ollama.list()["models"]
print("可用模型：")
for model in models:
  print(model['model'])

# 对指定模型进行查询。
response = ollama.chat(
  model='mistral:7b',
  messages=[
  {
    'role': 'user',
    'content': '为什么天空是蓝色？',
  },
])

print("\n💬 模型回答：")
print(response.message.content)