Ollama一键部署qwen2.5并对外 提供API 服务

一、方案说明(最适合 Linux 服务器 / 虚拟机)

  • 模型:​qwen2.5:1.8b​(目前最小、能用、中文最好的轻量模型,仅 1.1GB)
  • 工具:​Ollama​(自动后台服务、自动 API、自动硬件加速)
  • 输出:http://IP:11434 对外 API 接口
  • 要求:Linux 任意发行版,内存 ≥ 2GB 就能跑

二、一键安装(复制粘贴直接运行)

1. 安装 Ollama

curl -fsSL https://ollama.com/install.sh | sh

2. 下载最小模型(0.5B)

ollama pull qwen2.5:0.5b

3. 启动服务(后台常驻)

Ollama 安装后​自动成为系统服务​,直接运行模型即可:

ollama run qwen2.5:0.5b

出现 >>> 就说明跑起来了,输入 /exit 退出聊天,服务​依然后台运行​。


三、API 接口(直接对外调用)

API 地址

http://你的LinuxIP:11434/api/chat

测试 API(本地 / 远程都可以)

curl http://localhost:11434/api/chat -d '{
  "model": "qwen2.5:1.8b",
  "messages": [
    {"role": "user", "content": "你好"}
  ],
  "stream": false
}'

返回 JSON 就是成功。


四、让外网能访问(关键:开放 11434 端口)

默认 Ollama 只允许本地访问,修改成​允许所有 IP 访问​:

1. 修改 Ollama 配置

sudo systemctl edit ollama.service
# 或
vi /etc/systemd/system/ollama.service.d/override.conf

在打开的编辑器里添加:

[Service]
Environment="OLLAMA_HOST=0.0.0.0"
Environment="OLLAMA_MODELS=/mnt/hgfs/wwwroot/ai/ollama/models"
OLLAMA_MAX_LOADED_MODELS=2 
OLLAMA_NUM_PARALLEL=1

1、修改API端口
2、修改模型保存路径
3、修改允许同时运行模型数
4、允许并发模型数

2. 重启服务

sudo systemctl daemon-reload
sudo systemctl restart ollama

3. 防火墙开放端口

# Ubuntu/Debian
sudo ufw allow 11434

# CentOS/RHEL
sudo firewall-cmd --add-port=11434/tcp --permanent
sudo firewall-cmd --reload

现在:

http://Linux 公网 IP:11434

任何设备都能调用 API。


五、常用管理命令

# 查看运行状态
sudo systemctl status ollama

# 重启服务
sudo systemctl restart ollama

# 查看已安装模型
ollama list

# 删除模型(不需要时)
ollama rm qwen2.5:1.8b

六、你得到的能力

  • 最小本地大模型:1.8B 参数,1.1GB 大小
  • 内存占用:≈ 1.8GB
  • 速度:CPU 也能流畅运行
  • 接口标准:​兼容 OpenAI 格式​,可直接接入 AI 前端、钉钉、微信机器人、项目后端

总结

  1. 安装:curl -fsSL https://ollama.com/install.sh | sh
  2. 最小模型:ollama pull qwen2.5:1.8b
  3. 对外 API:0.0.0.0:11434
  4. 接口:/api/chat

评论 (0)

暂无评论