一、方案说明(最适合 Linux 服务器 / 虚拟机)
- 模型:qwen2.5:1.8b(目前最小、能用、中文最好的轻量模型,仅 1.1GB)
- 工具:Ollama(自动后台服务、自动 API、自动硬件加速)
- 输出:http://IP:11434 对外 API 接口
- 要求:Linux 任意发行版,内存 ≥ 2GB 就能跑
二、一键安装(复制粘贴直接运行)
1. 安装 Ollama
curl -fsSL https://ollama.com/install.sh | sh
2. 下载最小模型(0.5B)
ollama pull qwen2.5:0.5b
3. 启动服务(后台常驻)
Ollama 安装后自动成为系统服务,直接运行模型即可:
ollama run qwen2.5:0.5b
出现 >>> 就说明跑起来了,输入 /exit 退出聊天,服务依然后台运行。
三、API 接口(直接对外调用)
API 地址
http://你的LinuxIP:11434/api/chat
测试 API(本地 / 远程都可以)
curl http://localhost:11434/api/chat -d '{
"model": "qwen2.5:1.8b",
"messages": [
{"role": "user", "content": "你好"}
],
"stream": false
}'
返回 JSON 就是成功。
四、让外网能访问(关键:开放 11434 端口)
默认 Ollama 只允许本地访问,修改成允许所有 IP 访问:
1. 修改 Ollama 配置
sudo systemctl edit ollama.service
# 或
vi /etc/systemd/system/ollama.service.d/override.conf
在打开的编辑器里添加:
[Service]
Environment="OLLAMA_HOST=0.0.0.0"
Environment="OLLAMA_MODELS=/mnt/hgfs/wwwroot/ai/ollama/models"
OLLAMA_MAX_LOADED_MODELS=2
OLLAMA_NUM_PARALLEL=1
1、修改API端口
2、修改模型保存路径
3、修改允许同时运行模型数
4、允许并发模型数
2. 重启服务
sudo systemctl daemon-reload
sudo systemctl restart ollama
3. 防火墙开放端口
# Ubuntu/Debian
sudo ufw allow 11434
# CentOS/RHEL
sudo firewall-cmd --add-port=11434/tcp --permanent
sudo firewall-cmd --reload
现在:
http://Linux 公网 IP:11434
任何设备都能调用 API。
五、常用管理命令
# 查看运行状态
sudo systemctl status ollama
# 重启服务
sudo systemctl restart ollama
# 查看已安装模型
ollama list
# 删除模型(不需要时)
ollama rm qwen2.5:1.8b
六、你得到的能力
- 最小本地大模型:1.8B 参数,1.1GB 大小
- 内存占用:≈ 1.8GB
- 速度:CPU 也能流畅运行
- 接口标准:兼容 OpenAI 格式,可直接接入 AI 前端、钉钉、微信机器人、项目后端
总结
- 安装:
curl -fsSL https://ollama.com/install.sh | sh - 最小模型:
ollama pull qwen2.5:1.8b - 对外 API:
0.0.0.0:11434 - 接口:
/api/chat

评论 (0)