Ollama 是一个专为在本地环境中运行和定制大型语言模型而设计的工具。它提供了一个简单而高效的接口,用于创建、运行和管理这些模型,同时还提供了一个丰富的预构建模型库,可以轻松集成到各种应用程序中。Ollama 的目标是使大型语言模型的部署和交互变得简单,无论是对于开发者还是对于终端用户。
一键安装
docker run \
-d --restart=always \
-v /data/var/ollama_docker/.ollama:/root/.ollama \
-p 8082:11434 \
--name "ollama" \
-h ollama \
ollama/ollama:latest
配置容器
# 运行ollama
docker exec -it ollama /bin/bash
安装模型
# 运行deepseek-ri:1.5b-70b
ollama run deepseek-r1:1.5b # ~3GB | 移动端/嵌入式设备、简单对话机器人、实时翻译
ollama run deepseek-r1:7b # ~14GB | 轻量级客服系统、短文本生成、基础代码补全
ollama run deepseek-r1:8b # ~16GB | 多语言翻译、中等复杂度问答、文档摘要
ollama run deepseek-r1:14b # ~28GB | 长上下文理解(如聊天记录分析)、内容创作
ollama run deepseek-r1:32b # ~84GB | 复杂逻辑推理、专业领域问答(法律/医疗)
ollama run deepseek-r1:70b # ~140GB | 科研分析、复杂代码生成、多模态任务处理
常用命令
# 查看本地大模型
ollama list
# 查看运行中的大模型
ollama ps
# 删除指定大模型
ollama rm deepseek-r1:1.5b
下载加速
# 修改 ollama 服务配置(需 root 权限)
sudo vim /etc/systemd/system/ollama.service
# 在 [Service] 段添加环境变量(以阿里云镜像为例)
Environment="OLLAMA_REGISTRY=registry.cn-hangzhou.aliyuncs.com/ollama"
# 重载配置并重启
sudo systemctl daemon-reload
sudo systemctl restart ollama
拓展知识
QA:关键差异说明
1.5B-7B:轻量级场景
硬件需求:单张消费级显卡(如 RTX 3060 12GB)即可运行量化版。
用途:适合对延迟敏感的场景(如手机助手、IoT 设备交互),但复杂任务易出错。
8B-14B:平衡型模型
硬件需求:需高端显卡(如 A100 40GB)或量化部署。
用途:企业级应用(客服、内容生成),支持多轮对话和中长文本分析。
32B-70B:高性能场景
硬件需求:需多卡并行(如 2-4 张 A100 80GB)或量化+模型切分。
用途:科研、专业领域(金融/法律文档解析)、复杂代码生成(如全函数级代码补全)。
相关链接
在使用过程中,有任何问题都可以通过以上链接找寻答案。