Ollama 是一个专为在本地环境中运行和定制大型语言模型而设计的工具。它提供了一个简单而高效的接口,用于创建、运行和管理这些模型,同时还提供了一个丰富的预构建模型库,可以轻松集成到各种应用程序中。Ollama 的目标是使大型语言模型的部署和交互变得简单,无论是对于开发者还是对于终端用户。

一键安装

docker run \
  -d --restart=always  \
  -v /data/var/ollama_docker/.ollama:/root/.ollama \
  -p 8082:11434 \
  --name "ollama" \
  -h ollama \
ollama/ollama:latest

配置容器

# 运行ollama
docker exec -it ollama /bin/bash

安装模型

# 运行deepseek-ri:1.5b-70b
ollama run deepseek-r1:1.5b		# ~3GB | 移动端/嵌入式设备、简单对话机器人、实时翻译
ollama run deepseek-r1:7b		# ~14GB | 轻量级客服系统、短文本生成、基础代码补全
ollama run deepseek-r1:8b		# ~16GB | 多语言翻译、中等复杂度问答、文档摘要
ollama run deepseek-r1:14b		# ~28GB | 长上下文理解(如聊天记录分析)、内容创作
ollama run deepseek-r1:32b		# ~84GB | 复杂逻辑推理、专业领域问答(法律/医疗)
ollama run deepseek-r1:70b		# ~140GB | 科研分析、复杂代码生成、多模态任务处理

常用命令

# 查看本地大模型
ollama list
# 查看运行中的大模型
ollama ps
# 删除指定大模型
ollama rm deepseek-r1:1.5b

下载加速

# 修改 ollama 服务配置(需 root 权限)
sudo vim /etc/systemd/system/ollama.service

# 在 [Service] 段添加环境变量(以阿里云镜像为例)
Environment="OLLAMA_REGISTRY=registry.cn-hangzhou.aliyuncs.com/ollama"

# 重载配置并重启
sudo systemctl daemon-reload
sudo systemctl restart ollama

拓展知识

QA:关键差异说明

1.5B-7B:轻量级场景

硬件需求:单张消费级显卡(如 RTX 3060 12GB)即可运行量化版。
用途:适合对延迟敏感的场景(如手机助手、IoT 设备交互),但复杂任务易出错。



8B-14B:平衡型模型

硬件需求:需高端显卡(如 A100 40GB)或量化部署。
用途:企业级应用(客服、内容生成),支持多轮对话和中长文本分析。



32B-70B:高性能场景

硬件需求:需多卡并行(如 2-4 张 A100 80GB)或量化+模型切分。
用途:科研、专业领域(金融/法律文档解析)、复杂代码生成(如全函数级代码补全)。

相关链接

在使用过程中,有任何问题都可以通过以上链接找寻答案。

「低效的勤奋是懒惰的遮羞布,粗糙的完成是执行的绊脚石」