[实战] 三分钟部署「搭建本地私有AI」|YoHo's Qubit Lab

Ollama 是一个专为在本地环境中运行和定制大型语言模型而设计的工具。它提供了一个简单而高效的接口，用于创建、运行和管理这些模型，同时还提供了一个丰富的预构建模型库，可以轻松集成到各种应用程序中。Ollama 的目标是使大型语言模型的部署和交互变得简单，无论是对于开发者还是对于终端用户。

一键安装

docker run \
  -d --restart=always  \
  -v /data/var/ollama_docker/.ollama:/root/.ollama \
  -p 8082:11434 \
  --name "ollama" \
  -h ollama \
ollama/ollama:latest

配置容器

# 运行ollama
docker exec -it ollama /bin/bash

安装模型

# 运行deepseek-ri：1.5b-70b
ollama run deepseek-r1:1.5b		# ~3GB | 移动端/嵌入式设备、简单对话机器人、实时翻译
ollama run deepseek-r1:7b		# ~14GB | 轻量级客服系统、短文本生成、基础代码补全
ollama run deepseek-r1:8b		# ~16GB | 多语言翻译、中等复杂度问答、文档摘要
ollama run deepseek-r1:14b		# ~28GB | 长上下文理解（如聊天记录分析）、内容创作
ollama run deepseek-r1:32b		# ~84GB | 复杂逻辑推理、专业领域问答（法律/医疗）
ollama run deepseek-r1:70b		# ~140GB | 科研分析、复杂代码生成、多模态任务处理

常用命令

# 查看本地大模型
ollama list
# 查看运行中的大模型
ollama ps
# 删除指定大模型
ollama rm deepseek-r1:1.5b

下载加速

# 修改 ollama 服务配置（需 root 权限）
sudo vim /etc/systemd/system/ollama.service

# 在 [Service] 段添加环境变量（以阿里云镜像为例）
Environment="OLLAMA_REGISTRY=registry.cn-hangzhou.aliyuncs.com/ollama"

# 重载配置并重启
sudo systemctl daemon-reload
sudo systemctl restart ollama

拓展知识

QA：关键差异说明

1.5B-7B：轻量级场景

硬件需求：单张消费级显卡（如 RTX 3060 12GB）即可运行量化版。
用途：适合对延迟敏感的场景（如手机助手、IoT 设备交互），但复杂任务易出错。



8B-14B：平衡型模型

硬件需求：需高端显卡（如 A100 40GB）或量化部署。
用途：企业级应用（客服、内容生成），支持多轮对话和中长文本分析。



32B-70B：高性能场景

硬件需求：需多卡并行（如 2-4 张 A100 80GB）或量化+模型切分。
用途：科研、专业领域（金融/法律文档解析）、复杂代码生成（如全函数级代码补全）。

相关链接

官网：https://ollama.com
开源地址：https://github.com/ollama/ollama

在使用过程中，有任何问题都可以通过以上链接找寻答案。

The cover picture of the previous content

[实战] 三分钟部署「定时任务管理平台」

The cover picture of the next content

[实战] 三分钟部署「开源问答系统」

喜见升卿

「低效的勤奋是懒惰的遮羞布，粗糙的完成是执行的绊脚石」

Hi,Qubit Lab