之前已经记录了在我的windows中使用WSL部署大模型,随着全员接入deepseek,再做一个使用版
1、安装ollama
官网下载链接,客户端支持Mac、Linux、Windows。傻瓜式安装,跟着下一步就行。
Linux:curl -fsSL https://ollama.com/install.sh | sh
如果是非x86系统,需要AMD GPU调整等可参考官方文档:
Linux安装说明:https://github.com/ollama/ollama/blob/main/docs/linux.md
Docker部署说明:https://github.com/ollama/ollama/blob/main/docs/docker.md
我的是NVIDIA的GPU,根据文档安装对应组件包后启动容器:
例:apt安装组件:
1、配置存储库curl -fsSL https://nvidia.github.io/libnvidia-container/gpgkey \
| sudo gpg --dearmor -o /usr/share/keyrings/nvidia-container-toolkit-keyring.gpg
curl -s -L https://nvidia.github.io/libnvidia-container/stable/deb/nvidia-container-toolkit.list \
| sed 's#deb https://#deb [signed-by=/usr/share/keyrings/nvidia-container-toolkit-keyring.gpg] https://#g' \
| sudo tee /etc/apt/sources.list.d/nvidia-container-toolkit.list
sudo apt-get update
2、安装 NVIDIA Container Toolkit 软件包sudo apt-get install -y nvidia-container-toolkit
#运行ollama容器
docker run -d --gpus=all -v ollama:/root/.ollama -p 11434:11434 --name ollama --restart always ollama/ollama
安卓安装ollama:可安装termux来部署,不过除了是本地化外没什么别的优势。
2、开启外部访问服务
如果只是设备本身本地使用调用,则默认开启服务端口就是localhost:11434,直接进行调用即可。
# 若需要外部访问ollama服务,需使用以下环境变量
export OLLAMA_ORIGINS=*
export OLLAMA_HOST=0.0.0.0
# 启动ollama服务
ollama serve &
ollama pull deepseek-r1:8b #正常16G内存电脑大概率能带起来
拉取喜欢的镜像,一般家用电脑,8G内存的话,可以先试一下7B模型,如果显卡的显存大于12G的,可以试下14B模型。想尝试的,内存+显存>40G的,可以试下32B,说不定呢哈哈哈。
#官方建议
您应该至少有 8 GB 的 RAM 来运行 7B 型号,16 GB 的 RAM 来运行 13B 型号,32 GB 的 RAM 来运行 33B 型号。
可以参考下我的配置:服务器垃圾内存条64G DDR4 2400频率,显卡4060Ti 16G,二手CPU E5-2680V4*2。
运行32B模型,内存新增占用20G,GPU新增占用14.6G,全程使用CPU计算,显卡无用😂,2.58 token/s
运行14B模型,内存新增占用8G,GPU内存占用10.8G,全程流畅CPU、GPU工作,23.38 token/s
运行8B模型,内存新增占用5G,GPU内存占用6.5G,全程流畅CPU、GPU工作,40.66 token/s
3、调用
最简单的方式,使用网上集成的开源web界面。
mac可以使用:Enchanted (macOS native)下载地址
windows or linux 可以使用docker部署 open-webui
docker run -d --network=host -v open-webui:/app/backend/data -e OLLAMA_BASE_URL=http://127.0.0.1:11434 --name open-webui --restart always ghcr.io/open-webui/open-webui:main
#网络设置host,绑定宿主机网卡,可以直接在宿主机访问http://localhost:8080使用
#创建open-webui卷,方便数据存储不丢失。
#设置环境变量,指向之前ollama服务开启的地址和端口
#设置容器名称
#设置容器自动重启开机就运行
4、调整
open-webui使用起来也很简单,有中文,可以设置管理员,权限等,支持多个模型同时输出对比。
简单介绍一下基本使用。
1、调用外部api
左下角管理员面板—设置—外部连接—OpenAI API点击添加
输入对应api的基础地址,输入api密钥,添加需要的模型ID,保存。
#例:阿里云:
URL:https://dashscope.aliyuncs.com/compatible-mode/v1
密钥:sk-*************
模型ID:deepseek-r1;qwen-max;需手动输入单独添加,不然会加入全部的模型到列表
2、使用别人的预设模型
左上角新对话下边 工作空间—模型—发现更多模型—可以注册登录后一键导入,或者下载json文件导入
3、知识库、提示词、工具
知识库可以上传你自己的文档,进行个人模型构建。
提示词可以在对话中使用 / 调用
工具可以在对话中进行 + 选择
5、远程访问
部署在家里的主机上了,要是工作时间访问,可以直接向日葵远程家里使用。但是毕竟搞出来也不容易,分享给对象使用也能减轻一些自己的心理压力(我绝对不是因为游戏买的显卡🙋♂️)。
远程访问的话,原理也很简单:
外部访问—–公网端口—–内网主机http端口。
网上有很多免费内网穿透的工具,基本上都是通过公网端口转发来实现。
有云主机公网IP的话会很方便,打通家中路由器和云的隧道,在云上搭建nginx反向代理直接转发到家中,再映射到主机的web端口。自此,就可以通过域名直接访问进行使用了。