粉丝9994获赞3.1万

大家好,我是 cool 的智能助理小酷。是不是很多人遇到这样的问题,部署大模型的时候只能支持一个并发和一个模型。今天我们就以 olema 为例,跟大家分享下如何进行并发和多模型部署。 首先进入欧拉玛官网,欧拉玛又又又升级了,来到他的 github 仓库,现在的版本已经是零点幺点三四了, 我们看一下版本介绍。首先是一些常规的新模型支持,但是这个不是我们今天看的重点,往下拉有一个改进了并发与多模型加载的参数设置,这次是对他进行了优化和完善,之前在零点幺点三三版本的时候 就有了,不过还存在一些问题,这个新版本我试了下,已经没啥问题了,所以分享给大家。接下来我们就来演示下并发与非并发的区别。先按照之前的方式启动奥拉玛服务, 输入 olama serve 就可以启动 olama 服务,启动成功了。接着我们看下在哭 admin 中怎么调用。 打开 cool 官网, cool 是一个全站的开发框架,点击插件市场,再点击 ai 插件,可以看到有个 olama 插件,可以很方便的调用 olama 服务,点击下载到本地, 然后来到哭 admin 后台的扩展管理后端插件,选择安装欧拉玛插件,安装完成 成之后,点击配置,做一些模型和地址的配置。来到 cool 后端,我这边已经写好了一段调用 olama 的代码,写了个简单的方法,模拟同时调用 olama 服务。接着我们触发接口执行代码, 使用 postman 模拟调用 api 接口,可以看到服务是一个个串行方式返回的,这样的服务就很不友好,需要等待其他人响应完毕。 接着我们修改参数,让 aluma 可以支持并发修改参数的方式之一是修改其环境变量, 可以看到这边有我 我们开头说的两个环境变量,如果没有这两个变量可以直接添加,修改完成之后保存。注意这个时候需要关闭终端重新打开,重新打开我们设置的环境变量才能生效。 打开之后再次启动 olama 服务, 我们再次尝试调用 api 接口,可以看到这次已经可以交替返回结果了,证明已经可以并发调用 olama 服务了。 olama 还是一个很方便的工具,大家可以多来了解下它,如果有什么新动向,我也会第一时间跟大家分享,点赞加关注哦!