当你不小心打开了 github, 惊喜地发现这是一套面向新手和有经验开发者的免费 api 开源项目, 它可以给你提供各种 api 接口,像动画、艺术认证、授权、商业词典等等 api, 而且还可以按照类目分类解锁,含盖五十多种分类,几乎覆盖了所有能用到的场景。那么,恭喜你成功拥有了一个免费的 api 接口仓库。
粉丝9.2万获赞34.7万

万万没想到, dhtab 上这个狂揽三点九万星标的神仙开源项目 public epis, 居然藏着四十多个领域的免费 ipi 接口。不管是动画艺术 授权这类小众接口,还是区块链、商业云存储这类硬核接口,这里全都有,并且每个接口都标注了描述、认证等信息,拿来就能直接用,做项目再也不用愁没数据。


需要大规模、高质量数据集来训练你的机器学习模型吗?可能你还没有发现这个宝藏平台,它几乎整合了计算机视觉领域你能想到的全部数据资源。 被誉为全球规模最大的开源视觉数据集与 api 集成库。该平台搭载无人机、农业、土木工程、医疗影像、机器人、自动驾驶等多个前沿行业,汇集了超过二十五万个经过微调的模型,一百万个以上数据集,以及包含超过十亿张图片。 无论是图像分类、目标检测还是羽翼分割,这里都能找到标注规范、场景丰富的对应资源。更便捷的是,许多项目支持直接在线体验预训练模型效果。 你只需上传本地数据即可实时测试模型表现,显著降低前期实验和效果验证的成本。这个平台全球最大的开源计算机视觉数据集和 a p i 集合,需要的同学评论区或者主页自取。


logoai 是 一款开源且完全免费的本地化 ai 框架,致力于让用户能够在个人电脑或本地服务器上完全离线运行各类大型 ai 模型, 实现真正意义上的自主可控与私有化部署。其核心设计秉承本地优先的理念,所有模型的推理过程与数据处理均在本地环境中完成, 无需连接任何外部网络,从而在根源上确保了数据的私密性与安全性。该框架具备出色的硬件兼容性与资源适应性, 尤其适合在计算资源受限的场景中使用,即使仅依靠普通的消费级 cpu, 也能通过高效的模型量化技术流畅运行多种主流模型, 显著降低了对高端 gpu 的 依赖。此外, local ai 集成了丰富的多模态 ai 能力,全面支持文本生成与对话、语音合成与克隆、图像绘制与编辑, 以及文档与知识库的语义剪索等多种智能化任务,为用户提供了一个功能全面的本地 ai 工作站。针对开发者, local ai 完全遵循 openai api 规范设计, 可作为 openai 服务的直接替代方案实现无缝迁移。用户只需在本地部署环境中配置相应的 apikey, 即可通过与原版 openai 兼容的验证机制和接口格式,直接进行模型调用与集成开发。这一特性大幅降低了将现有应用迁移至本地环境的难度, 缩短了开发和调试周期。因此, local ai 尤其适合对数据隐私有高要求、需要完全内网或离线部署的企业与机构,以及追求自主可控、 希望灵活定制 ai 功能的开发者和技术爱好者,他能够在完全私有的环境中提供稳定、高效且高度可定制的 ai 服务支持, 是构建安全可靠、智能应用的理想基础平台。以上内容由润城 ai 制作,声称润城 ai 致力于为企业提供全方位的人工智能解决方案, 业务覆盖从底层算力到上层智能应用的全链条技术支撑,提供一站式服务,满足从内容创作到技术基建的多样化需求,全方位助力企业迈向智能化未来,助力客户实现智能化升级。 如果你觉得我说的有用,欢迎您关注、点赞和收藏,您的支持是我们继续更新最大的动力!

找免费 a p i 不 用东奔西跑!今天分享神仙仓库 publickey 全球免费 a p i 资源全汇集,开发效率直接翻倍!三百八十六 k star 必须收藏,打开就上瘾,几十种分类全覆盖,日常开发到小众需求一网打尽。做 a p p 做网站,做小程序, 精准找对应 a p i 不 用再搜引擎碰运气,基础功能,不用造 ip 定位用 app stack 天气,查 weather stack 手机号验证 number five 汇率股票数据全配齐,直接调用,省超多时间。 创意项目有灵感,像做游戏用 piklata's p i 八宝可梦数据,做动漫网站用 studio ghibli a p i。 找素材九 k p i 加趣味功能,创意落地,超简单开发,测试不卡壳 i c t 拼调试接口 marky 生成模拟数据 g s o emplace hold 称原型开发从调试到上线,全流程助力新手练手老手杆项目个人作品、企业应用全 hold 得住,省时间省成本,免费开源,还更新,谁用谁夸!

open code 是 一款开源的 ai 编程 agent, 它的最大特点是美纠有着高频率的更新频率,最主要的是还有最新的 skills 功能。首先去 open code 官网有一键安装命令, 然后打开 cmd 命令行窗口,粘贴后回车 安装完成。后续目录下找到 opencode json 文件没有就新建一个, 双击打开后粘贴配置内容。这里以 cloud 模型为例, 非 c 幺六结尾一定要加 v 一 kpi 要换成在 g 导创建的 api, 如果要添加多个模型,像这样添加, 找到一个项目,输入 open code models, 找到 g 导模型, 回车切换模型。

这才是 ai 时代的 a p i 开发管理利器,一句话就可以自动给你批量生成对应功能的接口了,而且对现代 ai 应用的流逝输出接口也毫无适配, mark 起来轻轻松松,直接秒杀 postman 和 ip fox, 所有付费功能全部免费!最重要的是完全开源,而且团队写作、离线使用,大咖部署应用客户端和 web 版本全部支持。就是这个 p i flow 界面也美观,清新脱俗,用来管理接口文档真是太爽了,主播又要偷偷领先大家了!

阿拉玛这种工具适合个人在本地常签,但如果你的业务场景涉及到生产环境的高迸发,或者需要把大模型部署成稳定的 api 服务, v l l m 是 目前最强的开源方案,没有之一。数据对比非常直观,相比于传统的 transformers, cool, v l l m 的 吞吐量直接提升了十到二十三倍。这就意味着,在同样的硬件上,你能处理的请求量是以前的十几倍。 不管是显存利用率还是延迟控制,它都把性能压榨到了硬件的物理极限。只要你追求生产级别的稳定性, v l l m 就是 现在的标准答案。 v l l m 为什么能比别人快十几倍?核心秘密就在于它对显存的极致压榨。在大模型推理过程中, 最大的瓶颈其实不是计算速度,而是显存,特别是存储上下文状态的 k v catch。 在 传统的 transformers 模式下,系统为了保险,必须预先流出一大块连续的显存。这就像住酒店,明明只有一个人,非要包下一整层楼,导致大量的显存碎片产生, 真实的利用率往往只有百分之四十到六十。 while l l m 搞了个 page attention, 这招其实是抄了操作系统的作业,也就是虚拟内存的分页技术。它把显存切成固定大小的小块,允许非连续存储。 这就好比把所有零散的空房间都利用起来,随用随取,直接把显存利用率干到了百分之九十以上,减存不浪费,能同时服务的并发请求自然就成倍增加了。 解决了空间问题,再来看时间效率。传统推理有个大毛病叫静态 p 处理,这就像坐公交车,必须等全车人都上齐了才发车,或者必须等车上最后一个人下完了才开门,中间有大量 gpu, 时间是在空转等待的。 l l l m 引入了 continuous fetching, 也就是动态批处理。他的逻辑是迭代级调度,谁先处理完谁先走,腾出来的资源立马让星请求补位,让 gpu 始终保持在满载状态,绝不摸鱼。再加上张量病情技术,让多张显卡像一张卡一样协同工作, 以及量化技术把模型体积压缩百分之六十,这一套组合拳打下来,吞吐量直接翻了二十多倍, 这就是它能在生产环境立足的根本原因。搞定原理后,我们直接看部署。这里我给大家一个建议,如果你是在公司搞生产环境,千万别用 pad 直接安装 那个 cuda 版本,依赖能折腾你一整天。直接上 doc, 这是最稳的方案,官方镜像已经把环境都打包好了,开箱即用。看屏幕上的 doc 命令,有两个地方要特别注意,第一,一定要加上 gpu 扫参数,不然容器里是读不到显卡的。 第二,也是最容易忘的,要把宿主机的 hugging face 缓存目录挂载进去,大模行动不动几十个 g, 你 不挂载的话,容器重启模型就得重新下载,这在生产环境是绝对不能接受的。 环境跑通之后,我们来启动服务。 v l m 最讨喜的一点就是它原生的 open ai 接口兼容性, 你以前用 open ai 写的代码改个 u r l 就 能直接无缝迁移过来。启动命令里有几个参数决定了你的服务能不能稳住。首先是 serd model name, 给你模型起个简单的别名,方便客户端调用。然后是这个 tensor parallel size 张量,病情大小,这个参数必须对应你的显卡数量。 如果你有两张卡想一起跑一个大模型,这里就填二,填错的话服务直接起不来。最后是显存利用率, 默认是零点九,也就是他会预先吃掉你百分之九十的显存作为缓存。如果你的机器上还有其他程序在跑,记得把这个数值调小一点,防止显存溢出。只要服务起得来,剩下的就是调优。不同的业务场景参数配置完全是两个逻辑。先看最常见的聊天机器人, 比如智能客服,这个场景的死穴是延迟,用户发一句话必须马上回复,哪怕慢半秒,体验都得打折扣。所以我们的策略是牺牲吞吐延迟。看配置,我故意把最大并发症压到了三十二,这好像很浪费。显卡其实不是 并发低了,每个请求分到的算力就多了,排队时间也短了,响应自然就快。同时把最大上下文长度限制在四千零九十六,防止有人恶意发长文本,把显存撑爆,影响其他人的体验。做实时服务吻合,快比什么都重要。 第二个场景完全相反,如果你是做长文档分析,比如丢给模型一份几十页的财报,让他写摘药,这时候延时就不那么重要了。核心任务是不准报显存。长文本是显存杀手, 因为 kvatch 的 大小是随长度限性增长,这时候配置思路要变,我们要极致压榨显存。看参数,我把显存利用率直接拉到了百分之九十五,给显存留的余地非常小。同时最关键的一点, 一定要把最大并发症降下来。这里我只设了八,为什么?因为每一个并发症请求都带着巨大的上下文,显存根本扛不住几十个长文档同时跑。这里就是用并发症换长度,确保任务不挂才是第一位的。第三种场景是离线批处理, 比如你半夜要把一万条新闻打上分类标签,这时候没人盯着屏幕等回复。所以别管延迟,我们的目标是吞吐量,也就是一小时能跑完多少条数据。 这时候就要把 v l l m 的 优势发挥到极致了,直接把最大病发数拉到幺二八甚至更高,只要显存没爆就往死里加。这个逻辑就是让 g p u 永远处于满载状态。前一个请求刚算完一半,后一个请求马上填进来。 利用 continuous batching 机制,把蒜粒吃干抹净。这种配置下,单条请求的响应时间可能会变长,但整体处理效率是最高的,蒜粒成本也是最低的。最后一种情况,如果你要上七十二 b 或者更大的模型, 单张显卡肯定塞不下,这时候必须上多卡,用到张量并行启动命令里最关键的就是 tensor parallel size 这个参数, 你有几张卡想参与计算,这里就填几。比如两张 a 幺零零跑七十二 b 的 模型,这里就填二 l m, 会自动把模型权重切分到两张卡上,计算的时候也是两张卡同时动。这里提醒一点, 多卡推理对显卡之间的通信宽带要求极高,最好是有 mv link 的 机器,如果是普通的 p c i e 连接,性能会有折损。 配置这个参数的时候一定要小心,数字填错了,服务是百分之百起不来的。刚才聊了多卡部署,但如果你手里只有一张普通的消费级显卡,又想跑七币甚至更大的模型, 量化就是你的救命稻草。 v l l m 原生支持 a w q 和 g p t q 这两种主流的斯比特量化。以 q n 二点五七 b 为例,原本需要十四 g 显存才能跑起来,量化之后只要四 g 左右。这就意味着你甚至可以在一张八 g 显存的家用卡上跑得很溜, 而且还能保持八千长度的上下文不爆显存启动方式很简单,在命令里加上 quantization q 参数, v l l m 就 会自动加载优化后的计算算子,这是目前性价比最高的部署方式。听到量化,很多人的第一反应是,模型是不是变笨了?咱们直接看实测数据,无论是 awq 还是 gptq, 在 qone 二点五上的性能损失都控制在百分之三以内。 在实际的对话或者摘药任务中,这种微小的差距人眼几乎感知不出来,但是他带来的收益是巨大的。你只用了百分之三的精度损失,就换回了百分之七十的显存空间。在生产环境里,这就意味着你可以用同样的硬件支持多好几倍的并发症请求。 我个人的建议是,除了对精度要求极度苛刻的科研场景,生产环境直接无脑上 a w q 格式,它的推理速度和稳定性在 v l l m 上是经过充分验证的。模型跑起来了,接下来看怎么在代码里挑它。 c o l l m 最懂开发者的一点就是它完全套用了 open ai 的 api 接口标准。这意味着你以前写好的各种 ai 应用,只要把请求地址改成你本地服务器的八千端口代码一行都不用改,就能直接从闭源接口无缝切换到本地的大模型。 你可以先用这个 curl 命令跑一下,看看服务通没通。在正式开发时,直接用官方的 openai 拍层包,把基础地址指向本地密要随便填一个站位符就行。这一套逻辑下来,对开发者来说几乎没有任何学习成本。 当然,在生产环境里,单次调用只是基础。为了让用户感觉模型响应更快,你必须开启流时输出,设置参数里的 stream 等于 true, 模型生成的每一个字都会像流水一样及时跳出来,而不是憋半分钟才出一大段话。这种交互体验的提升是质的飞跃。 如果你的业务涉及到海量数据处理,比如要同时给一百个问题生成答案,千万别写个循环去一个一个调,这样太慢了。利用排查的异步功能,配合异步版本的客户端,用一个该的函数 把任务并发抛给 v l l m。 得益于我们前面讲过的连续 p 处理技术, v l l m 会在底层自动帮你把这些请求打散、重组,压榨干每一滴 g p u 算力, 这才是高病发服务的正确打开方式。服务跑起来只是第一步,能不能用好,全看怎么调优。咱们把场景拆成三个方向, 第一,如果你显存经常报警,随时可能溢出,这时候别犹豫,直接把上下文长度 max model learn 砍一半,或者干脆上量化模型,这是最立竿见影的。 第二,如果你追求极致的吞吐量,比如离线处理海量数据,那就把泵发数 max nums 往死里拉,拉到显存的边缘为止。 第三,如果你是做实时对话,一定要把泵发数降下来,泵发太高,会让单个请求的排队时间变长,延迟就上去了。另外提一嘴, v l l m 还支持投机解码,就是用一个小模型在前面探路,大模型在后面验证,配合得好,能让推理速度再快个百分之三十。在生产环境,裸跑是大忌,你必须得有监控。 v l l m。 开启监控非常简单,加一个 enable matrix 参数, 它就会在 matrix 路径下暴露 prometheus 格式的数据。在这一堆指标里,你只需要死盯着两个看。 第一个是 jepcash usage perk, 也就是 kvcash 的 使用率。这个指标如果长期顶在百分之九十五以上,说明你的显存已经到极限了, o o m 随时会发生,这时候要么降并发,要么加显卡。第二个是 number quests waiting 排队请求数,只要这个数大于零,就说明你的服务器处理不过来了,用户正在排队,延迟肯定在飙升,这时候就该考虑扩容了。 最后聊聊怎么救火,最常见的肯定还是显存溢出 o o m。 遇到这种情况别慌,单板斧,第一把显存利用率参数往下调个百分之五。第二把上下纹长度限制死。 第三,检查你的张量并行参数是不是设错了。为了让大家少走弯路,屏幕右边我放了一个标准的 doc compose 模板,这里面已经把显卡、透传卷、挂载、启动参数都配置好了。你在服务器上把这个文件存下来, 以后部署任何模型,只需要改一下模型名字,一个 docker compose up 命令就能直接起飞。好 v i i m 的 部署和调优就讲到这,有了这套方案,你的大模型服务才算是真正具备了生产力。

今天给大家介绍一个好用的开源气象 api, 叫做 open mito, 我 们直接搜索就可以找到这个网站,点进来之后这里有个 try 的 api here, 可以 看到这里是有很多不同的数据的这个字段, 而且都是包含不同的这个分辨率的,然后我们看一下用拍省是怎么获取他的数据的。我们需要用到这些字段,首先是经纬度,然后是时间范围, 接下来是这个时间分辨率以及所需要的字段,时间分辨率的可以有 daily 或者 2 字段,可以回到网站那里去看。下一个是时区,一般来说用自动时区就可以了, 我们看获取之后的数据就是这个形式,得到日期也就是时间, 还有我们想要获取的字段,利用这一个 api 我 们可以可以获取想要的数据集,或者是去做一些自己想做的小工具。

总有人问,当 ai 服务的调用如潮水般蔓延,我们该如何在赋予便利的同时,不失去对成本的掌控,对安全的守护,对每一次交互的明晰追溯?今日,我们便借 lin proxy 这方寸之作,观其如何以 api 管理与网关结偶的清量架构 回应这番扣问。第一,重见自己。 lin proxy 是 一款开源 ai api 管理网关, 专为额度管控、用量统计、日制追踪而设计,即架构中网关仅负责独取 admi 模块,专司写入二者分离而协奏无庸于 api 调用之类,却具备独立部署与引进智能。 它在技术演化的长河中,并非颠覆巨浪,而是净水流深,补全了 ai 服务规模化落地时那最后一环的管理拼图。第二,重见天地。场景一,企业内部 ai 服务分发 起初的困局,部门间共享同一 ai 服务入口,资源消耗混沌不清,调用失控如暗流涌动,成本难以归因权限,如无墙之城技术的浮照 l l m proxy admin 以 api key 为令箭,为每个部门设定额度上限,用量耗尽即止, 网关实时验全日制悉数落库,一切调用有迹可循。真实的回想,某团队接入后,月度超额调用归零各部门用量,可视化资源分配,从增值走向共识 芦边的鱼丝。这不仅是额度的约束,更是将混乱的资源流梳理为可对话的秩序。场景二, ai 服务商业化运营 起初的困局,对外提供 api 服务时计费粗放,日之散落异常,调用难追溯,服务如敞开之门,却无守夜之任。技术的浮照依照多维度统计,用量清晰可击,全链路日记记录,从调用时刻至返回内容皆可审记回溯, 真实的回想,一家 ai 初创,借此实现按调用量精准计费,跃级纠纷降至零,服务可信度显著提升。炉边的鱼丝,这不仅是一套计费工具, 更是将信任编织进每一次交互的脉络之中。第三,重见众生。若你愿将此物纳入你的技术战中, 可治 github 仓库取经,支持 docker 一 键部署,一可二禁止运行,只需埋 c 库存根本 radis 作缓存,便能利其服务。其开源之身、易得之心, 正是传心之智的体现。若这番炉边液化,让你对 api 管理与服务网关的造化之理有了新的体悟, 请将这份心火传递给更多在 ai 服务化、规模化之路上跋涉的同道。炉火长明,造化不息,每一次理性的分享,都是在拓展技术的边界。开源之道,不在藏风,而在传心。我是司炉人,莫行僧。

最实用的开源项目来了,它汇集了最全球各种免费开源的 a p i, 已经有三十九万 star。 从 ip 定位到全球航空数据,你只需要调用所需的 a p i, 就 可以轻松节省工作量,目前还在持续更新快充。