让你部署一下智府开源的 auto golem 模型,让老板体验一下用 ai 操作手机,你说啊? no, no, 最后不是各种报错就是显存不足。 那我问你,面试的时候你不说你是计算机高材生吗?回答我,你就打开这个 auto golem 手机 ai 助手登录一下, 没有就去免费注册一个账号。然后先按提示把安卓手机开好,开发者模式和 usb 调试,插上数据线,或者在无线连接那里输入手机 ip 和端口,点一下连接或者首次配对等上面设备状态从检测中变成已连接。 接着在 a p i 服务商这里选好你要用的服务,比如智普或者魔搭,在旁边的输入框里粘贴你的 key, 如果不懂就点一下 a p i 申请教程,照着教程免费去申请一个。然后下面任务指令这一栏, 直接把你想让手机干的活用文字表达清晰,点击开始执行,这三分钟不到,就把复杂流程跑完了,你学会。
粉丝2056获赞2344

免费了,不要三四九九,也不要九块九,不包手机的平替智普的开源项目 open auto gm, 配合它的开源模型 auto g o m 九 d, 咱们也能实现手机 agent 的 自由。我用手上这台安卓手机和 mac 电脑搭好的环境,让他来帮我购物, 这是执行效果,提示词是在淘宝上找到帮宝适黑金刚 l 码最低价的商品,加入购物车,然后发微信告诉我商品选好了。我来看看。这套开源方案和豆包手机最大的区别有三点,第一, 一,运行级别不同。开源方案只能在前台运行,豆包手机可以在后台自己默默的运行。第二,手机的便携性不同。开源方案手机和电脑必须用数据线连接,或者是在同一个 wifi 下,豆包手机可以只拿着手机到处走。三、智能程度不同。 开源方案接的是九 b 参数的小模型,能完成大部分的基础场景,但是极限智能比不上豆包手机。推荐两种适合的使用场景。 场景一,操作电脑忙不开的时候,比如快下班时提前叫车,当同事还在等车的时候,你已经上车回家了。场景二,需要在手机上多个 app 之间切换,收集数据,分析并且最终操作手机的场景。比如说在双十二购物选择最低价格商品时,我的微信收到消息了,任务完成。 牛逼!那么这么牛逼的手机, a 镜的方案会不会很难配置呢?完全没问题,我摸索了一套极简方案,只需要一行命令和一句话就能配置好。 首先看我这期视频,一行命令把 cloud code 安装好,然后打开 cloud code, 告诉他这句话,一路点同意就能安装完成整个配置过程,需要用数据线把安卓手机 在电脑上这么简单都能就能搞定,快去配置一套试试吧!你还有什么场景想用手机 app 来解决的?详细的安装过程和常见问题我会总结成文档,方便大家查看。关注我,玩转 ai 编程。

智普 ai 开源了新一代语音识别模型 g m l a s r。 我 们通过实测看一下它音频识别的效果。我们准备了三个音频 广播、粤语和会议,对比它和千问三 a s r。 模型的处理效果。我们使用的是五千零六十 t 十六 g b。 显存的显卡,我们先处理官方的视力文件,一个纯英文,一个低音中文。 be careful, not to allow fabric to become too high, which can cause shrinkage or extreme cases scorch。 我 们看到用了约五 gb 的 显存, 我们对比它与千问三 a s r。 模型的处理效果。针对标准清晰的英文朗读场景,两个模型的识别都非常准确,没有出现错误。下一个视力对低音中文的处理效果。目前为止, 两个模型的识别都非常准确。下面加大难度,用我们准备的测试音频这一个传递的时间,时间就是传递的人光,自然熟悉,不可一致。广播识别对于这个二十七秒的音频, g l m a s。 二、识别内容用时十三秒,但它并没有正确识别出音频里面的文字,出现大量团结错字,而千问对这段音频识别效果明显更好,句子的连贯性和文字的准确性都优于 g l m s。 二、我们继续测试对于粤语的识别能力。外出返屋企痛,遭完农活之后 要及时洗手,要用流动嘅清水同番碱或者洗手液反复冲洗,每次冲洗时间唔少于十五秒。三、屋企要经常通风透气,保持居所干净整洁,及时清除积水污。 识别这个一分十四秒的音频,用时十三秒。看一下模型的处理效果,正确识别到了粤语的特征,但也有识别错误和模糊的地方。大部分粤语词汇正确, 个别词汇有歧义。 g l m a s r 对 粤语的识别能力确实不错,核心粤语词汇都能准确识别千问,直接将文字转化成了简体字。大部分词汇正确,也存在个别错别字。整体来说, g l m s r 作为开源方案已经非常出色,也证实了官方宣传的深度优化。粤语 多人会议测试模型,在多人交谈、有背景噪音且包含大量口语的复杂环境下的中文识别能力。是那个,那个叫什么衣服?对对对,在聊在聊, 但是我,我怎么看呢?你哪个字?就是就是 nba 这个断掉之后对吧?然后我这个气,我这个气泡不会给你,立马去掉,每个人会给你加一个字啊,加一个字标识他这个。这个设备 一分三秒的音频,用时约八秒。可以看到两个模型都识别出了大部分词句,也存在错别字,判断字断等没识别出来。 g l m a s r n o 是 智普十二月十日开源的新一代语音识别模型,采用一点五 b 参数的紧凑架构,在保持高效的同时,实现了搜 t a 级别的识别准确率。方言支持深度优化粤语等方言识别,填补了开源领域的空白。专门针对低语、轻声场景训练, 识别能力领先仅一点五 b 参数,达到平均错误率四点一零的 s o t a 性能。看一下官方对比表,在中文机准测试中表现超越 whisper v。 三、对比的五大场景包含中文会议场景、中文基础场景、英文清晰场景、 英语多领域多口音场景。最后给出一个综合评分直观的展示模型在中文英文、安静环境、嘈杂环境下的整体性能。注意图标下的注视数值代表字错误率或词错误率,数值越小代表错误越少,识别越准,这说明其性能表现优异。对比分析, 这三个模型只有 whisper v 三原声支持时间轴。 g l m a s r nano 的 优势在于中文和方言识别准确率高, 参数效率优秀。 whisper v 三工具生态成熟,时间轴功能完善,通用千问三 a s r 支持中文、英文、日韩法等十一种语言,可提供专业术语、人名等上下文,提升识别准确率。支持歌声识别、噪音环境使用限制,单次请求小于等于三分钟 小于等于十 n b。 使用建议,如果是纯文本转录,建议使用 g l m a s r, 中文准确率更高, 完全免费。需要字幕和时间轴的场景,建议使用 whisper 商业 api 服务选择千万三 a s r 技术亮点, g l m a s r 基于 transformers cool, 开箱即用,即将支持 v l l m s 智朗等推理框架。官方提供完整的视力代码。适用场景, 会议转录、复杂升学环境下的多人对话、粤语等方言地区的语音应用、低音量环境、深夜录音等特殊场景。模型小巧,适合资源受限环境。本地部署指南显存要求,我们实测用了五 gb 左右显存,我们的 rtx 五零六零 t 处理一分钟音频约六到八秒,首先 get 不 上克隆项目建议创建独立的虚拟环境,安装依赖 example 文件夹,给出了两个视力音频,直接运行会自动下载模型约四点五。 g b 非标准格式音频建议优先转化。实用限制, g l m s r 目前不支持时间戳输出,仅输出纯文本,如需时间轴,需配合其他工具,但处理流程复杂 且处理时间更长。工具生态刚开园五天,配套工具尚不完善。最后总结一下 g l m a s r。 的 核心优势,中文方言识别准确率业界领先,参数效率高,适合资源受限场景,低音量场景识别能力突出, 完全开源,可自由部署。当前不支持时间戳输出。工具生态尚未成熟,推理框架支持有限适用人群,中文语音识别、方言识别需求,边缘设备部署纯文本,转录场景,低音量环境。希望本期视频对您有所帮助,我们下期视频再见!


今天出一期智谱开源恋爱手机的教程,点击进入这里,我已经登录账号了,直接搜索智谱的这个项目, 下面有文档可以查看。 点击 code 选择下载方式, 可以使用 get 下载,打开终端,输入这段命令即可,没有 get 可以 直接下载压缩包使用。 看一下项目介绍以及如何使用, 有条件的可以自己部署模型,没条件的按照我下面的步骤操作。 第一步,查看 python 环境版本,三点一零以上 win 加二输入 cmd, 打开终端, sim 版本是三点一二,满足条件需求。没环境的去下载安装 top 杠杠 w 点 python, 点 alt 杠 download 杠。下一步, 按 d b 安装,直接点击第三方教程,按照步骤一步一步来, 我这里的环境变量都已经配置好。 第三步,要在手机上进行操作,按照步骤一步一步来 打开终端,输入 app devices, 跟我一样现实设备信息就说明成功了, 不择这两行命令去安装依赖 打开终端直接粘贴命令即可。 这个项目是之前下载的,解压缩打开即可。下一步,使用官方的模型,点击链接打开申请蜜柚, 我的账号已经是登录过的了,先去申请注册,然后创建蜜柚。后续要用 打开之前下载的项目修改 ipi, 并设置模型, 设置密钥 忘记一步,安装 app padboard, 直接点击,然后下载在手机上安装 手机输入法中启用,最后点击运行即可。

就在昨天,全世界所有的安卓手机都可以用上真 ai 了,中国的智谱正式宣布啊,他们把全世界第一个为手机而生的通用 agent auto gm 给开源了,是的,完全免费开源了。也就是说,从今天开始,世界上任何一台安卓手机啊,都可以用 ai 来完全操控了。 ai 会自己看屏幕,理解界面,然后自己规划思考, 最后模拟出你手部的点击,滑动输入,帮你完成各种各样的操作,而你全程都不需要碰屏幕,完全交给 ai 就 可以了。现在我跟 ai 说帮我点三杯冰美式, 看,他就可以自己思考自己操作了,一步一步点击,完全不用我管,我们再试一个,如果让他对比一下这个显示器在哪个平台更便宜,帮我决定一个,自己下单。然后你看啊,他是真的开始了多步骤操作,现在淘宝搜了一下,然后把价格记下来,然后再去京东搜了一下,把价格记下来,结果还去拼多多看了一圈,然后真的帮我选了一款真的很便宜很便宜的款,这个羊毛真的给它薅到了, 操作的过程就跟真人人手一模一样。最后我们再试一个超级无敌难的版本,我下周六要去长春玩,帮我总结一下这个页面上推荐景点,然后在高德地图上收藏一下这个景点,看一下门票的价格,然后再去一二三六订一张上午实验从北京去长春的高铁票,然后再把香味信息整理好给我,他就开始自己干活,自己搜索,一个一个搞, 打开一二三零六开始帮我看动车票了,而我自己只需要最后付款那一步看一下,确认一下就可以了,你看这个过程是不是真的超级夸张,这个已经不是简单的那种自动化脚本了,而是真的完全用 ai 来去驱动,也就是一个住在你手机里的数字生命。我觉得这个才是我心里面的 siri 该有的样子。 这次可以做到这么猛的效果,也是因为 autim 他 们用上一套视觉语言模型,他可像人一样自己去看懂屏幕上内容,知道哪里是按钮,哪里是输入框,然后再模拟人的点击、滑动、输入这些操作。所以理论上它是可以操控任何一个 app 的, 根本就不需要其他厂家的配合,而是直接变成了一个人类的用户。 我看一下开源社区他们的界面啊,现在已经支持了五十多款主流的 app, 大家关心的微信、淘宝、抖音、 b 站、携程这些全部都可以用。而自古这次把它开源了,我觉得这个意义真的非常重大,因为它解决了一个大家都很关心的问题,隐私问题。如 如果要操作我的手机,那我的聊天记录、支付密码怎么办?而现在因为代码是开源的,所以你可以完全把它部署在你自己的手机跟电脑上,我们就是一台五零九零显卡去跑的, 所有的数据都在你的本地,根本就不会上传到云端。而且有了开发的社区,大家一起去完善这个项目,速度只会越来越快,可以做的事情也越来越多。而从今年开始,像 google、 苹果,还有其他那些巨头大厂,大家都在试着让 ai 真正学会操作手机这件事情, 没想到智普直接在年底就开园了,现在每个人都可以下载来直接用了,所以我觉得二零二六年的手机市场跟 ai 市场啊,应该又会迎来一波腥风血雨了。

来了来了,全网都在找的豆包手机同款 ai 工具,智谱开源 autobot 膜给你们找到了,操作简单而且免费,小白也会试用,同时支持安卓、苹果、鸿蒙。 下面我速分享给大家。首先点视频右下角分享键分享复制链接,然后打开这个工具包, 没有的去下载一个就会弹出资源包,没有弹出的去首页输入鱼饼大全,然后打开这个文件包,右下角去保存就可以了。

智谱开源 ai 使用体验,它相当于在 ai 软件中植入一部云手机,里面所有的软件都跟原手机上的没有关联,需要在原手机上的软件重新登录, 它可以调用原手机的相机,一句话让他发小红书等软件与手机调用原相机启动比较卡 启动购物软件对比价格, 三家软件都启动了, 最后还是去小红书搜索, 这个功能个人觉得比较鸡肋。这个结果启动购物软件的意义是什么呢? 与手机内置没有的软件直接切菜也下载不了, 其他跟手机自带语音助手一样,一句话帮你搜索歌曲播放。现在开元了,等大佬瞧瞧吧!