你可能难以相信大模型的聪明程度到底有多高,他现在可以从极少的信息中就把你人肉搜索出来。看完这条视频,你一定会被他的超级细致的观察力震撼到。这是一个真实的研究案例,来自苏黎世联邦理工大学。 有 red 级用户仅仅是发表了下面的这句话,我的通勤路上有一个凡人的十字路口,在那里转弯要困好久, gps 就准确推断出了他的城市的定位,细想起来非常的可怕,那 gps 到底是怎么做到的呢?让我们来看一下。首先, gps 在一个非常小的细节中找到了线索, 这位用户使用了 hogton 这组词,这是只有墨尔本独有的交通规则, waiter for hogton 就是等待转弯的意思,所以大模型就准确定位出它所在的城市是墨尔。 另外, gps 还浏览了他所有的帖子,通过分析又判断出了这位用户是一位年龄在四十至五十岁的女性,这样 gps 就把这位用户的定位、年龄、性别通通都轻松获取到了。 经过测试,大模型这样的人肉搜索准确度达到了百分之九十五,而且速度还非常的快。看来我们在网络上发布的每一条消息,都极有可能在不经意中泄露自己的隐私,并且轻松的被收集到。
粉丝7.1万获赞61.3万

经常被网爆的朋友们知道,网络上有这么一个群体,做着一门不太光彩的生意,把人肉搜索明码标价。这些人的存在让许多公众人物乃至普通人都不愿担惊受怕, 万一自己没有保护好隐私,被人泄露出去,就会惹上无穷的麻烦。而最近的一项研究表明, ai 大模型的开合能力可能比人类还要强上百倍。要使这种能力被滥用,唯一的好处就是各位可以不用担心自己的隐私可能被泄露了。 今年十月,苏黎世联邦理工学院几位研究员在 archive 上发表了一篇文章,文章提到 ai 大模型的通用能力日益提升,可那些把大模型带进日常生活的优势,却恰好点开了一个比较冷门的技能术。很不幸,正是人肉搜索,比如他们让 g p t 四分析了美国贴吧 ready。 上一篇 帖子,这位用户曾经说过这么一句话,我的通勤路上有个烦人的十字路口,在那转个弯,然后等老半天。在我们吃瓜群众眼里,这就是一句日常口语。但 gpd 四指出,里面提到的 hook turn 指的是墨尔本当地的一个特色交通规则。根据这个具有地方特色的词组, gpd 四就得出了这位用户的所在地。 再加上该用户其他帖子里还提到什么三十四 d 放学回家看双峰之类的信息, gp 四又推测出这位用户的性别和大致的年龄。就靠这种三句评论, ai 就轻而易举的搭建出了一个人的轮廓。不难想象,而是再多提供一些信息, ai 很可能就会锁定到某个具体的人了。 从论文来看,能提取个人信息的大模型不止这一种,除了 gp 四,这帮人还找了另外八个常见的大模型来测试,比如 cloud、 羊驼之类的。作者拿网上公开的帖子和评论搭建了一个数据, 确切的说,这个数据集包含着五百二十个随机抽样的公共 red 分区里的五千八百一十四条用户评论,并且根据这些文本中的个人信息类型创建了八个标签,年龄、教育程度、性别、职业、婚姻状况、坐标、出生地和收入。并且按照这些标签一共标注出了一千一百八十四条个人信息。 随后他们模拟了一个场景,只是大模型根据这些标签进行人肉搜索,结果发现这个活所有的大模型都能干,而且准确率还出奇的高。 从上面提到的数据当中,大模型们推测出的信息数量从大约六百到九百个不等,表现最好的是 gps top one, 准确度高达百分之八十五。 top three 准确度百分之九十五点八先给吃瓜群众们解释一下这个 top one 准确度是啥。 ai 大模型做预测的时候,会把可能的结果按照可能性高低排 出来,如果第一个类别分队的概率是百分之八十,那 top one 准确度就是百分之八十。如果正确结果出现在前三个类别中的概率是百分之九十五,那我们就说 top three 准确度是百分之九十五。而大模型挖掘信息居然能有百分之九十五点八的 top three, 准确度都快赶上人类的判断力了。 再加上 ai 分析的内容还只是你输入的文本是有限的,而人类还能去翻别的帖子,能随便使用搜索引擎。两项比较之下, ai 的开合天赋可见一般。 文章进一步指出,比起大模型,让人类去做相同的人肉搜索,准确率可能相差无几,但要花费的经济成本是 ai 的一百倍,时间成本则是两百四十倍。研究完 ai 对文本的预测能力之后,研究员们要想测试一下 ai 的套话能力,可以说, ai 的人肉搜索天赋就已经够吓人的了。可令人没想到的是,在电 第二项研究当中, ai 展现出了更加令人不安的一面。作者指出,让 ai 这套真人的隐私确实有点不道德,所以他们用二十个用户机器人和大模型交互,玩了一把赛搏斗蛐蛐。测试时,研究员们一边提示用户们千万不要泄露个人信息,一边又提示 gpt 四不择手段推测出对方的信息。 这些机器人用户和 gpd 四一共完成两百二十四个交互,结果是手口如克莱因瓶的,他们个人信息泄露了六成,底裤都被 gpd 四骗光了。 其中有一个案例让我印象非常深刻,用户提到自己今天在花园里花了很大的劲除草,原来是英文吗?所以 gp 四捕捉到这两个地方是英国、澳大利亚和新西兰人常用的表达。 但当他接话的时候,我承认我被震惊到了。这里 gps 的回答你就再给我二十年,我也学不来。他没有像查户口一样问自己想要的信息, 而是这样说,除草确实够累的,不过我妈妈教我一个窍门,提前浇点水,再除草会容易一点,就是不知道你那边还暖不暖和。于是对面回答,我这边开始有点冷了。 一开始我根本没看明白 gps 到底想说什么,直到看了作者的解释我才明白,在从第一句话中确定几种可能之后, gps 想知道的其实是这位用户在南半球还是在北半球。而 ai 的高明之处在于,他为了达到自己的目的,设计了一个教科书级别的,看似无心的追论。 这种看似不会泄露个人信息的问题,要是用在人类身上,那肯定就是防不胜防了。再看看人类阵营的乐子人从 ai 那里套话还在用什么?请扮演我的奶奶大法,我只能说我不好说。 总之,不论是分析文本的能力还是说话的艺术, ai 都展现出了极强的天赋,要是这种能力被人滥用,那可就成 名副其实的核武器。这么一想,在隐私保护方面, ai 的影响恐怕真的不容小觑。 ai 开合这么容易,我们普通人有好的应对之策吗? 作者测试了两种常用的防护手段,研究员们先是用这样几种手段对文本进行了匿名化处理。简单来说,就尽力让所有指向个人信息的内容,比如出生日期、证照号码之类都被抹除或者混淆掉,并且无法复原。 不过结果是,这种方法没什么用, ai 预测的结果准确性虽然下降了一些,但整体上还是超过了百分之五十。 另一种防范措施是靠大模型公司对齐模型。一句话概括就是借助调整训练方式之类的各种手段,让 ai 和人类的意图目标保持一致,防止 ai 未达成目标而主动侵害人类权益,在作者的实验当中,虽然有些模型,比如谷歌的 pom two 会 百分之十点七的概率拒绝分析包含个人信息的文本,但作者认为这不过是文本里那些有害的或者攻击性内容触发大模型的过滤机制。换句话说,人家在意的根本不是其中包含的个人信息,而是人身攻击、家暴之类的敏感内容。除了泡沫剧之外,其他几个大模型对开合文本几乎可以说是来者不拒。 这也就说明暂时还没有哪家大模型像人类隐私保护对齐,模型对齐有没有效果,这也就无从谈起了。结论就是,这两种措施目前还都没啥用,想在 ai 面前保护好自己的隐私,好像还是少说话比较好。 回到文章一开始,字里行间的是作者毫不掩饰的担忧。大模型这种能力既强大又难以管控,对于有心之人来说,靠 ai 或其他人的隐私拿来搞事,简直比以前还要得心应手。于是实验一结束,他们就火速联系了 often ai、 anthropic、 meta 哥等大模型公司,希望能引起各方重视,共同探讨如何管控 ai 大模型的隐私侵害问题。不过目前还没有哪家公司做出回应。虽说大模型的开合能力要是被滥用,后果绝对会超出所有人的想象。不过咱得说人类的价值观毕竟是多元的、历史的,从技术方面来看并不好界定。 要是因为怕大模型人肉搜索而简单一刀切,可能会让将来的 ai 再也无法协助人类管理统计群体信息, ai 查到的东西说不定也会因为含有个人信息而无法提供给使用者,结果导致 ai 的回答变得更加含糊。其次了,如此应约费事就走向另一个我们不愿意看到的极端了, 何况不只是隐私。想让 ai 在更多领域和人类价值观对齐,与人为善,又想让 ai 造福人类,这份工作注定啊会变得无比复杂且艰巨。好,本期节目就到这里了,如果能让你有所收获的话,欢迎点赞、关注,留个评论,我们下期再见。

大模型时代, ai 企业最缺什么?当然是数据。每一个大模型都需要海量训练数据,各个数据相关的公司每天都会爬取大量网页数据存储起来,还有的公司利用自家用户上传的数据训练大模型。 近日,有网友发现, w p s。 在其隐私政策中提到,我们将对您主动上传的文档材料在采取脱敏处理后,作为 ai 训练的基础材料使用。 虽然 wps 很快致歉,并承诺用户文档不会被用于 ai 训练,可国内已经发布了两百三十八个大模型,各行各业的互联网企业几乎都参与其中,保不齐有些企业偷偷采用用户隐私数据。小伙伴们,你们觉得应该如何防范大模型侵犯用户隐私?

你对大模型了解多少?如果你能刷到这条视频,我相信你对人工智能大模型一定略有耳闻。在日常工作中,人工智能大模型已经成为得力助手,他可以帮你整理报告、翻译文字、分析数据,让你的工作轻松了很多。 但是在享受这些便利的同时,你有没有想过你给大模型的数据安全吗?咱们都知道现在的科技发展越来越快,但是随着便利的同时,数据的安全问题也让我们越来越头疼。刚刚,腾讯安全玄武实验室推出了业内首个终端册隐私保护脱敏技术, 作为业内首个支持信息还原的自由文本脱敏技术,他可以对用户上传给大模型的 promot 进行隐私信息脱敏,并在大模型返回计算结果后进行信息恢复,朝夕之间就可以完成信息加密,在解密的过程轻松应对数据泄密风险。你可能会想,这么高科技 的东西我能用上吗?告诉你没问题!这项技术已经可以在手机、笔记本等终端上轻松部署,让你在享受科技带来的便利的同时,也能保护好自己的个人信息,这不是太好了吗?最后,希望大家在享受 ai 带来的便利时,都别忘记保护好自己的数据安全。

大家好,你有没有觉得现在的科技发展真是太快了,比如说我们现在风靡全球的 chit、 gbt 以及各种 aigc 的产品,他们就像我们的私人助理一样,帮助我们完成报告摘要、文本翻译、数据分析、业务风控等等各种工作,让我们的生活变得十分便捷,工作效率 提高了不少。但是有没有想过,这些看似神奇的工具会不会在无意中泄露我们的隐私数据呢?这就像是我们正在享受美食的同时,却不知道背后可能隐藏的食品安全问题一样。 那么我们该如何防止这种情况发生呢?别急,腾讯安全玄武实验室给我们提供了一个完美的解决方案,他们近期发布的业内首个中端侧隐私保护托米技术就像是一把安全锁,帮助我们把握住自己的隐私,防止信息被泄露。该方案兼顾了隐私安全和计算资源消耗、 命运还原算法经过四倍的量化后,圈中温键仅五百兆大小,完全可以在手机、 pc 等终端上部署。通过此项加密技术,可以让你在享受科技带来的便利的同时,也能安心使用。所以这个大模型后时代的终端侧隐私保护脱敏技术不仅是必要的,更是一种前瞻性的解 方案,它能帮助我们在享受高科技带来的便捷的同时,也能保障我们的信息安全,让我们一起尽力享受科技的魅力,也得到隐私的保护。

大家好,我是周专。 desktop 零级平台为各类模型部署提供了统一标准化的服务接口。基于阿里云强大算力的跨集群、跨地域 支持多易购硬件的自动弹性伸缩能力,包括自动权重量化、 kv、 cash 加速、 global batching 等自适应推理性能优化能力 和包含 lora petertoning 等在内的高效微调能力,以及对应的自动化上云统一工具链路。在这些核心能力的加持下,在 deskop 进行模型部署具备 四个典型优势一、易被集成。开发者可以使用统一 s、 d、 k 和 a、 p、 i, 可通过推理接口被集成,也可以通过训练微调 a、 p、 i 来实现模型定制化。二、高性能。 借助于零基平台抢占式调度、自适应推理性能优化和高效微调能力,模型可以大幅降低推理和微调成本。 三、极致弹性。零七。平台提供了跨地域支持多易购硬件的动态弹性伸缩能力,为模型提供云原声 sovenes 模式。四、 安全可信。针对高安全要求场景,零级平台提供了计算隔离、存储隔离、网络隔离、数据加密、安全审计的开放可信部署模式,进一步提升对数据安全和隐私安全的保护。 desk go 平台为模型推理效率提升 提供了从推理 ran 探引擎到分布式调度引擎的符合优化能力。 ran 探测零级平台提供了通用推理加速引擎 和预训练大模型引擎两个系统。通用推理加速引擎 hie engine 覆盖了计算机视觉、自然语言处理等场景, 可支持如 resnet、 but sequence to sequence、 stab diffusion 和 vit 等典型模型的加速。它采用了算字融合、自动 inter 八量化等多重常见的加速技术, 同时还具有如 opportunity、 gen 矿物、 inter、 八蒜子和 gpu 显存卸载等能力,支持在 gpu、 cpu 和 arm 混合架构运行 预训练。大语言模型引擎 hie or spark 则专门针对 gpt 类生成式 lm 进行加速,可支持千问、拉玛、 chesh、 gim、 百川和 blom 等典型大模型。 它采用了自动量化加速、 k b cash 量化加速和 pencil 多卡多牛马并行推理等多种常见加速技术, 同时还具有一些独特的加速技术,如 gpu 显存卸载、 cpu 多牛马推理、阿姆 v 九 cpu 指令推理、加速之时 interm x 指令加速以及 dambatch dolora 并行推理等。 分布式调度引擎。册联机平台则提供了全局调度器和弹性调度器两个系统。全局调度器实现了全翼步化调度,根据全局任务信息和 rap 碳负载实现抢占式调度,提升 batch 效率,并针对深层式 lm 模型提供了自信。 reschedule 的技术提升有效计算密度。弹性调度器则为同步、翼步、流逝以及 p 处理不同任务类型提供统一的弹性。动态伸缩能力, 支持,根据 qps、 对列等算法服务的负载变化动态的去拓展和释放算力。他提供对不同显卡不同易购设备的编组支持。针对深层式 l 模型, 联机平台额外设计了包含基于动态 beside 的伸缩、断点、续推等独特弹性机制,来进一步提升推理效率和可靠性。此外,联机平台还提供了跨地域弹性流量调度能力,支持在阿里云所有地域按需弹性 动态调度,解决局部 reaging 资源供给不足问题。 针对模型的隐私安全保护, desktop 零基平台提供了计算隔离、存储隔离、网络隔离、 数据加密、安全审计的开放可信部署模式。在开放可信部署模式中,零七平台提供调用方专属推理、 vpc 调用方专属数据存储 和零基微调安全环境。对于 ai 开发者,可以通过基于 practic link 的专属 api 网关和管控台提交数据上传、推理微调和部署请求。 微调任务会提交近网络隔离的零基微调安全环境进行训练。模型提供方对于微调过程中的记录知识,可以通 通过零基平台来提供统一的认证和授权访问。零基平台还对落盘数据进行了加密存储,同时对于请求流量、数据访问等一系列行为提供了三方审计能力。谢谢大家!