transformer 轻松头顶会还能怎么做?创新西工大和台湾清华等三位 i e e fellow 给出了思路,一种异构窗口 transformer 的 图像处理方法在渠道时间上仅占流行 restore 的 百分之三十。其实近两年用 transformer 做图像处理一直很活跃,因为 transformer 核心的自注意力机制比 c n n 更能灵活处理目标检测分割等 cd 任务,尤其是高效结构设计化模态应用和领域适配等。 因此,这个方向的研究多,顶会顶刊成果也不少,比如 i e e t p r 二零二零二五的 pdf 模型都值得研读。另外,我整理了十篇该方向的最新论文及代码,方便大家参考。
粉丝1415获赞1.2万

让他避面对面来,再说一遍,正面图像是我们想要参考的一面,对吧? 负面图像是我们不想让他做的东西,对不对?好,但是我们又找到这种合适的负面利,我们怎么办? 我们可以自己造啊,来搜索 it 啊, 网上找一个啊,造图看到没?可以自己造一个,能不能来一个啊?在这自己造一个啊?有好几个。我们一般啊,一般来说啊。

你的论文如果中英文标点混在一起,格式乱七八糟,一个个手动改,手都点酸,太浪费时间了。今天教大家一个万能绝招。首先按住键盘, ctrl 加 h, 调出替换窗口,点开高级搜索,搜索范围,选全部文档一定要勾选区分全半角,查找内容,那里 切中文输入法,输入中文标点,替换内容那里切英文输入法,输入对应的英文标点, 最后点一下,全部替换。几秒钟,整篇文档的标点格式全部统一规范,再也不用人工瞎折腾。如果你现在压根还没开始动笔写论文,完全不用慌,咱们直接打开标小记,论文三点零,先把自己的论文标题、专业字数、关键词这些基础信息填好, 有自己的想法和思路,也可以在补充资料里写清楚,深层的内容会更贴合你的需求。下一步就是参考文献环节, 如果有自己找好的文献,直接粘贴进去,点一下格式校验,自动帮你改好规范格式,完全符合学校要求。要是你没找文献也没关系,他直接对接之网,正规资源,中英文文献都能实时搜索,勾选适配自己选题的就行,正规又靠谱。 最后到提纲页面,有字的提纲就直接导入,没有的话一定要用实时生成提纲,它会根据你情面前的所有信息,智能生成适配你选题的完整框架,比自己瞎写的逻辑更通俗。 重点来了,大家最头疼的用来凑工作量的图表公式,三线表根本不用自己做, 直接在对应章节点亮小图标,系统会自动全部生成工作量,直接拉满。最后等待几秒,一篇格式完整、内容齐全、带图标公式、参考文献规范的论文初稿就出来了。 你只需要简单微调润色就能直接用,再也不用熬夜熬大夜瞎凑字数!赶紧收藏这个方法,轻松搞定毕业论文、课程论文!

哈喽,大家好,这里是春雨,今天呢给大家录制一下最近在研究的一个小玩意,我们先启动一下。 ok, 启动服务之后我们把这个窗口给它关掉,我们这边呢选择一张图片导入进来, 大家现在也能呃看到了,我们就是通过这个 这个侧面去尝试去数清楚它到底有多少张啊?内容算法,那这边的自动定位它是有点不准的,我们把这自动定位把它关掉,然后我们手动来去进行一个定位啊。 ok, 基本上是差不多了,还没需要再微调的,现在可以稍微放大一点。 ok, 基本上就这样啊,基本上就这样,嗯,我们来看看他点点的这个与实际效果是差距是多少? 我们这边来去手动看一下这个大概有多少? 一二三四五六七八九十十一,十二十三十四十五,十六十八十九,二十二,一二二二三二四二十四,二十四, 我们这边实际点出来是二十二,所以现在一呢也是跟大家分享一下。第二个呢也是跟大家讨论一下这个下部的方案在哪里,因为他现在是通过,你看这边有几个选项, 信号来源的话是通过这三项,通过这三项简单点来讲呢,你现在有几个思路可以去做它啊?一个呢是通过这个 每一张中间的这个缝隙啊,来去点清楚它,但是你就像中间这三张,不知道你们能不能看到我鼠标在动中间这三张它其实是没有缝隙啊,没有这条黑线的 啊,没有这条黑线的,不是所有的都有,他只是有可能说是上下两张啊,就是最外面的两张他是比较明显的,但是到中间的这种他都是不清晰的啊, 所以它是存在于一个漏张的情况,点少的一个情况。另外呢就是通过这个我们用这个线数去规划它啊,你看它是这里, 这个没问题啊,因为它左侧的是点到了,是没什么问题,左侧点到,但是右侧没点到啊,但右侧没点到,但是你想看这种离得特别特别近的, 你没办法去去识别啊,这样就会漏个一两张啊,你像这个也是这个就漏掉了,这个位置都漏掉了,这个位置都漏掉了,这个位置两个位置各漏一张啊,所以我们看一下它这个最终结果 二十二,那也是没什么问题啊,所以说大家有什么好的方案或者说 更新的这个方向啊?希望大家在评论区大家来探讨一下啊,就研究一个小的玩意,大家以后可能在做其他项目的时候也用得上啊,比如说你工厂的这个 数字数字化控制啊,啊,对吧?还有这个一些棋牌的直播啊,希望大家可以去过来探讨一下这个啊,这期视频呢就给大家录制的这个,如果大家需要定制开发的话,可以在后台私信我们,感谢大家观看。

这是一款图档批处理工具,假如领导突然丢过来一个压缩包,里面全是乱七八糟的东西,有 word、 有 excel、 有 pdf, 还有一堆截图,不仅格式五花八门,版式更是乱的离谱,有横向的,有纵向的,还有倒着的。那么你需要一款工具,可以批量处理文档和图片,比如 pdf 转图像 转双层删除空白页。 pdf 文件转取方向校正。 word 转 pdf 表格内容提取尺寸调整、文件压缩,图像转 pdf, 不 同图片格式互转,横纵方向校正,批量修改分辨率,起码定分割,甚至文档统计。多层解压。 只需设定要处理的文件夹路径,再添加输出路径,然后勾选对应功能,点击开始即可批量处理。支持子文件夹同步处理。比如不同部门收集上来的资料、文档,基本都归属在不同文件夹内,这个功能就可以对不同文件夹进行批量处理,关键过程中无需联网,本地离线运行,既保护隐私,也规避了弹窗干扰。 如果你们公司或者学校有局域网,那就更方便了,直接让所有人把文件传到同一个共享文件夹,你坐在工位上,动动手指就完成了,省时省力,非常实用。

兄弟们,图片被盗了还没证据,这个项目可以看看 blind 下划线 watermark 是 一个开源图片盲水印工具,它可以把文字图片甚至一串 bit 数据悄悄藏进图片里,肉眼看不出来。 后面就算别人裁剪、旋转缩放调亮度,水印也有机会被提取出来。而且提取的时候不需要原图, 而且提取的时候不需要原图,这点对追踪图片来源很关键。做原创图片设计作品,电商素材、自媒体配图的可以研究一下教程代码已准备好,需要的老铁粉丝团自取。

大家好,这节课我们来讲一个非常经典的 q 大 图像处理项目。它的目标很明确, 就是把一张彩色图像围绕中心旋转三十度,并把结果保存成 o u t p u t 下划线 r o t r t e 点 j p g。 虽然这份代码只有三个核心文件,但它已经把 cpu 读图 g p u 旋转、 结果回传这条链路完整搭起来了。图像旋转这个题目特别适合拿来做 q 大 入门,因为它既有很直观的视觉结果,又能把坐标变换现成映射显存、申请和函数启动这些关键知识点都串在一起。 换句话说,这个案例不只是能跑,而且能让我们看见 g p u 是 怎样把数学公式真正变成图像效果的。这套工程的结构非常干净, c m a k list text t 负责工程构建, main c p p 负责 cpu 端流程调度, kernel c u 负责 gpu 上的旋转计算文件不多,但分工很明确,所以特别适合用来理解 q 大 项目的基本股价。先看 c m a k list text t。 这里声明项目同时使用 c 加加和 q 大, 说明这不是一个单纯的 c 加加项目,而是一个混合工程。接着他通过 find package 找到 open cv, 再把 main c p p 和 kernel c o 一 起编辑成可执行程序。 这一步其实是在告诉我们, open cv 负责图像读写, q d 负责图像计算。进入 main c p p 之后,首先能看到 rotate q d 的 函数声明, 这个声明像一座桥,提前告诉 cpu 端,后面会调用 g p u 处理函数,然后内函数里还设置了默认输入文件 i n p u t 点 j p g。 所以就算命令行没有额外传餐,程序也知道应该去读哪张图片。接下来,程序通过 open cv 的 cv emread 读取输入图像,而且读取模式是 emread color。 这个细节很重要,因为它说明输入图像是三通道彩色图,而不是灰度图。后面无论是自结束计算还是 r g b 拷贝,都要建立在这个前提上。 读图之后代码立刻判断 ing empty, 只要图像没有成功加载,程序就直接返回负一。虽然这一段很短,但它体现了一个很重要的工程习惯, 就是在进入 gpu 计算之前,先把输入有效守住,否则后面所有逻辑都会踩空。然后 main c p p 创建了输出图 out, 并且在创建时用 cv scaler o 零把整张图出示化成黑色。这个设计并不是可有可无的,因为图像旋转之后,一定会有一些区域没有对应的原像素,如果这些地方没有提前清零, 结果就会变得不可控。黑色背景正是为了给这些空白区域一个明确的默认值。接着程序用异形 rotate q 大 把任务交给 gpu, 这里传入了输入数据指向、输出数据指向图像宽度、高度、通道数以及三十度这个固定角度。 也就是说,这个案例不是让用户动态输入任意角度,而是先把教学焦点收束在固定三十度旋转上。当 rotate qda 执行完成之后, main c p p 再通过 cv imwrite 把结果保存成 o u t p u t 下划线 r o t r t e 点 j p g 到这里, cpu 端的主线其实很清楚,就是读取输入,准备输出,调用 gpu 保存结果你会发现, main g p p 本身并不负责旋转细节,它更像一个调度员。真正的旋转计算发生在 kernel c u 的 rotate kernel 里面。只要看到 global 这个关键字,我们就知道它是一个运行在 g p u 上的核函数。 g p u 会启动很多很多县城,而这份代码里,每个县城负责输出图中的一个像素位置。而这份代码里,县城首先根据 block e, d, x, block dim 和 thread eix 算出当前负责的 x 和 y。 因为图像本身是二维的,所以这里直接使用二维现成组织方式。这样做的好处是,现成坐标和图像像素坐标几乎可以一一对应,思路会非常直观。 拿到 x 和 y 之后,代码先判断它们是否超出了图像范围,只要 x 大 于等于宽度,或者 y 大 于等于高度,这个县城就直接返回。这个检查非常基础,但也非常关键, 因为 g p u 会把整张网格都发出去,多出来的边缘县城必须被挡在门外。接下来代码会计算 c x 和 side, 也就是图像中心。 这个步骤的意义在于,我们希望图像围绕中心旋转,而不是围绕左上角旋转。如果不先把中心找出来,后面的旋转就会向门轴装错位置,结果看起来会非常别扭。 有了中心点之后,代码再计算 t x 和 ty, 也就是把当前输出像素平移到以中心为圆点的坐标系里。 这样做不是为了增加步骤,而是为了让后面的旋转公式能够直接围绕原点展开 很多几何变换,看起来复杂。真正的关键往往就是先把坐标系选对,然后就是整份代码最重要的两行,也就是 s r c x 和 s r c y 的 计算, 它们使用 cosf 和 simf。 根据旋转角 red 反推出原图中的采样位置,这里采用的是反向映射,也就是说,不是把输入图像的像素往输出图里扔,而是对输出图中的每个位置回头去找原图对应点。 这种方法通常更稳,更不容易留下空洞。当 s r c x 和 s r c y 算出来之后,代码还会再做一次合法范围判断。为什么前面已经检查过 x 和 y, 这里还要再查一次原坐标?原因很简单,输出像素坐标合法, 不代表反推回去的圆坐标也一定合法。旋转之后,四角区域最容易出现这种情况。圆坐标只要合法,代码就直接把 s r c x 和 s r c y 强制转成 int, 得到 x 和 e y。 这个动作非常关键,因为它意味着代码采用的是最简单的取整采样方式。换句话说,它本质上属于最近邻采样,而不是双线性差值,所以后面的图像边缘会稍微硬一点,这是代码设计直接带来的结果。 再往下代码用一个 for 循环按通道复制数据。因为当前输入是彩色图,所以 c 通常等于三 循环,每跑一次就拷贝一个通道的值,最后把红绿蓝三个分量都写到输出图对应位置。 这就是为什么这份旋转代码既处理了空间位置,也处理了颜色数据。说完和函数,再看 rotate qda 这个封装函数,它真正承担的是 c p u 和 g p u 之间的数据搬运和调度工作。 也就是说,数学旋转发生在 rotate kernel 里,但让这些数学真正落地到显存和现成上的是 rotate q d。 rotate q d 首先计算 bytes, 也就是整张彩色图像需要占用的总字结束,接着通过 q d malik 申请输入缓冲区和输出缓冲区, 再用 qmdmp 把原图从 cpu 拷到 gpu。 只有当数据真正进入显存之后, gpu 才能开始后续旋转计算。紧接着,代码又对输出显存做了一次 qmdmpset 清零。 这个动作和 main c p p 里用黑色出使画 out 是 同一个思路的 g p u 版本,它能保证那些没有找到合法原坐标的输出区域保持黑色,而不是残留一堆不可预测的垃圾值。 因为三角函数接受的是弧度,所以代码先把角度转成 red, 然后把线段块设置成十六乘十六,再根据图像宽高计算 grade。 这个配置很典型, 因为它既能覆盖二维图像,又让我们很容易想象一张县城网格正好铺在整幅画面上。准备工作做完之后,程序正式启动 rotate kernel。 gpu 计算结束以后,又通过 qda device synchronize 等待执行完成,再把结果从设备端拷回主机端,最后释放显存。到这一步,一次完整的 qda 图像旋转就真正闭环了。 最后我们回到运行结果,程序会生成 o u t p u t 下划线 r o t a t e 点 j p g。 画面会围绕中心旋转三十度,四角会出现黑色区域。这些黑色区域并不是程序出错, 而是因为输出位置在原图里找不到合法像素,再加上这里使用的是最近林彩样,所以边缘会带一点硬朗感。 所有这些结果其实都和代码里的反向映射、边界判断、取整采样严格对应。 总结一下,这个项目看上去只是做了一次三十度旋转,但它背后已经把 q 大 图像项目里非常关键的一套方法论讲出来了, 包括 c p u 和 g p u 的 分工、二维线程到像素的映设、围绕中心点做坐标变换、反向映设到原图取样以及显存申请和结果回传。 后面如果你继续往下做双限性差值、任意角度旋转、缩放、仿设变换,这份代码就是一个很好的起点。

用黑三 d 来调用 nano banana 或者 gpt, 如果你是新手注册的话,他会给你一百个积分啊,不要去找这个图片生成器,他是生成图片的,并不能编辑图片,还是在这个概数里,图像到三维在这里边啊,把你的图片拖进去, 去找这个编辑图片,左上角点开之后,这有你的想法,把你要对图片做的事情说给他, 然后这儿可以切换 api, 比如说香蕉啊,还有 gpt 啊,这些香蕉用的是四个积分,然后 gpt 是 十个,好吧,这个根据个人需求来调用, 这有推荐阅读,这个可以去转灰色模型,也就是白膜,也就是素膜,然后这都可以根据你的需求去选择,你点上之后,他这会有啊啊, 这个参考图的话,可以最多加四张,然后点生成就可以了。好了,我们生成好了啊,如果你觉得可以的话,右上角有个下载啊,我们就有这张图片了。然后你再去对这些图片去做一些简单的 三十图生成啊,或者说细节的优化之类的,这就方便很多。然后这个是我用香蕉生成的,这个是用那个 g p t 生成的, 这个你们可以自己对比一下,看选择用哪个比较合适啊?这两个生成的时候提示词是一样的,然后我用季梦也生成了一次,它的效果 不太理想,好吧,这个提示词跟他们提示是一样的,所以说对于设计师来说,香蕉或者 g p t 它们的实用性可能会更好一些。散会。

今天给大家分享一个可以批量处理图片的工具,办公人员必备神器。废话不多说,打开这个工具可以看到它的功能主要集中在上边栏上,有输入动作、 输出状态设置等。在输入选项下面,我们可以添加单个文件,如果有很多图片需要处理,也可以点击旁边的添加文件夹,我用一个文件夹进行演示,点击 一添加文件夹,所有图片都进来了。为了演示,我找的这些图片尺寸大小都是不一样的,如果不想要某张图片了,还可以点击上面的移除或全部移除, 就可以删掉了。然后我们点击动作选项,在这里可以添加动作,也就是你想怎么处理这些图片。我们点击添加动作按钮,可以看到这里有非常多可以执行的命令,包括批量添加二维码、 水印、文字修改、尺寸裁剪等等。这里咱们演示一个批量统一图片尺寸的案例,点击变换里面的花布大小在预设,这里有几十种已经预设好的尺寸,可以根据需要选择,如果没有我们想要的尺寸, 我们选择自定义模式,选择正常宽高。为了方便查看,我改成了一千五乘以一千五方形勾选宝石比例,这样的话图片不会变形。位置选中上,在输出选项里 选择要输出的目录,也可以选择输出在源文件里面,旁边的格式选项可以选择要输出的格式,它提供了几十种办公常用的格式,根据需要来选 择,然后直接点击下面的转换,很快就处理完成了。可以看到它把原来不同尺寸的图片统一处理成我们设置的尺寸了, 这对很多需要经常做 ppt 图片排版,或者需要统一图片尺寸的小伙伴来讲,是不是非常实用?赶紧点赞收藏起来吧,这样的效率神器,错过可就不好找了。

transformer 还能怎么做创新?西工大和台湾清华等三位 i e e fellow 给出了思路,一种异构窗口 transformer 的 图像处理方法在制造时间上仅占流行,而 stormer 的 百分之三十。其实近两年用 transformer 做图像处理一直很活跃,因为 transformer 核心的自注意力机制比 c n n 更能灵活处理目标检测分割等 c d。 任务,尤其是高效结构设计跨模态应用和领域适配等。因此这个方向的研究多顶会顶看,成果也不少,比如 i e e tip the simmed c b p 二二零二五的 p f t 模型都值得研读。另外,我整理了十篇该方向的最新论文及代码,方便大家参考。

大家好,这节课我们来讲一个经典的 q 大 图像处理项目,它的内容是使用 gpu 完成图像缩放。这套代码虽然不长,但是它已经把一个完整的 q 大 图像几何处理流程搭出来了。也就是说, 你不仅能看到 open cv 如何读图,还能看到 cpu 怎样把任务交给 gpu, 以及 gpu 怎样把输出途中的每一个像素重新映设回输入图。我们先从整体流程开始看, 程序首先通过 open cv 读取一张彩色图像,接着在 main c p p 里面调用 resize cube, 然后 gpu 启动 resize kernel, 每一个县城负责输出途中的一个像素位置。最后再把结果从 gpu 拷贝回 cpu, 并保存成 o u t p u t 下划线 r e s i z e 点 jpg。 下面看工程配置文件 c m a k list x t 这里首先声明这个项目同时使用 c 加加和 q 大, 这说明它不是单纯的 cpu 程序,而是一个 cpu 加 gpu 的 协同工程。接着代码设置 c 加加时期标准,并通过 find package 找到 open cv。 最后把 main c p p 和 kernel c u 一 起编一成可执行程序。接下来我们进入 main c p p。 在 这里首先能看到 resize q d 的 函数声明,这说明 c p u 端会把输入指征、输出指征、输入尺寸、 输出尺寸和通道数传给 g p u。 然后程序通过 cv in read 读取一张彩色图像,如果图像为空,就直接返回。这一步虽然简单, 但它保证了后面的 q d 调用不会在空数据上运行。读图成功之后,程序开始计算目标尺寸。这里的做法非常直观,就是把宽度和高度都缩小为原图的一半。 随后程序创建输出图像 out, 再调用 resize q d, 把所有必要参数一起传给 g p u。 最后通过 c v i z e 点 j p g。 真正的 gpu 核心逻辑位于 kernel c u, 这里最关键的部分就是 resize kernel, 只要看到 global 就 说明这是一个运行在 gpu 上的核函数。在核函数内部,首先会计算当前县城对应的输出坐标 x 和 y, 如果 x 或 y 超出了输出图像范围,县城就直接返回。接着程序计算 scale x 和 scale y, 它们表示输入图和输出图在宽度方向与高度方向上的比例关系。 然后根据当前输出像素位置反推出输入图中的原坐标 s r c x 和 s r c y。 这里采用的是最近邻彩样,也就是说输出图里的每个像素会直接去输入图中找最接近的那个像素值。 因为这份代码处理的是彩色图像,所以后面还会按通道循环,把 b g r 三个通道逐个复制过去。除了和函数之外,还有一个很重要的封装函数,也就是 resize qda, 它先根据输入尺寸和输出尺寸计算 in bytes 和 out bytes。 然后通过 qda malik 在 gpu 显存中申请输入缓冲区和输出缓冲区,再通过 qda mmp 把原始图像从 cpu 拷贝到 gpu。 接下来程序设置 block 为十六乘十六,再根据输出图尺寸自动计算 grade, 让所有输出像素都能被现成覆盖。 随后正式启动 resize kernel, gpu 上的大量现成就会同时执行缩放映设。等 gpu 计算完成后,程序会调用 qda device synchronize, 然后再把输出结果从 gpu 拷回 cpu, 最后释放显存资源。 接下来我们看一下运行结果,程序执行成功之后会在释放显存资源。接下来我们看一下运行结果。程序执行成功线, r e s i z e 点 j p g 从结果上看,输出图的宽度和高度都只有原图的一半,所以整体分辨率会下降到原来的四分之一。如果你把图像局部放大观察,会发现边缘可能没有那么平滑。 这是因为这里采用的是最近临踩样,它的优点是实现简单,速度直接。它的缺点是细节过度,不如双线性差值那样平滑。但对于 q 大 入门教学来说, 这种写法反而特别合适,因为它把最核心的坐标映设逻辑展示得非常清楚。通过这份代码,我们可以看到 c p u 如何读图分配任务调用 g p u, 也可以看到 g p u 如何把输出像素位置重新映设回输入图。所以这不仅是一份图像缩放代码,也是一份非常适合学习 q 大 图像几何处理的入门样板。 如果继续往后升级,还可以扩展到双限性差值放大、裁剪缩放,甚至视频实时缩放。好了,这就是这套 q 大 图像缩放代码的完整讲解,谢谢大家!


有没有发现,当化学洗发水进入中国市场之后,我们几乎很难再在路上看到那种感觉一颗头都盘不下的头发,随之而来的是铺天盖地的植发机构和生发产品。 一瓶洗发水不知道养活了多少外资企业,而他们的辉煌却是用牺牲国人头皮健康换来的。你可能正在改变熬夜的习惯,尝试调整饮食结构,但最后发现收效甚微, 因为真正嚎吐你的很有可能是被你忽视但又每天都在用的洗发产品。今天呢,跟大家分享一个低成本高收益的自制草本洗发水,把本该就在我们头上的头发重新养回来。首先就是准备好这些材料, 就这样一瓶古法草本洗发水就做好了,没有任何化学带来的伤害和刺激,只有草本对头皮的呵护和滋养给大家看一下,质地丝毫不输大牌洗发水。 如果洗完之后感觉有点涩,那是没有硅油柔顺剂这些去把你的毛鳞片堵住,头发清洁干净之后正常的洗感。如果说你是烫染受损比较严重的发质, 也不要再去用什么护发素了,那种怎么洗都洗不掉的,制造假滑的化学之计,会把你好不容易清理干净的头皮毛囊再次堵住。 既然追求自然,咱们就贯彻到底,可以用一点这种养发精油吃来自三千年前埃及的法老油, 具体什么效果呢?大家可以去他的详情页看一下。就是洗完头之后,头发像我这样半干的状态,滴几滴到手上,揉搓一下, 直接涂抹在受损的头发上,然后再吹干头发,就是很自然柔顺蓬松的效果,再也不是化学之计牺牲头皮毛囊健康换来的假滑了。这个油呢是一油两用的,是头疗级的养发精油,在洗头之前先做三十分钟的头疗,一周做两次头皮健康也会恢复的更快。