粉丝178获赞9075

异常检测,如果你只想发拼二区三区或者 b 会, c 会,那真的太简单了。搞异常检测的同学是不是还在那苦哈哈的训练? g、 a、 n 或者自编码器调餐调到怀疑人生模行,动不动就崩溃,好不容易重构出一张图片,结果连个明显的划痕都检测不出来。听 于哥一句劝,时代变了,发二区三区,赶紧丢掉那些难训的要命的传统生存模型,直接拥抱视觉大模型。你直接拿开源的 clip 或者 sim 过来,他们见过全网几十亿张图片,根本不需要你从零训练,你只需要设计一个极其巧妙的提示词机制或者记忆库, 把正常的图片特征存起来。新图片一来,用大模型提取特征,跟记忆库一比对,差别大的就是异常,这叫 zero shot 或无监督提示。异常检测, 你绕过了极其痛苦的对抗网络训练,直接借用大模型的算力红利,这在二区三区刊里绝对是极其时髦的前沿打法。如果你脑子里没招式,不知道怎么给大模型设计这种异常比对机制,于哥手里目前正捏着几个视觉大模型加特定工业异常检测的现成课题,并且已经在 mv、 tag 等数据集上跑出了极其漂亮的对比数据, 急需一 v 一 指导,从开题直接干到代码落地的同学私信我,于哥带你绕过大场的算力壁垒,直接拿分!

嗨,大家有很多粉丝朋友啊,对于公共数据挖掘呢,没什么概念哈,今天师姐呢就做一个串讲,给大家带着入个门。首先呢,公共数据挖掘呢,分为三大方向,第一个呢就是临床数据的挖掘,第二类呢是生信挖掘啊,最近比较火热的来咨询师姐的都是生信。 第三个呢是影像组和病例组哈,影像组或者是病例组,它分为一大类,咱们呢挨个的去串讲一下。那首先呢就是临床数据挖掘, 临床数据库是非常多啊,很多的粉丝朋友他不知道挖哪个数据库,也有来咨询师姐了,常见的数据库呢,有 nanscharles, 还有 gbd, 还有 ukbelbank, 咱们四个数据库呢,都做一个串讲。 nanscharles 呀,它是美国的一个数据库啊,这个 nanscharles 和嗯, gbd 呢,它都是免费可以挖掘的。 嗯, n h s 呢,是美国营养健康与调查数据哈,它因为调查的是膳食相关的,所以像这个,呃,膳食补充啊,维生素呀,还有生化血液指标啊,人体测量啊,它能够研究的指标非常的多。研这个研究的人群呢,通常是 public 哈,普通人群 像患病的群体啊,你比如说高血压呀,心脏病啊,你普通人群患病率多少,它大概就有多少啊,它两年一个周期,所以呢,恩汉斯哈研研究非肿瘤类的疾病,是非常的火热的,那肿瘤的疾病呢,由于它患病 率比较的低,所以呢,它的人群比较的少,你要去看一下啊,它不太适合做肿瘤方向的研究,你去联合解剖一下恩汉斯限定 type x 和一下你的靶标疾病,你看一下这个肿瘤有没有发表的,如果前任有发表的, ok, 你 也可以发。 那像肠癌呢,就有发表过的,肺癌呢?就呃,世界清洗过哈,它只有个位数,就不建议大家去做一个发表。那 charles 呢?它是中国的数据库哎,是我们中国人自己的一个数据库哈,但是它研究的人群呢?是中老年人群。呃,安汉斯呢,它就有青少年的一个数据,但是婴幼儿的数据呢,它是被限制了,你需要申请才能获得的。它对 public 啊,不公开。 好,我们接着说。 nhas 跟 charles 呢,经常做双库联合,因为它们的类型是比较相像的,那群体有不同,一个是美国,一个是中国。那你在不同的群体做一个验证哈,通常研究的 类型呢?从临床研究来说呢,它叫做横断面的研究,临床的研究呢,三大种类哈,横断面的对立研究,还有一个 rct 哈, rct 研究的是因果的方向也因果方向的平替是什么? moment, 随机化哈,所以呢,这两个数据库给大家串讲了。 接着呢,再讲一下 g b d 哈,与 n s 不 同, g b d 呢,特别擅长于肿瘤方向的研究。像我们在这个开这个阅读论文的时候,是不是开篇经常写 某某疾病,它的发病率啊,位于第几位?死亡率位于第几位?引用的这一篇论文通常就来源于 g b d 的 一个啊,分析和统计哈,流行病学的一个统计分析。 但是呢, gbd 有 个特色哈,它也是这个,每一个灾口进行一个释放,释放完之后就有人去挖你。大家想啊,疾病的种类是不是固定的?它发表的类型呢,就是疾病的趋势,那疾病的趋势呢?由于疾病是固定的,所以能挖掘的一个萝卜一个坑,发表完哎,就结束了。所以说呢啊, 先到先得,这是 gbd 的 一个特色,另外一个呢,因为饮用的人会比较的多,所以呢, gbd 是 天然的高分宠儿。那如果是想要学的话 啊,这个刚刚释放的数据肯定是来不及挖了,你可以先学这个 g b d 的 挖掘,然后呢,等着新释放数据的时候呢,去抢个先。而且呢,他有内部的申请者跟这个非申请者的一个说法哈。啊,像这个内部的申请者呢,他会先一步获得释放,他会比 public 公开释放呢,会早几个月哈, 而且呢,最近好像刚刚也是放了新的数据吧。好,这就是 g b d 的 一个数据哈,那与 n h s, charles 和 g b d 不 同, ukblanc 呢,它是一个付费数据啊,前三个呢,都是免费数据,公开可以挖掘。 那 ukbank 呢,还不是你付了费,它就给你释放数据,你要像写项目申请一样,先给人家官方呢写一个项目,人家批了你,你才能够去付费。而且付费呢,有三个档次哈,这个每个档次呢,付的这个费用呢,还不同,像最高的一个档次呢,它有基因方面的数据,可以做 gos 的 一个研究哈, 全金组关联性的一个研究,像我们常见的孟德尔学一句话,他就是奇娃子系列的哈,这是 ukblank 和这个临床数据的挖掘。接下来讲第二大块哈,就是生信类的挖掘, 那这个生信挖掘呢,也是师姐办的生信班哈,来问师姐的也比较多,但是呢,师姐也会杀一批,为什么呢?因为现在单纯生信挖掘他也不好发了,我们的挖掘通常是包括 rna 联合单细胞哈,这是师姐享受的范围 啊,来咨询师姐的,大家先自己啊,做一个调研,你是否有医院的临床数据呢?你想要做一个临床联合生殖挖掘的一个分析,你是否会公共数据库,像刚才师姐讲的临床数据库的挖掘的,你会不会这个公共数据库的挖掘,或者你手头上有自测数据的,不知道该怎么发一下论文的, 或者你有诗实验资源的,可以做一个干诗结合以上四四种啊,有资源的啊,你再来咨询师姐啊,这样呢,在这个发表 s i 论文,咱们集体发个两三分啊,能够保障 好。接着呢,再说这个影像组和病例组啊,呃,影像组呢,它的发文情况跟生信差不多,发的文呢是呃,比较的卷也不太好发了,所以经常呢,影像组联合病例组啊,进行一个挖掘 啊,但是病例组呢,他的挖掘就很吃电脑的配置配置了,你像这个如果四五千块钱的笔记本, 你可能要跑一年才能把病例组给跑下来,而常规的病例组呢,其实只跑个把月就下来了,但是呢,你病例组的配置起码两三万起底,所以说呢,病例组师姐呢,也没有开设这个班级哈,因为师姐本身是病例专业的。 对呢,病例的病例组的挖掘呢,也有在做,但是呢,开设这个班级就很难,因为呢,很吃电脑的配置啊,这就是以上哎,三种常见的公共数据挖掘的类型,希望大家能有所收获。

复杂的行业分析现在能一键生成带图表的 word 报告和结构化的 excel 数据,有不满意的地方直接在文档上提意见, ai 帮你改。 面对分析全球 ai 市场这种复杂任务, solo 会先进行深度拆解,他会主动确认产出格式,是想要 word 报告、 ppt 汇总还是 excel 数据包。这种 a 证级别的规划确保了后续产出的专业度。 全新 solo 可以 理解和处理多种文件格式,无论是复杂的 json 原始数据、 python 统计脚本还是 csv 报表,它都能在同一个 workspace 中无缝处理。你不再需要在 excel 代码、编辑器等工具之间来回切换,所有执行都在后台自动闭环。 任务完成后,所有产出物都可以直接在面板中预览。点开生成的报告,你可以看到精准的数据表和逻辑严密的结论。如果发现某个细节需要调整,直接选中文字进行评论。比如让他把链接更新为可以直接点击跳转的超链接, solo 会根据你的评论精准定位并更新文件,这种反馈式修改让成果验收变得非常直观。

邪修科研第二十四期 g e o。 公共数据库挖掘当你还在 g e o。 里翻平台,看样本注式,猜哪套数据能用的时候,会挖公共数据库的人一定把桌子掀了。数据及晒蓝对拉举站下号,差异基因和火山图都已经跑完了。 做国密数据库最烦的不是 g u 梅书记,是数据太多,平台不一样,分寸不清,注视不统一。这期我们把 g u 这条链路拆分成三个步骤, g u data bytes 负责搜对数据机拍 d c k 负责把差异分析跑准, g g get 负责把 top gains 的 注视补齐。下面我将调用 g u data bytes 给有解锁与心衰心机重构相关的人类或者是小鼠的 anac 的 数据机,返回对应的编号平台、样本量等等详细信息已经解锁完成了。 使用 i n t s 并列并行检测了人类和小鼠的基因数据。人类的 half path 的 心机 book 数据很少,优先推荐的人类数据集有这些,一共有六个, 以及推荐小鼠的数据集有七个,并且实际生成了本地的结果汇总表。那么我接下来下载一个最合适的 g s e 数据集,它整理表达矩阵和样本分组情况,输出可直接用于差异分析的 com 的 或者 expression matrix。 我 的已经运行完成了。本次选用的数据集是 g s e 幺九四一五一 是小鼠的经络转录组,有三十个样本,十五个对照和十五个 fpx, 并且生成了对应的原始的 cos 矩阵,差异分析处理的 cos 矩阵 以及标准化的表达矩阵、矢控与报告 qc 的 检查结果。接下来我调用 pyd 图去比较兴衰组和对照组的差异表达,并生成火山图和淘宝二十的基因。热图被看到已经调用了四个 background images 进行的分析,并且列出了三个 task, 已经差异分析完成了。检测的基因数有一万七千多个, 按照 f d r 小 于零点零五,并且 log two 的 for chain 绝对值大于等于一来算的话,上条有九,下条有四个,并生成了对应的火山图和热图,这是对应的火山图,这是对应的热图。接下来针对于显出差异基因中的 top ten 进行注视,补充基因功能,抑制疾病的关联和参考数据的链接,并输出摘要表。好的,已经完成了 top ten 的 差异基因的汇总报告。值得关注的是心肌损伤炎症轴机制后选或者是调控节点,像 g, d, f 十五以及 c, p, t two 等等。 我们打开一下他的汇总表,可以看到他把 top ten 的 进进行了 summary 介绍,包括他本身的 direction f, d, r 以及核心功能和已知疾病的关联以及研究热点等等。接下来我们调用 jimmy nay 的 nano pro ipi, 针对于日 top ten 的 基因进行可直观的展示,这样的话能更方便地放到 ppt 里。使用 by word 的 风格塞欧的样式先进行需求的核对,以 have five like 新基础过为核心, 突出炫立体脂肪酸氧化和荔枝网印机加炎症这三条主线,把基因嵌进去,然后突出四到六个代表图。然后我们挑选了 b 类的样式,突出前五个基因, 其余基因放在角落作为补充。可以看到它绘制的效果还是非常不错的,像雕像 ipi 分 析的话就不需要去除掉纳洛普丹纳的右下角的水印。我们再看一下这是另一种风格的 style 级别的 by render 官方 abstract, 可以 看到这个提供的信息就更加的丰富一些了, 这个也是另一种风格的展示,这是对应的提示词,这是整个的 graphical abstract 项目的文件夹,都是 ai 进行一次命令跑通的。 我们再看一下我们整个演示项目的交付文件,有 graphical abstract, 还有差异基因的分析,以及对应的可复制的代码,以及对应的表格。很多人到差异基因这一步就停了,但真正拿拿去汇报的是这些基因到底在干什么。 这时候你惊喜地发现, topincense 的 功能和疾病关联都已经补全了,传统方式半天筛数据,半天整理取证,还不一能顺利开跑。而 ai 负重能十五分钟数据集分组表,猜疑结果和 topincense 摘要直接呈现。如果你做的是公布数据库,深信入门毕业论文选题,这期一定要收藏, 下期我带你去更夸张的地方,不用下载全量数据,直接在 excelincense 里面查几千万个单细胞。关注我,学习更多 ai 技能, ai 技能和笔记都在我的个人知识库中。

下面呢,哎,我们简单说一下数据挖掘的流程啊,数据挖掘呢,有两个大的流程,分别是 chris dm 数据挖掘流程,它呢就包括商业理解、数据理解、数据准备、建立模型、评估、部署啊,这样全套流程。 另外呢还有一个 c 码流程, c 码流程呢,其实呢是对 christ dm 当中的数据准备和评估这段内容,它给它细化了, 对吧?啊?分为抽样探查、修改、建模、评估,对吧?给他细化了一下,那么这块呢,他没有什么呀,他没有商业理解和数据理解, 对吧?他也没有最后的部署,对吧?好啊,所以这个呢,就是我们两个常用的这个方法论,那么在后续的那个学习过程当中呢?哎,我们也会具体的给大家来讲这个这两个方法论啊,具体是怎么用的? 好,那么我们来演示一下一个数据挖掘的具体方法论的啊,怎么去使用的流程,对吧? 那我们看一下啊,整个的数据挖掘啊,其实就是啊,找规律,对吧?用于帮助我们做决策和行动。 那么建模的过程啊,你有人说了,建模过程就是从数据清洗开始,然后呢提取信息,做加工,然后呢建立模型,寻找知识,然后呢就是决策,对吧?注意啊,这是一个正向的工作流程, 对吧?但是实际的做业务分析的时候,我们是反着来的, 哎,怎么反着来啊?你看,我们看,有一个商业理解,有一个数据理解啊,有一个数据准备,对吧?那么在做商业理解的时候啊,我们其实是先要思考决策和行动的, 对吧?然后才往前推,我需要建立什么模型,然后这个模型需要什么特征?特征需要从哪些数据去提取?所以在建模这个商业分析这前面阶段其实是反着来的。 好,我给大家具体讲解一下啊,假设呢,我们是一个淘宝的电商,那我们已经啊,在淘宝呢,有五年的这样的一个运营经经验了, 而且呢积累了大量的客户,对吧?那么现在呢,我们这个淘宝电商的领导啊,发现一个问题,那就是好多的历史的客户流失了, 那么他呢,是想做一些个活动,把客户赢回来,所以这个领导啊,你可以认为就是 ceo 吧,对吧?那么 ceo 呢,就找到了负责运营的小张, 对吧?就让小张啊做一个活动,呃,把这些个流失的客户赢回来,那么小张呢,就开始做这个活动策略了,对吧?他要做些策略, 对吧?那他想做什么策略啊?比如他想啊,比如说基于那些个呃流失的啊,而且是高价值的客户,他想呢,通过啊,打电话给人家营销优惠券, 那么对于流失的呢,低价值客户啊,他想的就是这个啊,有流失的,而且是低价低价值的,他想的发短信, 对吧?啊?而且呢,他要发一些的是优惠券,那么优惠券呢,有些客户有可能对优惠券有兴趣,有些客户呢对优惠券没有兴趣,所以说呢,他想最终呢,这对客户打什么标签呢?打,第一,对优惠券有没有兴趣? 第二,他是否是沉默的?他是沉默的还是活跃的?第三,他价值是低价值还是高价值啊?那么这个呢,就是小张要做的策略, 对吧?那么小张说了,那么你只,那你只要能把这个标签帮我做好,那我就可以做运营策略啊,进行营销了。 那么小张他自己啊,他是个业务人员,对吧?他呢不会建模,就他自己搞不定这个客户分类这个事,然后呢他呢就会拿着自己的策略找到小王, 对吧?他跟小王呢,他是一个做算法的建模的,他是一个数据分析师,对吧?然后呢小小王呢?他跟小王说,那么你看我要干这样一件事,那么这个,呃,这个策略我已经做好了, 那你能不能按照这个策略帮我把这个客户的标签打上来,对吧? 大家注意啊,对,客户打标签其实就是一种知识,对不对啊?好, 那么小王拿到了这个需求之后,他开始干什么呀?他想想,哎,我靠什么算法可以给你打上这个标签呢,对吧?比如说他想用的算法是 r f m 啊,很非常简单啊, 对吧?啊? r f m 就 说对它做个分类啊,那价值高的,价值低的啊,零一分个类就行了。那么 r f m 需要用到的什么特征呢?到特征了吧?那需要用到的就是它的最近的一次购买时间, 对吧?它的消费的频次,对吧?啊?还有呢?它那个,呃,它那个购买的频次,对吧?啊?好,这个呢,它需要的信息 也叫特征。然后呢,那他一想这个数据从哪拿呢?这个数据呢?我得到他的交易流水里边,这叫交易流水表, 对吧?交易流水表可没有这些具体的数,对吧?他得是比如这个客户他最后一次交易时间是六月十四号,对吧?他交易的交易的频次呢?交易频次应该是啊,四四次, 对吧?那么交易的金额呢?哎,你把这把这交易金额清洗一下,比如说特价,特价呢?比如说不算啊,或者是特价也算啊, 但是赠送就不算了,因为他这个有特价,有正常,还有赠送,赠送就不算了,对吧?不算交易的交易频次了,对吧?说他呢就要对数据进行理解和清洗, 对吧?所以说呢,我们在想这件事怎么做的时候,商业理解其实就是这部分,就是小张干的事, 就是商业理解,对吧?为了做这个策略,我要干什么?我需要模型出什么,对吧?那么数据理解是什么呢? 数据理解呢?那就是小王干的事,小王根据这个模型的产出的要求,哎,我,我建立什么模型?我怎么提取特征,我数据怎么清洗, 对吧?好,所以这两步呢?前两步对吧?按照数据工作的话,他是从后往前推的,你可以认为是从需求到我这个数据, 对吧?而建模的时候什么建模呢?就是数据准备,数据建模,数据评估啊,这个过程你可以认为叫就是 c 码这个过程吧? c 码这个过程他是从前往后赶的,就是 c 码这过程呢,我得从数据啊加工我的特征,那么从特征建立模型,建立模型之后还得评估一下,然后呢?哎,产出物给到小张了,对吧?这个呢,就是一个啊,算法建模的流程的实力。

大家好,这期我们接上讲讲一下这个数据挖掘当中的这个。 呃,六大技术,所谓的技术呢,也不一定合理,这个挖掘的技术是从数据挖掘的内容角度来对这个数据挖掘的,到底 就是有哪些这种挖掘的方式吧,或者简单的可以说把他这个说分成六大技术吧, 就他有区别,就是挖掘的这个数据挖掘不同的数据或者不同的工作应用领域,他用的这种方式是有差别的, 但是总体来说把它归类一下,实际上有总共有六个方面,分别叫什么关联、回归、分类、据类、预测、诊断, 就是他们不仅在挖掘的目标和内容上不同,所使用的技术是其实也有差别,就是这里边也不叫六大技术,就是这种关联。关联里面他用的这个算法 其实也是有趣,就是他跟回归的算法或跟分类,跟据类他用的那种算法都是有区别的,所以说就是把他们先分成六类,就是我们从挖掘的内容角度有关联、回归、分类、据类、预测、诊断六个方面。 我们今天先讲关联和据类吧,这个表呢,就把这六类啊,这个他的这个核心任务、学习类型,最后就是总结啊,我们先展开一下,嗯 嗯,直接来吧。这数据挖掘的概数,这个前面也讲过了,我们 再过一下就是核心的定义数,数据挖掘的概念就是从海量杂乱的数据中提取隐藏的规律、知识价值的基础体系,核心的目标是发现规律、辅助决策、降低、降本增效、风险预警。六大技术的关系 关联句类属于解释数据的特征啊,这是一种分类,这也是一种分类方法,就是说从描述六大技术,六个这个 六大内容里面看,用它相关性又该给它进行一个分类,所以描述型的是关联和句类是预测型的,其实是回归分类,预测和诊断属于是预测型的。 我们现在说关联规则,现在说内容 z 是 关联。前面我们提过啊,叫什么尿布与啤酒, 这里边呢,就是说给他个核心的定义,就是我们能发现物品就是数据当中的,或者是物品或者是特征之间引含的某种关联关系。怎么说关联关系,就说 a 出现就会导致 b 大 概率出现,那这就是一种关联 经典的算法呢。呃,其实有很多种啊, 其实至少有三种,一种就现在可能这这个我们收的这个教材呢,可能比较早,一七年的,一后面可能还有更新的,这叫 april, 还有这个 f p, gross 这两种,其实还有个 hot spot, 这都是关联的算法,就它用的这个经典算法是不一样的。 核心的指标呢,它这里分,这样是知识度,就是 a 和 b 同时出现的概率叫知识度。还有自信度,就是 a 出现时对 b 出现的概率,这叫自信度,还有提升度,就说关联强度, 就说一般是大于一的,就是有效关联啊。呃,一般人总爱讲就是以这个尿布与啤酒这个故事啊,尿布就实时指沃尔玛,沃尔玛这个数据挖掘当中发现这个购物篮当中买了啤酒的 一般都会尿不湿,买的会多啊,就是同时买啤酒,同时也买尿不湿,就是正常来说,按照常规的思维,尿布与这个啤酒是风马牛不相及, 但是你要不借助这个大数据的挖掘,对大量的交易数据进行充分的挖掘,沃尔玛其实不能翻,不可能翻,这有价值的规律,但是对商务上这种关联其实是 很有很有意啊,就是假如你做沃尔堡的超市以后,知道了买啤酒的,就会买这个尿不湿, 他俩的量都对上,那我是应该把这个尿不湿和啤酒在这个柜内上,或者是在这个货架的摆放上,那肯定考虑一下。另外呢,对这个商家或怎么怎么你肯定会,你就是从经商的角度就会有他的一种, 或者说在这个配置货物的时候就会要考虑了。就是说啤酒尿布这种关系属于典型的关联关系,通过对交易的信息进行关联挖掘而得到的 数据关联是数据库中存在的一类重要可以发现的知识,若两个或多个变量的取值之间存在着某种规律性,就称为关联。关联可分为简单关联、持续关联,还有因果关联。 关联分析的目的是找出数据之真隐藏的关联网,有时 我并不知道数据库中的这种数据的关联关系,就是有时候我们是即使知道也不是确定的,所以关联分析生成的规则要带有可信度, 可以通过可信度来描述这种关系的错定程度。还有这关联的规则,就是啊,关联规则挖掘就是发现数据中 这种象棋之间存在的关联关系或者是相关关系,按照不同的情况, 这个关联的规则呢?挖掘这规则挖掘的可以分为几种情况,一般是三种情况,就说基于规则中处理的变量的类别, 关联规则可分为布尔型这个关联规则,还有数值型的关联规则。再一个是基于规则中的这种数据的这种抽象的层次,可分为单层关联规则还有多层关联规则。第三是基于 规则中涉及的这种数据的尾数,可分为单维关联规则和多维关联规则。那在量化投资这个领域当中呢, 需要研究的这种关联规则呢?就是以上三种情况都要考虑,但在实际应用中呢,到底是属于哪种情况的?这种关联往往其实 就是分的并不是很清楚,而是在考虑投资行为相关的各种关联。 以上这三种情况给出了考虑关联的途径,这样在实际应用中,我们就可以按照这些思路去探讨投资领域的关联关系啊。后面我们会讲具体的,就是具体事物之间的关联关系, 需要用到具体的关联技术,也就是我们说的这种算法。刚才我们说常用的这个算法,其实核心经典的算法应该有三种啊, 这里边是典型的应用啊,这超市购物篮分析,啤酒加尿布,还有电商商品的推荐,这也是关联套餐搭配,关联营销,这属于关联里的下一个。第二是回归,我们不说啊,分类 就是我们刚才说的就是这六大技术和六大内容当中有两个属于描述类的,其实就是一个是关联,还有个句类分析,我们这阵再讲一个句类啊, 什么是句类?句类属于从他这个定义里头是无监督学习,按照数据 相似度自动分组,无预设标签,这是他的一个核心的内核, 核心的逻辑就是为啥叫距离,就是中国人有物以类聚,就是内部相似,外部差异大。物以类聚就是有时候你看表面差别很大,但是他内部他有相似的地方。 怎么说这个据类呢?就是据类分析,又称为群分析,根据的就是物以类聚的道理。对样品进行分类的一种多元统计分类方法就是分析方法。据类分析的对象是大量的样品,要求能够 按照各自的特性来进行合理的分类。他以前他就是说在之前是没有任何模式进行参考, 即使在没有鲜艳知识的这种情况下进行分析。具类呢,是将数据划分不同的类或者是族的过程, 就是同一族中的对象很大的相似性,而不同族之间的对象的之间会有很大的相异性,就是具类分析是起源于分类学,在古老的分类学中,人们主要是依靠经验和专业知识来划分分类, 很少利用这种数学工具进行定量的分类。随着人类科学技术的发展,人们对分类的要求越来越高,以至于仅凭经验和专业知识, 其难以确切的进行分类。于是人们逐渐的把数学工具引入到分类学中,形成了数值分类学。之后又将多元分析技术引入数值分类学,形成了具类分析。更直接的说就是具类, 是先将样品大致分成几类,然后对样品进行分类,也就是说具类是为了更合理的分类。 就说有时候我们可以是对这个发现这些点点举例,一般都举这样点的类啊,就说先呃出部分,成了三类,那对于新的数据呢,它就会依照你现在这个标准进行分类。自动分类 经典算法,这个这里面后面我们会说叫 kmeans, 还有层次居类, dbscm 叫 病毒积累,典型的应用是用户群分群,客户流失群体的识别,还有异常群体检测,这都属于积累积累的应用场合。 就说在不同的应用领域,很多积累技术都得到了发展。这些技术呢,被用来描述数据,衡量不同数据源之间的相似性, 以及把数据员分类到不同的族种。在商业上的居类分析被用来发现不同的客户群, 并且通过购买模式刻画不同的客户群的这种特征。在生物上的居类分析可以用于对动植物和基因进行分类,从而获取对 种群固有的结构的认识。在地理上的这种距离分析能够帮助识别相似的地理区域。在保险行业的距离分析,通过一个 嗯,高的平均消费来对汽车保险单的持有者进行分类,同时根据住宅的类型、价值、地理位置来对一个城市的房产进行分组。 还有是在 excel 网上矩阵分析,被用于在网上进行文档归类修复的信息,就是矩阵问题的研究,已有很长的历史,迄今为止, 为解决各领域的积累矩阵问题,其实这里边提出的矩阵的这种算法 已达到几百种啊,近百种。根据矩阵的原理,矩阵这个算法各分为 几种啊?一种就是划分,划分区类、层次区类,基于密度的区类,基于网格的区类,还有基于模型的区类,虽然这区类的方法很多,但在实际 实践中用的比较多的就是有 kmeans 区类、城市区类、神经网络区类,还有这个高斯混合区类、模糊 c 均值区类等。 啊,就是这经典算法,到现在我们说教材一般,我这是一七年的,实际上在现在一七年现在就是发展的更快了。其实这类的方式 具体的这种方法算法还有很多种,后续我们再详细介绍啊。好,今天我们先讲这些吧。

大家好,我是无名,先给大家讲解一下我是如何快速就是配置这个叉锐联动这个倍儿普进行一个被动扫描的,然后像这样子是不是就是非常的一个方便高效啊?就一下子就启动了,然后接下来我将给大家讲解一下我是怎么 配置的。首先我们需要用到 youtube 这款工具啊,然后它可以做很多的一个事情啊,比如说像本地的一个文件的一个快速启动啊,包括快速搜索呀,是吧?然后大家直接在这个官网安装包啊,然后像这个的话我也放到了这个评论区的,就是这个工。 然后像最关键的这个启动脚本啊,也就是我们刚才用 youtube 进行启动的这个脚本,我已经给大家编辑好了,然后监听的这个端口我设置为了这个七七七八,然后接下来我们需要这个配置这个证书啊,因为你不配置证书的话,我们是没办法, 就是正常代理 h t t p s 流量的。然后我们来到设置这里,然后这里有一个管理证书,然后我们管理从 windows 导入的这个证书,然后在这里点击这个导出, 然后下一步,然后我们浏览把,就是找到这个安装包的一个路径,然后我们把这个证书打开,然后下一步,然后这里的话要修改为就是这个受信的一个跟证书颁发机构,然后下一步,然后完成, 然后这样子就可以了。然后接下来的话,我们还需要配置,就是这个 burp 的 一个上游代理,就比如说我们来到这个设置这里面,然后来到这个网络这里,然后我们往下翻它这里不是有个上游代理,然后这里的话我已经配置过来,然后我这里再添加一个,就比如说这里我们填写这个地址就是本地的一个地址,然后端口的话就是七 七七八,然后 ok, 然后这样子就可以了,是吧?然后我们勾选我们刚才配置的这一个新的这个地址,然后接下来,比如说我们启动这个叉尾,就直接一键启动,对吧?然后这样子就可以了。然后接下来我们来到刚才这里,然后我们来就是重新代理一下, 可以看到现在的这个已经才开始这个被动的一个漏洞扫描了,是吧?而且我在我们的这个 very short 中可能就是进行一个正常的数据包的一个抓取。

那数据挖掘的框架呢啊,其实就是说我们在做数据整体数据挖掘的时候,对吧?要什么呀?要 包括啊,探查诊断指导工具这些个大的框架,那么到数据挖掘里面呢,我们会详细的细划一下,对吧?好,那我们看一下啊, 在做整体数据挖掘的时候呢,我要明确企业当中啊,都哪哪些个数据挖掘的场景,然后呢把这个不同的场景归一下类啊,这样的话呢,我们就形成了数据挖掘的框架, 比如,哎,我们发现在企业当中经常要做的,比如精准营销啊,这是做的最多的, 然后呢是客户价值提升啊,当然了还包括客户的流失啊,因为提升是正向,那流失就是负向了,所以流失预警模型反着用啊,对吧?那其实就是提升啊,对吧?好, 另外呢信用评分啊,反映的信用情况,另外呢这些个呢都是属于有监督学习,就是 y 等于一的啊,有 y 的, 对吧?那没有 y 的 怎么办呀?没有 y 的 其实就得用矩阵了,对吧?好,就是气氛画像啊这种类型。 好,那这些个呢,都属于决策类,那么我们为什么称为决策类呢?所谓的剑魔,他寻找的是什么, 对吧?我们可以把我们呃要区分出建模的对象啊,对吧?那大家思考一下啊,那么做营销预警的对象不是营销预测的对象是什么? 是不就是我们的客户啊?那我们客户其实是自己在做决策,他是否要购买我们的产品的, 对不对啊?啊?那也就是说啊,比如有钱的人,或者是觉得这个产品对他特别有用的人,那他买的可能性就会高, 对吧?那如果某些人认为这个产品对他来说没啥用,那么他可能性就会少,对吧?所以这个决策模型啊,他属于这个客户的自己的决策, 对吧?这决策呢,包括购买决策,包括流失决策,包括违约的决策,对吧?都属于决策类 好,那么识别模型呢?识别模型呢,是站在我们建模的人员来看的,就说哪些个客户存在了一些个不正常的现象, 对吧?比如说他涉嫌到欺诈了,对吧?或者员工涉及到舞弊了啊,或者是客户呢,干了一些个不该干的事,比如洗钱了,对吧?这个统称为三法模型, 那么这种模型他是要从我们建模人的角度去识别哪些个人有问题的,对吧?比如欺诈识别啊,违规识别,对吧?他都属于识别的模型 好啊,另外就是业务优啊,还有一个就是业务优化分析,对吧?我们经常要做一些个啊,业绩预预报啊,预报之后要要调整一些个业务策略呀,对吧?或者做一些运筹优化呀,做一些个流程优化呀, 啊,这都属于啊业务优化的这个范围。那么我们在建模的时候呢,大家呢,就要对我们这样一些个啊应用的场景有所了解啊,我们整本教材, 那么他的这个这个模型框架的分类,其实就是按照决策类,识别类和业务优化类啊,进行分章节来写的,对吧? 好,那么我们看一下啊,有同学肯定会问,哎,我们识别这东西的意义在什么呢?那如果它建模方法论完全一样, 那我就没有必要去识别,去区分了,对不对啊?其实呢,它的差异性体现在两个部分,第一,取数窗口怎么设置啊?就是我们取数,对吧?第二呢,我如何评估这个模型的好坏, 对吧?所以说呢,那么决策类模型和识别类模型,那么它的取数方法和评估方法都是不一样的,刚才呢,我们把评估方法给大家讲了,对吧?比如决策类模型最推荐的是 lc 啊,这个评估指标 啊,那么这个识别这模型啊,最常见的就是 pr 曲线啊,对吧?这个这个指标,对吧?那么下面呢,我们讲一下取数, 在取数的时候,你大家看到啊,取数的时候呢?哎,这个,这是我们的决策性模型啊,就决策类,那么他就是预要预测 y 啊,就是 t, 那 么他入模的有 y 的 t 减一和 x 的, 也要至少 t 减一以上, 对吧?比如说他这基于时间点要预测的是 t y, 对 吧?那么你就要取 t 点之前的这些数 建模。而识别类模型呢,它有一个区别,就是大家看到了这个 y 这块肯定还是 t 减一的,对吧?还还是要滞后的,但这 x, 注意,这 x 是 可以不滞后的,是可以是当期的, 对吧?啊?那么甚至这个 x 可以 是往后的,比如说 t 加一期, t 加二期,还都也可以, 对吧?大家思考一下啊,比如说我们做一个模型,去预测哪些个人是杀人犯,对吧?杀人犯就是 y 等于一啊,没杀人就是 y 等于零, 对吧?大家思考一下,我们警察在判案的时候,在侦测的时候,那么他识别哪些个人是罪犯的时候,他的入魔的 x 难道仅限于作案之前吗? 对吧?作案之后的 x 他 是否会使用?当然会使用了,对不对?比如说某一个人, 哎,你当警察调查他的时候,你发现这个人已经跑远了,我们会认为他潜逃了。那如果 a 这个人 他不能倒停,他已经在外地了,或者很远,而 b 这个人啊,他在本地很近,那么作为警察,请问您觉得哪个人更有可能是罪犯? 那肯定是这个人了,对不对?所以说呢, y 等于就是 x 可以 取之后的啊,可以取,不可以取,那个 啥,往前的就是新的数据,对吧?所以说呢,这就是他俩之间的差异,就是决策类绝对不能取 y 之后的数据, 对吧?但是识别类的时候偶尔是可以,所以我一定强调的是偶尔,我可没让大家,哎,取的特别多,对吧?啊?取的时候一定要谨慎啊,这就是他们之间的差异。

欢迎来到小龙虾每日一季,今天推荐大家一个神器 bilibili o in one, 让 ai 帮你玩转 b 站。 bilibili o in one 是 一个 ai 驱动的 b 站一站式创作与数据分析工具,选择题、标题、脚本优化分析一条龙全搞定。我们就来下载压缩包安装试试吧。 下载好之后,打开小龙虾的 secure 目录,跟着我的步骤来操作, 然后来新建一个文件夹,把压缩包解压进来, 然后来小龙虾看看安装上没有, ok, 这里也是显示安装成功了,然后我们来测试一下 过程我们就跳过一下,可以看见也是帮我们分析出来了。播放量,点赞和 bv 号我们用来分析视频都是没什么问题的,关注我,后续视频也会继续分享 skill。

怎么去看竞争对手的投放情况?首先我们打开推广中心,右边这边有一个快捷入口,打开达摩房之后,我们再点到市场这个地方,市场的下面有一个竞争关系探测, 打开竞争关系探测之后,你会看到有一个很多探测结果,有各种各样的竞品,你首先你先选择自己店铺的产品,我选的是帽子, 然后这个下面有很多广告、金价行业、明星吸粉市场等等,就这些地方你每上面都有一些字,可以认真去看一下,再拉到下面最下面的时候,你会发现你关注的这些品, 他每天的投放的预算你就可以看得出来,比如说他投放是十块钱,或者是一百块钱,或者是一千块钱、五千块钱,在这里都可以看到他每天投放的金额。你再打开上面的一个货品,点开货品的时候,下面有一个打爆入镜, 点开打包入镜,选择这些产品,刚才添加了这些产品,在这里就能显示,比如说往下拉就可以选择其中某一款, 然后拉到最下面这边有一个场景投放策略明细,这个里面有关键词、人群、货品、权杖等等,这些里面全部都有,你可以看到他这个产品他的关键词投放了什么,比如说手动出价还是智能出价,还是趋势明星啊等等。在每个地方他的投放呢, 费用大概是什么样的?点击量是什么样的?乘以它的一个成本,就是它投放的费用,投放的比例是什么样的,就是它的关键词这些产品里面投放的比例是什么样的, 你可以看到它的人群里面这些比例是什么样的?它到底是智能拉新还是首购拉新,还是什么样的方式拉新,这都有显示的非常详细。再者你可以往上拉,看到上面的这边有很多的推广的费用占比, 到底是直通车多,人群多,还是货品多,还是线索交易等等,这些地方显示的非常详细。他这边有一个非常 好的一个点,就是关键策略这个地方你可以看到他做了什么动作,他大概消耗了什么样的 费用,点击率多少, r i 多少,它的词是什么样词,你就可以直接操作页,它这边也有一个操作页的按键,直接按一下就可以了,也可以看到它的是不是空投场投放的,再看到一些他们的一些关联的优质宝贝,这些地方都可以很有效的看到。