有Mysql为什么还要有Hadoop？大数据怎么处理？ Hadoop是什么？架构是怎么样的？它跟HDFS, Spark, Flink, Hive, Hbase是什么关系？ #mysql #程序员 #hadoop #大数据 #Hdfs

hadoop框架是什么

4.6万

1479

2.3万

7814

举报

发布时间：2026-04-08 17:00

粉丝41.2万获赞130.0万

相关视频

03:00
大数据初学者必须掌握的最最重要的入门技术Hadoop#大数据 #hadoop #mapreduce #hdfs #yarn
352Pai老师聊大数据和AI
05:45
本视频将帮助您理解什么是#大数据，Hadoop为什么会出现，以及#Hadoop 是什么
查看AI文稿
AI文稿
let's rewind to the days before the world turned digital back then minuscule amounts of data were generated at a relatively sluggish pace all the data was mostly documents and in the form of rows and columns storing or processing this data wasn't much trouble as a single storage unit in processor combination would do the job but as years passed by the internet took the world by storm giving rise to tons of data generated in a multitude of forms and formats every micro second semi structured and unstructured data was available now in the form of emails， images， audio and video to name a few all this data became collectively known as big data although fascinating it became nearly impossible to handle this big data and a storage unit processor combination was obviously not enough so what was the solution， multiple storage units and processors were undoubtedly the need of the hour this concept was incorporated in the framework of hadu that could store and process vast amounts of any data efficiently using a cluster of commodity hardware padup consisted of three components that were specifically designed to work on big data in order to capitalize on data the first step is storing it the first component of hadoop is at storage unit， the hadoop distributed file system or hdfs storing massive data on one computer is unfeasible hence data is distributed amongst many computers and stored in blocks so if you have six hundred megabytes of data to be stored hdfs splits the data into multiple blocks of data that are then one stored on several data nodes in the cluster one hundred and twenty eight megabytes is the default size of each block hence six hundred megabytes will be split into four blocks a， b， c and d of one hundred and twenty eight megabytes each and the remaining eighty eight megabytes in the last block e， so now you might be wondering what if one data node crashes do we lose that specific piece of data well， no， that's the beauty of hdfs hdfs makes copies of the data and stores it across multiple systems for example when blockay is created it is replicated with a replication factor of three and stored on different data notes this is termed the replication method by doing so data is not lost at any cost even if one data note crashes making hdfs fault tolerant after storing the data successfully it needs to be processed this is where the second component of a dupe map reduce comes into play in the traditional data processing method， entire data would be processed on a single machine having a single processor this consumed time and was inefficient especially when processing large volumes of a variety of data to overcome this map reduce splits data into parts and processes each of them separately on different data notes the individual results are then aggregated to give the final output let's try to count the number of occurrences of words taking this example first the input is flit into five separate parts based on full stops the next step is the mapper phase where the occurrence of each which word is counted and allocated a number after that depending on the words similar words are shuffled sorted and grouped following which in the reducer phase all the grouped words are given account finally the output is displayed by aggregating the results all this is done by writing a simple program similarly map produced processes each part of big data individually and then sums the result at the end this improves load， balancing and saves a considerable amount of time now that we have our map produced job ready it is time for us to run it on the hadoop cluster this is done with the help of a set of resources such as ram， network， bandwidth and cpu multiple jobs are run on to dupe simultaneously and each of them need some resources to complete the tasks successfully to efficiently manage these resources we have the third component of hadu， which is yarn yet another resource negotiator or yarn consists of a resource manager， node manager， application， master and containers the resource manager assigns resources， node managers handle the nodes and monitor the resource usage in the node， the containers hold a collection of physical resources suppose we want to process the map produced job we had created first the application master requests the container from the node manager once the node manager gets the resources it sends them to the resource manager this way yarn processes， job requests and manages cluster resources in hidu in addition to these components hadoop also has various big data tools and frameworks dedicated to managing processing and analyzing data the hydup ecosystem comprises several other components like hive pig， apache spark flum and scoop to name a few the hydup ecosystem works together on big data management so here's a question for you what is the advantage of the three x replication schema in hdfs a supports parallel processing b faster data analysis c ensures fault tolerance d manages cluster resources hidub has proved to be a game changer for businesses from startups and big giants like facebook， ibm， ebay and amazon there are several applications of hidu like data warehousing recommendation systems， fraud， detection and so on。
1057虎哥课堂
19:35
Hadoop集群搭建，教程时长5小时40分钟。#编程语言 #电脑
108宇将军只搞技术
02:09
Hadoop基础知识
查看AI文稿
AI文稿
hidob 是一个开源的分布式计算框架，用于存储焊处理大规模数据集。以下是 hidob 的基础知识， hidob 架构 hidob 有两个核心组建，组成其 hido 分布式文件系统。 hidobs 是一个可扩展的分布式文件系统，用于存储大规模数据集。 moppydos 是一种分布式计算框架，用于在集权中并行处理大规模数据。 high dob 生态系统 high dob 生态系统包括许多其他工具和项目，用于增强 high dob 的功能和性能。例如把 party have 可以提供类似于 sql 的查询语言，用于在 high dob 上进行数据分析。而 party p 提供了一种类似于脚本的语言，用于编写数据流处理任务。而 party sport 是一个快速通用的大数据处理框架，可以与 heidob 集成 heidob 集群 heidob 集群有多台记计算机组成，每台计算机称为一个节点。集群中有两种类型的节点，组节点看工作节点。组节点包括一个组服务器 name note，还有一个备用服务器 secondary name note 用于管理文件系统的原数据。工作节点包括一个或多个数据节点。哈 doop 数据处理流程在哈 doop 中，数据被分割成多个块，并在及群中的不同节点上进行存储和处理。 mark too 是哈 doop 的核心计算模型，它有两个阶段组成，脉搏阶段，汉、罗柱时阶段。在脉搏阶段，数据被分割成小块，并在不同的节点上并行处理。在罗柱时阶段，结果被合并汉会中。这种病情处理方式可以提高大数据级的处理效率。 hidub 的优点 hidub 具有以下优点，可扩展性 hidu 可以在集群中添加或删除截，以适应不同规模的数据处理需求。容错性，嗨度可以自动处理节点故障，保证数据的可靠性和一次性。成本效益，嗨度使用廉价的硬件组成集群，相对于传统的数据处理解决方案更具成本效益。处理多样化的数据，嗨度可以处理结构化、半结构化、悍非结构化的数据，包括文本、图像、音频等，这些是嗨度的基础知识。了解这些知识可以帮助你理解嗨度的工作原理和应用场景。
36华科云商-金木
14:10
大数据~搭建集群环境：安装Hadoop（1）
#大数据 @抖音小助手
查看AI文稿
AI文稿
嗨，大家好，我是郝小妙同学。那我们今天就来正式的开始安装我们的这个大数据的鸡群环境。首先第一个就是我们的这个好杜甫，我们之前有看到这个集群的主见啊，有好杜普如 keeper have my circle， scoop flu，那么我们首先就看第一个主见，好 dope，好 dope 这一边的话呢，我们今天用这个 big day 零二来测试安装一下，包括后面的这个买 sco 啊，我们都用这个 beautile 尼亚这台机器来进行测试安装。这个好豆腐的安装呢，有一些个步骤和过程啊，大大体的这个步骤的话，首先是我们先要把这个好多部的安装文件，我们要把它上传到 big 对等零二的这个虚拟机里面去，这这个另类个系统里面去。嗯，我们统一都是放到这个，我们有一个操作 opt 操作目录，然后有一个 mother 这个模块，我们放到这个目录下，对，我们上传也算到这里，然后安装的也安装到这个里面，然后把上传的这个安装包文件解压一下，这个里面会有两个东西啊，一个是我们他这个好杜甫运行的话需要有 gdk 的这个运行环境，所以我们要把这个 gdk 传上去给他安装好，然后再把这个好杜甫传上去给他安装好，他这个解压完成时间就是安装完成了啊，最主要的是我们要去配一些这个环境电量啊。再后来的话我们就可以验证一下，看是否有安装成功，看看这个家务有没有安装成功，这里可以有没有安装成功好杜甫有没有安装成功，安装成功了之后呢，我们要再去修改一下这个好杜甫的配置文件啊，格式化这个好度部的集群，然后再启动好度部的一些相关的服务，最后我们再来这个验证一下好度部服务有没有正常启动。呃，最终我们再通过一个持平的统计来验证一下好度有没有正常的这个变形。好，那我们就一步步来试一试吧。我们用 begaden 零二来做个测试，我们登录进去 rot，用 rt 登录进去。好，这样子我们就登录到了这个入口的账户里面，那我们的这个安装文件怎么办呢？我们说了他要创建一个目录，对不对？我们现在看看有没有他，这个底下有没有 opt 目录，没有，我们创建一下 mkdlopt。好，这样子就创建了一个 opt 的一个目录了，然后呢我们继续在 opt 底下进入到 opt 里面，然后呢在 opt 底下 mktr 再创建一个 moder 的怎么录，对吧？哎，再创建一个 model 的怎么录？然后我们这个时候就需要把我们的那个安装包文件要上传盘，我们上传用 x f t p，我们要把这个连接上我们的 begate，等零二。好，然后呢进到 obd，进到摩尔德，这是我们的这个目录，我们要去把对应的那个啊安装文件，我们要给他上传到这里面来。那有哪些安装文件呢？啊？有一个 gdk，我们把它拖过来，然后呢有一个好杜普，我们把它拖过来。 haf 的话呢？我们后面讲 haf 安装的时候我们再来说，好多不是两点七点三的版本， j k 是 j k 八，好，这样子我们的文件就已经上传完成了，我们可以到这边来看一下，嗯， i s，我们显示一下下这个底下的东西啊，我们进到这个 model 里面去 is 这你会发现这里面就有两个文件，对不对？ l l，我们用列表的方式展示出来，这就是我们刚刚上传上来的两个文件。那现在的话呢，要准备安装了，在安装之前呢，我们还要再检查一下，检查一下我们这个防火墙有没有关闭啊？我们看一看他这个防火墙的状态，试试他们 control，然后我们看一看这个 statues file ward service，看看他的状态，因为发现他的状态是，呃，正在运行的，对吧？他是正在运行的，那这个时候呢，我们要要关闭他，我们要关闭这个防火墙的自启动。那怎么关闭呢？首先我们用 system 先停止掉这个防火墙， file word 点 service stop file word 点 service，先把防火墙停止掉，然后呢再把它关掉。 system 吗？ control deserve service，那这样子呢？我们相当于就是把它啊关闭了，而且呢是不会再自启动了。接下来我们还要再关闭我们的那个 celix 的安全策略。 celox 安全策略我们之前是已经关闭过了的，但是我们这里为了确认一下，还是要去配置一下 win 这个 etc，底下的 c 六克斯，十六个是底下的。看这个这个文件，我们进来看一下，好，你会发现这里是 dj bod，那说明我们之前已经关过了的，退出去。这个关闭了之后呢，还要再配置一个时间同步。配置一个时间同步是用哪个命令呢？用用赶一，然后在在这个里面要编辑一行这样的东西进去，是吧？插入杠五心心心心干 u 者，干 sbin，干 ntp，好像是要写一行这样的画进去啊。退出编辑还模式 w q 写入退出，然后修改后使出文件后使出文件。我们之前已经改过了，这里我们就不用再改了。接下来是在 obd 底下创建 model 目录，这个我们都已经创建好了。配置 ip 地址， ip 地址我们也已经都配置好了，这个就不用再配了。免密登录，这个我们也都已经配置好了。好杜普的免密登录试一下啊。切换到好杜甫账户 su，我在 su 看好杜普。切换到好杜普的账户配置免密登录 cd home how dope ho ho dope l s 把文件传到了这个底下，我们看一看免灭登录三 tis 免密登录难道是跟账户直接相关的吗？那我们 s s h 看 copy 看 id。这个对，现在是零二，我们要考到 big 队的零一， big 队的零二和皮革队的零三上面去。那我们把零一启动一下，把零三也启动一下。他是在后好肚子底下创建了这个工药师药队。那就是确实是跟账户相关的啊。我们之前创建免密登配置免密登录的时候都是用的 rut 账户创建的，在这里他要求用另外一个账户好度不账户来创建。那我们就用好度账户再创建一下吧。比对的零一，我们要入他登进去，若他登进去比对的零二，嗯，直接用好 dope 登录看看好 dope 登录对 s you 看好度不登进来。好好，我们这个零一零三都是用好度不登录了，我们还是回到零二，回到零二这里面，我们要把这个哎，把这个工药要拷贝到对应的这个机器上面，去其他两台机器上面去拷贝。 come in。考 big det 不行啊，你要考虑到 bigg day 零一对不对，考过去，考过去，考 dope big day 零一的密码思考 do。好，那这样子的话呢，就可以免密登录一对零一了。用好 do s h bit 零一，哎，直接就登到零一上面去了，我们还是回到我们的零二密码是好，度谱好，这样子，我们还是要用那个 s s h 脱皮看 id 像 big date，零三也拷贝一份空调好度好，那这样子像林三也拷贝了一份，那我们这个零一毫度普振力，我们也要产生一个公司要对，对不对？那这里的话呢，我们就需要用 this is h 看 gain key generate 看 t r s p 产生公司要对，然后呢？用 s s h 擀锅皮，要把它拷贝到另外两台机上去。扣屏 id 这个 data，这是零一吗？像零一复制一份。 yes，好， goop 拿下，你要复制一份。 yes， this is how how oop？三副这一份 yes，好， goop。在这个泥山上面，我们也是 s s h 干 t game 要产生这个干 t game，空格干 t rsa 产生公司要对，然后用 s s h 看破皮看 id。先比个对的连衣服这一份， yes， how do？然后下面二，复制一份工药。 yes，好 do，然后这样，我们先复制一份 yes，然后 do。那这样子的话呢，我们三台机器的这个工药就都在对方的机器上存在了，那这个是准备工作，就是完成了。那接下来的话呢？我们文件已经传好了，要开始这个安装了。好，我们来安装一下啊。
498好巧妙同学
03:07
Hadoop三大组件是什么大数据时代的来临 #hadoop #hadoop是什么 #hadoop原理 #大数据
查看AI文稿
AI文稿
杜普的三大主见是什么？那我们现在要聊一下，要了解哈杜普，我们必须先了解大数据，都不是由叫阿帕奇基金会发起了一个分布式系统的基础框架，那就是为了解决现在海量的存储啊，数据的分析啊。诞生的这个哈杜普是用我们说的这个加瓦语言代码来写的，早在两二零零一年的时候，阿帕奇的一个，可以说呢，谷歌是哈杜普的思想之源，哈到哈杜普就此诞生并迅速的发展，而也标示着云计算的时代的到来。那我们来回答前面讲的哈杜普呢三大主见，第一个是 h d f s 是一个高可靠，高吞吐量的分布式式的文件系统， fs 就是 file system map reduce。第二个就是一个分布式离线并行计算的框架，什么叫并行计算？就是叫多，就分布式多投资进行的这个计算的框架。第三个是 yen，分布式资源的管理的框架，我们要只要知道杜甫有这三个框架构成就可以了。第一个简单讲， hdfs 是一个可以存储含量的数据，可以支持分布式的文件系统，数据是以 block 的方式来进行存储的。那第二个 memory dose 呢，是一个零线变形的计算框架，它可以对海量的数据来处理它的它的呃，它的思想就是啊叫分而自知啊，大数据将这个数据集分成小的数据集，每个数据集在进行逻辑业务的一个处理，叫 map，去把它印作映射。最后呢做一个合并统计数据的结果要 reduce deals，叫 map reduce。第三个叫，这是分布式的资源管理的框架，我们刚刚讲的有分布式的存储，分布式的计算，一定要有一个分布式的管理的框架，可以把这样大量数据通过单一的那个单元的处理，把它把它管理起来，所以有一个叫做调度集群的，关于大数据，我们今天在这不详细展开，大数据的生活已经息息相关，所以作为一个普通人，我们了解了哈杜普的组成就可以了。那国产化的大数据现在所使用的阿杜都是由创造的，为了避免出现啊像手机的系统，安卓被人卡脖子的事件的发生，这个大数据的基础的开源系统呢，同样存在这样的风险，就凡是还是应该拥有自己自主可控的软件和硬件系统，我们也应该拥有自己的中国的哈杜普的大数据的系统。好的，关于哈杜普的组建的话题，你有任何的观点，欢迎在评论区留言，今天的视频就到这里，感谢你的观看，我们下期再见。
71刘渊有话说
00:35
#大数据 #大数据让我们相遇 #计算机 #程序员 #干货分享不客气的说，这个概念如果你还没懂，真是大数据这个门你就没进去！@DOU+小助手 @抖音小助手
查看AI文稿
AI文稿
我们在学习大数据的时候啊，哈杜普呢，是绕不过去的，必须要学习的一个大数据框架。哈杜普呢，他有三大核心组建，分别是 hds、 matter、米六色和 beyond。在这里面呢，其中 hdms 提供了海量数据的一个分布式存储的解决方案，而 magnos 呢，提供的是海量数据的分布式计算的解决方案。而雁呢，提供了分布式计算当中的资源调度的一个解决方案。因此啊，我们说哈杜甫，他是一个集数据的分布式存储，分布式计算还有资源的调度于一体的数据框架。
220大数据章鱼哥
03:57
四分钟零基础搞懂Hadoop！Hadoop的功能组成和由来。#知识分享 #SQL #Hadoop #大数据 #编程#开发#数据库
7SQLynx
07:49
海量数据怎么存？HDFS 是什么？架构是怎么样的？数据很大，你忍一下。。。 #HDFS #java #程序员 #大数据 #Hadoop
1.5万小白debug
06:54
Hadoop基础环境搭建之单机模式的安装与配置 #计算机 #代码 #高性能实用工具 #编程 #计算机专业
88🥝米老鼠紫薇🥝
00:47
#程序员 #编程 Hadoop 到底是干什么用的？
37九百击官方号
09:16
Hadoop大数据Day1-02-数据分析与企业数据分析方向 #大数据 #Hadoop
查看AI文稿
AI文稿
作为大数据讨论知识呢，首先咱们来聊一聊企业当中数据分析的方向，通过这一块的学习呢，第一个希望大家能够去了解数据到底是什么，以及怎么样才能够产生数据。第二个呢，能够说出来在企业当中开展数据分析的三个方向，或者换句话说，一家公司他为什么要进行数据分析呢？那么这三个方向其实就对应着我们在大数据当中经常聊到的三个名词，一个叫做离线分析，一个叫做实时分析，还有一个呢叫做继续学习。那么这三个非常专业的名词，他到底是什么意思？跟我们说讲的方向有什么关联？那么通过这一个字典学习呢，可以让大家有一个更深的了解。那首先咱们来看一下什么叫做数据，那么官方的定义呢？比较抽象，他说数据是只对客观世界进行记录并可以鉴别的符号啊，听上去好像很懂，又好像不懂的样子，后面呢又做了一个描述，是对我们客观事物的性质、状态以及什么关系进行记录的一些符号。我们举个简单例子吧，我们这里正在进行一场篮球比赛，对吧？作为一个记分员，我在这里拿一个比干什么呢？我记录了几点钟，那几分，哪个人得了几分，对吧？是投篮进呢？还是发球进的？哎，大家看，随着比赛的进行，那么这个记分员当中的这一个指不是源源不断的产生数据吗？也就说白一点，数据它本身不会来到我们面前，对吧？那你必须通过一些手段把它计量记录才可以产生。那么这里老师还要强调一点，我们提到数据的时候呢，它不仅是我们所讲的数字，一二三也可能是我们的文字，也可能是我们的字母，甚至是我们所讲的图像啊，一些音频、视频等等等啊，我通过摄像机拍摄一段我们结婚的视频，那这也是数据啊，那我通过一个比，把我们每天的天气情况记录一下，今天下雨了，昨天晴天了，哎，这也叫数据？所以说只要是对我们客观事物的一些属性、数量、位置以及关系记录下来的东西，都叫做数据。那么当然第二个字典就出现了，数据怎么产生的？必须对我们客观事物进行计量和记录，才能够产生数据，因为这些状态属性是他客观存在的，对吧？不记录，不计量，他不观测他，他不会量化成为我们的数据。那么下面这几个图可以帮助我们更好的去理解这句话，比如说在古代呢，他们为了记录下来经天打了几头猎，怎么办呢？通过绳子叫做节绳技术的方式，对吧？那我第二天通过数这个结束，哎，昨天打了五头猎，那当然后来呢，出现了笔和纸，这个计量记录的手段呢，更加的发达，对吧？我可以把任何情况，任何事件给他用笔写下来，那么才有了我们今天去看中国的各种历史书，那不都是一些数据吗？那现在的技术更加发达了，对吧？各种智能设备，各种传感器，帮助我们去监测，什么生理数据啊，心跳数据啊等等，那么这些也是数据产生的方式。那么不管怎么说，客观事物它的属性性质，你必须通过计量和记录才能够产生数据，那么有了数据之后呢？接下来就遇到下一个问题，在我们的企业的当中，我为什么要去开展数据分析，对吧？或者说数据分析有哪些具体的方向？其实我们大家可以了解一句话叫什么呢？数据多了之后，数据之间一定是有关系的，是不是？那这些关系对你有没有帮助呢？那不知道看你能不能找出来。那其实我们所讲的数据分析概括起来就是什么呢？把隐藏在数据背后的一些规律信息干什么呢？给他提议出来，我们企业当中需要做一些决策，做做一些判断的时候呢？他不能瞎拍桌子决定，对吧？那么可以根据这些规律来做一个合理的决策。概括起来来说呢，在日常的基因当中，数据分析主要有三个方向，叫做现状分析、原因分析以及预测分析。那么首先咱看一下这个现状分析，那么他的侧重点在什么呢？在于分析的数据是当下的数据实时产生的数据，或者说这个数据从产生到现在分析呢，时间间隔非常短啊，我想看一下我们现阶段整体的情况如何？各个部分占比情况怎么样？有没有波动。第二类呢叫做元音分析，那么这个分析呢，侧重点在于过去的数据，或者说叫做历史的数据。那么说的再直白一点就是数据从产生到我现在去分析他已经有很长一段时间了，比如说过了一个月之后呢，老板发现，哎，我上个月的销售额好像下降了百分之三十，这是什么原因呢？你赶快对我们上个月的销售记录做一个分析。哎，那这种情况下我们主要什么呢？为了确定某一个原因，对我们的历史数据开展分析，那么第三个呢？显得更加的高大上，他侧重于什么呢？预测未来，根据我们现在产生的数据，来判断一下未来某件事会不会发生，发生概率的多少，对吧？有没有一个趋势的出现？那么这三个应该来说就是我们当下在企业当中开展数据分析三个主要的方向，并且恰好呢这三个方向正好对应着我们大数据当中经常所说的三个名词，一个叫做离线分析，一个叫做实时分析，还有个叫做继续学习。那接下来咱们来看一下到底有什么对应关系。第一个呢，我们把它叫做离线分析，那么这个离线分析的侧重点什么呢？数据从产生到现在，我去分析他已经有一段非常明显的时间间隔了，对吧？他是一个面向过去，面向历史的数据分析。那么当然有人会说，老师这个时间间隔到底多久呢？对吧？你可以一天一分析，分析过去一天的，你也可以什么呢？一周一分析，叫做 t 加七，那当然这个时间越长，那么这个数据它所产生的离我们的间隔呢？会越大，对吧？那么这个离线分析呢，还有一个说法叫做批处理，叫做败器。为什么叫批处理呢？你想啊，我们每天分析前一天的他有个非常明显的时间批次的变化，比如说我作为公司的一个分析人员，我每天结束之后呢，都来盘点一下我们今天的一个业务运营情况。哎，那这样的话呢，我每天一分析，每天一分析，是不是有一个非常明显的批次性的变化？所以说我们的离线分析也把它叫做批处理啊。第二块呢，我们把它叫做实时分析，所谓的实时呢，跟我们刚才讲的离线其实有非常大的关系。大家听我举这个例子啊，刚才老师说我们一周一分析叫做离线，那么一天一分析呢，也叫做离线，那我一小时一分析呢？有的人说这还叫离线，那我一秒钟一分析呢？我一毫秒一分析呢？哎，大家 get 到这个点没有？有说白一点啊，我们这个实时分析呢，他主要讲的是数据从产生到我们去开展分析到应用，这个时间的间隔非常非常短，对吧？那我们常说的有什么？秒级或者好秒级？那么实时和离线之间最大的区别就在于数据产生到你分析应用的一个间隔，那么离线呢？他可以一天两天可以很长，而实时呢，当然是越短越好啊，那么这是我们所讲的实时分析，那么实时分析呢，还有一个别名叫做流，不是处理，叫做是追民。为什么呢？大家把我们这个数据啊，这个时间间隔来想成一股一股水流，对吧？比如说我一天流一股水，那叫做批处理，是不是？那如果把这个间隔说的非常非常短，那么这些数据是不是就连成一条线了，对吧？变成所谓的一条流，源源不断的流过来啊？所以说也把我们的实时分析呢叫做流逝计算，流逝处理，那么第三个呢，我们把它叫做机器学习，我们姓扔你 ml，那么这个听上去就很高大上，老师啊，机器还能学习，他学习什么呢？其实他主要所描述的是什么呢？基于我们已经产生的数据，不管是我们过去的还是当下的数据呢，来去预测一下未来的事情会怎么样？那么这当中呢，他会涉及到我们一些数学算法的应用啊，包括我们的所讲的什么分类、聚类、关联预测，对吧？举个简单例子，张三呢，昨天买了尿不湿，今天呢买了婴儿奶粉，那我来去，下次他来购物的时候，我来做一个推荐，对吧？这个张三啊，经常搜索婴儿的这些东西，那肯定是一个超级奶爸哎，那这时候呢，给他做一个推荐，推荐一些婴儿的产品。大家发现这当中老师刚才所举的例子呢，就简单的使用到了一些预测的算法，对吧？要去对我们的数据做一些判断分析，那么这三个专业名词呢，正好对应着我们刚才所讲的企业当中的三个方向。如果我们是对当下开展现状分析呢，更侧重于我们的实时计算，如果说是对我们的历史数据开展分析呢，更侧重更偏向于我们的叫做离线计算，那当然如果你想预测未来，那么请使用我们的继续学习，那么这就是我们所讲的企业当中数据分析的三个方向。
174黑马程序员视频库
00:09
你必须要知道的五种常用大数据框架 #大数据 #编程 #程序员 #办公软件
357黑马程序员直播号
18:24
08_Hadoop框架讨论大数据生态-Hadoop的组成部分-HDFS的架构描述 #HDFS的架构描述
21遗忘的时光
18:12
大数据课程分享——尚硅谷Hadoop篇09__Hadoop的组成部分-YARN #hadoop原理
49Vbnnn
02:08
基于Hadoop的数据仓库Hive：系统设计与架构 #编程#大数据 #hive
查看AI文稿
AI文稿
大家好，欢迎来到新手科技，我是新哥，那上一期视频呢，我们给大家介绍了大处以下的北京系统 skfice。那这期视频呢，我们来介绍一下 happy 它的原理和加过了设计。那我们也知道哈杜普德数据层次的问题啊，买 f 六十呢，又提供了一个通用的分布式处理计算框架，但是呢，当你右表复杂的手手写，买 plus 是一个相对比较复杂的操作，而更多数据处理的岗位。大家对于 c 口是比较熟悉了，那因此呢，使用 c c 口比马拉自动起 c 为 map 六 s 这样的解决方案，害物就应用而生。好，那我们来看一下哈尔特的架构。那哈尔对外提供了一个哈弗 c 口，或者称之为 h t o l 的语言，那 h q 的语法跟我们通常用的 c 口语法并没有太大的差别。那哈尔对外提供了命令行， cdbc 以及 vipi 各种不同的方式，从而使你在命令终端或者说你的各种语言的拉伯瑞，以及你可以通过 apple 的方式来用哈尔基因数据的交互。那么你可以看得出整个抓位是哈尔的核心，那他的输入呢，是一段 cc 库的文本，那经过 pass 之后生成相应的执行计划，然后通过各种优化器优化这个计划之后的话，落地 xq 的执行。那最终这一执行呢，会变成一个一个的 vip 的任务，并且他的数据的输入过程的存储和结果都保存在 hds 上。那你知道 map 六十四跟 iphone s 是好多不象的核心。这里号的设计非常依赖，有好多我本身提供的能力。那你可能会好奇这边有一个 mate boss，它是做什么用的呢？那这台 mate boys 呢，存储的是哈弗中的一些语言数据，比如说表列，权限，分区等等这块信息，而且往往它存在于光显示数据库，比如说马西扣中。那在其他的一些大区情况下中，比如说斯巴托普洱特中，太有会引用到哈尔滨的麦斯岛，从获取到这里的存储数据结构和数据，然后进行计算。那最后呢，我也要谈一下我的感受，有些人会说 spa 和 plus 这样的算框架号称比哈喽快上一百倍，那我们还用哈弗干嘛呢？那但是回顾历史，哈弗的出现，他让 c 回来代替麦 pluse，这其实是一个非常大的提升，并且呢，我也非常向他们设计，他充分利用 iphone 的 mate 六十跟 hds 的能力，而仅仅扩展了 c g 的解析和匀速性存储这么两个必要的部分，那加入的设计依赖清晰，也非常简洁，那哈佛 c 口中所遇到了一些优化的技巧，比如说沙否或者是障碍，同样也是用了普洱少或者 spa。那我们会在后续的章节中为大家介绍。好，那今天关于哈的部分呢，我们就介绍到这边，那如果说这个视频对你有帮助的话，也欢迎点赞加关注，那我们下期再见。
388猩球科技
01:13
基于大数据的农产品销售趋势分析与预测本研究采用Hadoop分布式架构搭建农产品销售大数据平台，集成Spark实时计算引擎与TensorFlow深度学习框架，开发了具备多维度特征提取能力的智能预测系统。系统通过时间序列分析挖掘季节性销售规律，运用XGBoost算法构建多因子关联模型解析地域消费差异，并采用LSTM神经网络实现动态滚动预测。实证结果表明，该系统在农产品价格预测中达到93.2%的准确率，销售趋势预测误差率控制在4.8%以内。相较于传统预测方法，本模型在特征工程阶段引入注意力机制，有效提升了极端天气事件与政策调控因素的特征权重占比。
#毕业设计 #毕设 #计算机 #编程 #大四
2代码小鑫
01:05
大数据≠Hadoop，先确定业务目标，再去定技术架构，技术终归是为业务服务的#大数据 #干货 #数据分析 #经验分享
14Dataer贾雪冬

热门推荐

热门分类