Scala 练习一 将Mysql表数据导入HBase 续第一篇:Java代码将Mysql表数据导入HBase表 源码仓库地址:https://gitee.com/leaf-domain/data-to-hbase图片无法加载请跳转CSDN:Scala 练习一 将Mysql表数据导入HBase-CSDN博客 一、整体介绍 HBase特质 连接HBase, 创建HBase执行对象 初始化配置信息:多条(hbase.zookeeper.quoru 2024-08-04 大数据 > Scala #bigData #Scala
什么是Spark RDD?(RDD的介绍与创建) 图片无法加载请跳转CSDN:什么是Spark RDD?(RDD的介绍与创建)-CSDN博客 一、RDD介绍 RDD: 弹性分布式数据集(Resilient Distributed Datasets)核心概念:Spark的核心数据抽象。通过对RDD的理解和使用,可以在分布式计算环境中高效地处理和计算大规模数据 1、特点 分布式数据集:RDD是只读的、分区记录的集合,每个分区分布在集群的不同节点上。 2024-08-04 大数据 > spark #bigData #spark
Spark 基础 与 安装 图片无法加载请跳转CSDN:Spark 基础 与 安装-CSDN博客 Spark 基础一、MapReduce编程模型的局限性1、繁杂:只有Map和Reduce两个操作,复杂的逻辑需要大量的样板代码2、处理效率低: Map中间结果写磁盘,Reduce写HDFS,多个Map通过HDFS交换数据 任务调度与启动开销大3、不适合迭代处理、交互式处理和流式处理 二、Spark是类Hadoop M 2024-08-04 大数据 > spark #bigData #spark
Kafka介绍安装 Kafka 分布式消息队列 多副本 容错:in-sync replicas I S R =zoo keeper=> Leader 副本丢失,从 I S R中选择新的 Leader I S R 宕机 => 从剩余的 follower 中选择替代 读写分离 Leader 负责写操作 I S R 中任何一个 replica 都可以读、 多分区:M 2024-08-01 大数据 > Kafka #bigData #Kafka
YARN 监控管理 与 资源调度 YARN 监控管理 与 资源调度 YARN WEB UI服务 零拷贝 io nio 多路io,共享内存 ,并行 bio 阻塞,安全 2024-07-31 大数据 > hadoop #bigData #hadoop
分布式消息队列Kafka 分布式消息队列Kafka 简介: Kafka 是一个分布式消息队列系统,用于处理实时数据流。消息按照主题(Topic)进行分类存储,发送消息的实体称为 Producer,接收消息的实体称为 Consumer。Kafka 集群由多个 Kafka 实例(Server)组成,每个实例称为 Broker。主要用途:广泛应用于构建实时数据管道和流应用程序,适用于需要高吞吐量和低延迟的数据处理场景依赖:Kaf 2024-07-30 大数据 > Kafka #bigData #Kafka
Hadoop 高可用 cha04 hadoop ha1234567891011121314151617181920212223242526272829303132333435363738394041424344454647484950515253# 时间同步yum -y install ntpdate.x86_64ntpdate -u cn.pool.ntp.org#解压并重命名tar -zxvf /opt/downl 2024-07-17 大数据 > hadoop #bigData #hadoop
在Linux上部署各类软件 前言为什么学习各类软件在Linux上的部署在前面,我们学习了许多的Linux命令和高级技巧,这些知识点比较零散,同学们跟随着课程的内容进行练习虽然可以基础掌握这些命令和技巧的使用,但是并没有一些具体的实操能够串联起来这些知识点。 所以,现在我们设计了各类软件在Linux上部署安装的实战章节,可以让同学们: 对前面学习的各类操作命令进行复习和练习,从而深度掌握它们 本章节中演示部署的软件,包含了I 2024-07-14 linux #linux
linux 命令 网络请求和下载1wget [-b] url # -b后台下载 1curl [-O] url # -O用于下载文件,url要发起请求的网络地址 wc命令做数量统计1wc [-c -m -l -w] path # -c 统计bytes数量,-m 统计字符数量,-l统计行数,-w统计单词数量 systemctl命令Linux系统很多软件(内置或第三方)均支持使用systemctl命令控制:启动、 2024-07-14 linux #linux
Scala 补充 正则、异常处理... Scala 补充 正则、异常处理…基于前几篇文章 (Scala介绍与环境搭建、Scala 第一篇 基础篇、Scala 第二篇 算子篇、Scala 第三篇 OOP篇) 补充 一、正则 1、匹配 2、替换 3、分割 4、分组 5、练习 二、异常处理 三、类 型信息处理 一、正则1、匹配 简单匹配 1234// 判断content是否为数字val content: String = " 2024-05-16 大数据 > Scala #bigData #Scala