flume
flume
install
1 |
|
conf file
1 |
|
flume-ng
1 |
|
[hive sink 异常]
1 |
|
hive sink template
1 |
|
hbase sink template
1 |
|
kafka source hive sink
序号 | 参数 | 值 | 描述 |
---|---|---|---|
1 | type | org.apache.flume.source.kafka.KafkaSource | * |
2 | kafka.bootstrap.servers | kafka服务器地址 | * |
3 | kafka.topics | 多个标题之间用逗号 | * |
4 | kafka.consumer.group.id | 消费者分组ID,组内用户共享Partition 默认空白字符串 |
|
5 | kafka.consumer.auto.offset.reset | 读取偏移量,默认latest 可选smallest,largest, none(无Offset抛异常) |
|
6 | batchSize | 批量读取,默认 100条 过大会导致内存积压,性能下降 |
|
7 | batchDurationMillis | 检查消息更新的时间间隔,默认 1000ms 过于频繁检查会增加网络和CPU负载,影响性能 |
|
8 | kafka.consumer.auto.commit.enable | 是否自动提交 offset,默认 true 若为false,需通过Channel Processor手动提交 |
|
9 | kafka.consumer.max.poll.records | 一次最多从Kafka中读取的记录数,默认 500 | |
10 | kafka.key.deserializer | 默认 org.apache.kafka.common .serialization.StringDeserializer |
|
11 | kafka.value.deserializer | 默认 org.apache.kafka.common .serialization.ByteArrayDeserializer |
|
12 | parseAsFlumeEvent | 是否解析成Flume时间,即封装为 KafkaEvent对象,默认 false |
|
13 | selector.type | 事件选择器类型,默认 replicating 将事件 复制到所有连接的 Channel; multiplexing 将事件发送到通过拦截器链指定的单个 Channel |
|
14 | selector.optional | 当selector.type 为 multiplexing 时, 是否允许 Channel 缺失,默认为 false |
|
15 | maxConcurrentPartitions | 最大并发分区数,默认值为 1 多分区读取并发度,较高值可以提高吞吐量 但不能超过实际分区数 |
|
16 | pollTimeout | 从 Kafka 中读取消息的轮询超时时间 默认 5000 ,即5秒中 |
|
17 | consumer.timeout.ms | 客户端等待 Broker 返回消息响应超时时间 默认 120000 ,即2分钟 |
|
18 | kafka.topic.whitelist | 用于白名单过滤,指定需要被消费的topic列表 | |
19 | kafka.topic.blacklist | 用于黑名单过滤,指定不需要被消费的topic列表 | |
20 | topicHeader | 将消息主题添加到 Flume 事件的头中 | |
21 | keyHeader | 将消息键添加到 Flume 事件的头中 |
1 |
|
flume
https://leaf-domain.gitee.io/2025/03/22/bigdata/others/flume_cha02/