Hudi 写 MOR 表性能问题分析

in Flink,Hudi read (2085)

Flink 版本: 1.14 Hudi 版本: 0.8.0 背景 测试发现当使用 MOR(Merge On Read) 表的时候写入速度很慢 问题原因 对环境和代码进行分析, 发现有 2 个问题 测试环境使用的是虚拟机, IO 速度很慢 Hudi 代码有问题 下面对代码问题进行分析 问题分析 ...

Continue reading

Hudi 参数

in Hudi read (1489)

Hudi 版本: 0.8.0 Source 参数 参数名 必填 默认值 类型 说明 path 是 无 string hudi 表路径 partition.default.name _DEFAULT_PARTITION_ string 如果动态分区列的值为空或 nu...

Continue reading

Hudi 调研

in Hudi read (1709)

1. Hudi 简介 Hudi 表示 Hadoop Upserts Deletes and Incrementals,用于管理 HDFS 上的大型分析数据集存储。 Hudi 的主要目的是高效的减少入库延时。 Hudi 是 Uber 开发的一个开源项目。 2. 存储类型 Hudi 支持以下存储类...

Continue reading

流处理应用程序通常是有状态的,“记住” 已处理事件中的信息,并使用它来影响进一步的事件处理。在 Flink 中,记住的信息,即状态,被本地存储在配置的状态后端中。为了防止发生故障时丢失数据,状态后端会定期将其内容的快照持久化到预先配置的持久存储中。RocksDB 状态后端(即 Roc...

Continue reading

Matrix42

Record and Share!