大道至简,实时、统一与多云原生是新一代实时数仓趋势|爱分析调研
2023-08-10 21:44:17 来源:面包芯语
新一代实时数据仓库的市场机会分析
从性能看,在一些分析场景上,ClickHouse 虽然能处理宽表,但多表的查询能力一般,也难以很好支持高并发场景、复杂度高的查询场景等场景,部分查询性能表现不符合预期。
从易用性看,ClickHouse 使用门槛、运维成本比较高,需要较多的定制化和较深的技术实力,主要体现在:
(资料图)
仅支持部分标准 SQL,多表关联需要对 SQL 做大量改写,费时费力。
扩容缩容复杂且繁琐,目前做不到自动在线操作。如果是扩分片,需要手工或自研工具支持均衡负载,需要一定工作量。
运维较难,分布式方案依赖 Zookeeper,这带来额外的运维复杂性的同时,也有性能问题。
02
“新一代”实时数据仓库向统一与云原生的趋势发展
图3:数据仓库的演化历程
图4:新一代实时数据仓库的实时特性
异构数据源/数据湖支持:能够对多个来源的数据进行高效的集成,或通过联邦查询,提供统一的查询分析体验。
多类型数据支持:对结构化/半结构化数据统一的存储和处理。
多种查询场景支持:一套架构支持多种计算负载,满足多种业务使用场景
图5:新一代数据仓库的统一特性
图6:新一代数据仓库的云原生特性
降低供应商依赖风险:依赖第三方提供的数据仓库技术,可能存在供应商稳定性、服务中断或技术限制等风险。自主可控的技术解决方案可以减少对供应商的依赖,降低由于供应商问题导致的业务中断和数据迁移的复杂性。
支持业务灵活性:自主可控的数据仓库技术使得组织可以根据自身业务需求和策略,自主选择和构建技术架构和解决方案。这使得企业能够灵活地调整和优化系统,以满足其特定的业务需求。
实时:SelectDB 延续了 Apache Doris 极速易用的实时能力,依托列式存储引擎、现代的 MPP 架构、向量化执行引擎、预聚合物化视图、多样化索引结构、智能查询优化器等技术优化,能够为企业提供快速数据集成、快速存储与快速查询能力,其性能支持多种实时业务场景,从而支持各行各业行业的天级别/分钟级别的实时业务洞察需求。
同时,SelectDB 具备极速的性能,在一般数据服务场景下,可实现毫秒级查询响应,面对高并发和高吞吐查场景,也能很好的支持企业的业务场景,能够满足百亿数据秒级延迟的需求。
从数据对比上看,SelectDB 过去一年在 ClickBench、TPC-H 等公开测试数据集上,相较于现有的主流数据仓库,性能表现更优。
图7:SelectDB 多表关联场景 (使用 TPC-H sf100 测试,数据越小越查询表现越优)
图8:SelectDB 单表聚合场景 (使用 SSB-flat 测试,数据越小越查询表现越优)
统一:SelectDB 在技术架构方面,提供了融合统一的平台能力,能够将复杂分散的既有架构融合为简单一致的崭新架构,成为数据分析平台的统一入口。SelectDB 支持丰富的复合数据类型,提供了原生结构化/半结构化数据的高效存储和检索分析;提供从数据湖和异构数据源进行联邦分析的能力,通过简单的命令便可以自动同步元数据;单一系统即可支持高并发在线报表、交互式分析、离线数据处理等多种计算负载,从而更便捷高效地支持企业内部较为常见的实时报表与多维分析、数据联邦与加速查询、用户画像与行为分析、日志存储与分析等主流大数据分析场景。
图9:SelectDB 具备“统一”的特性
云原生:基于云原生的存算分离架构,SelectDB 推出云原生版本 SelectDB Cloud,不仅实现了本地磁盘缓存和对象存储的分层分级存储引擎,不同层级的存储成本带来综合成本大幅下降;也实现了计算节点的分离和弹性,使得计算资源根据业务的波峰波谷特点随需弹性扩缩容。SelectDB 可以运行于 AWS、阿里云、腾讯云、华为云上,在多云上提供云上的一致体验,开箱即用、按需付费。
此外,简单易用与开源开放的特性,在兼顾实时数仓能力要求的同时,也能带来更优的体验。
简单易用:从业务使用角度,SelectDB 支持标准 SQL 并兼容 MySQL 连接协议,用户可以使用 MySQL 客户端、JDBC 标准协议以及各类 BI 产品来连接 SelectDB ,便于新用户快速上手。对于常见的各种数据源和数据集成工具,提供了开箱即用的对接能力,包括 Flink、Spark、Kafka 等,进一步实现了对海量数据的存储与分析。
从技术架构运维的角度,SelectDB 部署简单,分为 FE、BE 两类进程,在线扩缩容、自动副本修复都自动完成,无需手动挡运维。围绕数据仓库的开发、运维和管理等过程,SelectDB 也推出了一系列可视化的运维及开发工具来降低企业人员的使用门槛,从而提升整体业务效率。
开源开放:SelectDB 是基于 Apache Doris 商业化的独立厂商,具有开源开放的基因。基于开源 Apache Doris 进行构建的 SelectDB 提供与 Apache Doris 之间的高效数据互相迁移工具,并且与 Apache Doris 的使用高度兼容,确保了企业随时可以在 SelectDB 服务与自主搭建的 Apache Doris 互相切换,充分满足企业对自主可控的需求。通过服务开源社区中 2000+ 家中大型用户落地实践,SelectDB 能够基于 Doris 获得来自真实一线场景的反馈,并反哺产品能力,以此探寻出更好的、更符合时代需求的软件技术。