引言
很多同学刚开始学习数据库的时候可能接触到的都是关系型数据库 RDS,它是基于行式存储的思想来进行数据存储的;但是数据库存储领域还有一个不容小觑的力量,非关系型数据库 NoSQL,其中一部分NoSQL 数据库是采用了列式存储的思想,那么我们不禁发问,行式存储和列式存储到底有什么区别?什么样的场景下列式存储类型的数据库更加适用呢?
今天我们就来探究一下行式存储和列式存储的区别和联系
磁盘存储方式
行式存储与列式存储常见数据库
MySQL(行式存储)
MySQL 官方地址
优点:
1、事务支持比较好,通过 MVCC 实现数据多版本控制
2、查询语句灵活,聚合函数操作比较丰富
3、主从部署,数据安全、容灾备份能力强
4、增、删、改、查比较方便
5、提供丰富索引类型,以满足不同查询条件,一张表可以建多个索引,这是大多数列式存储数据库不具备的
缺点:
1、性能会随着数据量的上升被显著影响
2、由于是行式存储,对磁盘空间利用率不高,不适合做海量数据存储
3、由于是主/从模式不支持水平扩展,所以在表设计之初就要对业务增长有一定的预判,后期修改成本、风险都很大
Clickhouse(列式存储)
Clickhouse 官方地址
优点:
1、批量写入速度快,50-200 M/S ,对于存储大量无修改数据非常实用
2、数据压缩空间大,减少IO,处理查询高吞吐量,每台服务器秒级数十亿行
3、聚合查询快,比MYSQL快百倍以上
4、CPU利用率高,并行处理单个查询,充分利用多核,在多个服务器上分布式处理
5、开源的列存储,支持线性扩展,简单方便,高可用容错
缺点:
1、不支持事务,事务可以是一条SQL语句或一组SQL语言或者整个程序,只要中间有任何错误这个事务的所有操作都要撤销。
2、缺少完整的UPDATE DELETE操作, 对于工具自动生成的语句不支持,必须通过变通的方式来完成这两类操作,仅能用于批量删除或者修改数据。
3、部分技术支持待完善,支持有限的操作系统,驱动程序不够完善,市面主流工具对其支持不全
4、不支持BIOB DOCUMENT 类型数据,聚合结果必须小于一台机器的内存大小
生产案例:音视频事件埋点
CREATE TABLE av_event
(
`id` Int64,
`event_name` String,
`ymd` String,
`channel_id` Nullable(String),
`from_user_id` Int64,
`to_user_id` Int64,
`scene` String,
`vset_channel` String,
`type` Nullable(String),
`create_time` DateTime
)
ENGINE = MergeTree()
PARTITION BY (toYYYYMM(create_time),event_name)
PRIMARY KEY(id)
ORDER BY (id, create_time, event_name, vset_channel, scene, from_user_id, to_user_id)
SETTINGS index_granularity = 8192
Cassandra(列式存储)
Cassandra 官方地址
优点:
1、格式的灵活性,像文档存储在系统运行时随意添加或移除字段
2、具有分区的概念,天然实现分库分表,查询性能不受数据量的不断攀升影响,查询性能比 MySQL 快 100 倍
3、并发性能高(增/删/改/查)
4、去中心化,灵活实现水平扩展,容灾能力强
缺点:
1、CQL 不灵活,查询条件必须带上分区键
2、不太适合做范围查询
3、不像 MySQL 可以创建多个索引以满足不同条件查询语句,必须通过创建物化视图的方式来满足不同条件查询(会影响插入、修改性能,占用存储空间更多)
OLTP & OLAP
问题探讨
- 以上 3 种数据库,哪些是 OLTP、OLAP ?
- 既然 Cassandra 不管从并发性能、查询性能、存储量级、扩展性都优于 MySQL ,为什么 MySQL 是大多数项目必选项,而 Cassandra 只是少部分项目的可选项?
- 同样是列式存储为什么 Cassandra 并发性能比 Clickhouse 强很多?
- 对于 删除/修改 操作,为什么列式存储不像行式存储那样把数据直接 删除/修改,而是通过版本号去标记这条数据?