在oracle中,数据库逻辑上的存储是按照“块,区,段,表空间”由小到大组成的。最小数据存储单位是块,区是由多个块组成的,段是由区组成的。系统可以通过在建库的时候设置对应区大小和块大小的参数。
索引在数据库中有多种存储方式,比较普遍的一种是B树,如下图,所有叶子节点在同一层,父节点的左叶子节点按照顺序要在父节点前面,右叶子节点在父节点的后面。
对于数据库表中的单条数据,一个块一般情况下会包含多条数据,查询语句进行查询的时候有可能一次通过IO读取一块,也有可能读取多块。每读取一次就要通过一次IO消耗性能。下面简单谈下自己在这三方面的理解。
1、索引和表数据单独存放
数据库中,不光实体数据表中的数据需要存入块中,索引也要存入块中,这样索引也需要存储空间。
2、读取索引和直接读取数据的差别
在查询数据时有两种读取数据的方式,一种是读取索引列中的值,在索引的存储空间中就能得到值,就没有必要再读取数据表中的数据了。如select id from table1 where id=1,在table1中的id列有索引。另外一种是先读取索引,找到对应数据表中的rowid,然后再根据rowid到表中数据的存储块中读取数据,如select name from table1 where id=1,table1中的name列没有索引。
3、有索引却不走的原因
按照SQL中的语句看,很多因素导致不走索引,但是通俗的理解,有两方面原因。第一,Oracle统计分析发现,走索引查询的性能消耗要大于不走索引的性能消耗,不走索引;第二,由于SQL中某些查询条件的原因,不走索引。
先解释第一种情况的发生原因。oracle在执行语句来查询数据的时候要有和数据磁盘的IO交互,一次IO交互可以读取一个数据块,也可以读取多个数据块。当通过执行索引获得rowid,再通过rowid来读取实体数据时只能一次IO精确读取一个数据块,这样在读取数据时非常准确,但是无形中也增加了IO的次数。当全表扫描时,会一次IO读取多个数据块,这样会减少IO次数,增大吞吐量。所以,这样看到,执行索引和全表扫描相比,不能确定那个更快,需要综合各种因素来判读,如数据量大大小,查询的数据量占总数据量的比重,块大小等等。
再来解释第二种情况。比如表person是千万级数据,有一列a上建有索引,这列中有0.1%的数据是null,这样在where a is null或者a is not null的时候都不会走索引。因为B树建立的索引上不存储null值(这里先不考虑其他结构的索引)。类似这种情况,总体来说,就是索引结构B树无法解决的条件,就不会走索引。