大数据日知录学习(一)：分片与路由

大数据背景下，传统纵向拓展的方式即增加机器的配置已经无法满足数据量的需要，因此主流大数据系统基本采用横向拓展即增加机器数量，对数据的分片与路由显得尤为重要。

分片模型

做数据路由时，首先根据key-partition找到对应的分片，再根据partition-machine找到对应的机器。

有利于点查询。

H(key)=hash(key) mod K

直接将数据映射到物理机，缺乏灵活性

虚拟桶对应分片空间，新机器加入只需修改partition-machine就能完成拓展。

分布式哈希(DHT)是哈希表的拓展，考虑多机分布环境，在每台机器负载部分数据的存储情形下，通过哈希方式对数据进行增删改查。

一致性哈希是DHT的一种实现方式，下面介绍Chord系统中提出的一致性哈希算法。将哈希空间切分，每个物理结点保存一定范围的数据记录。如图所示，N14保存6~14(哈希值)的数据，N20保存15~20的数据。

机器接收到查找请求，先在本地查找，不存在则发送到下一台机器查找
每个机器保存路由表(哈希空间的二进制比特位长度大小的路由表)来加快查找速度，找到小于查找key的最大编号结点。
如下图所示为N14结点上的路由表，若查找的key=27，则应该发送到N25结点上(14+8<27<14+16)。N25会查找它的路由表发送到N29上，并返回查找值。

在不考虑并发的情况下，

将高性能的机器虚拟成若干虚拟结点，使整体机器在环状结构中分布均匀(新加入时)，同时考虑到机器的异质性。

主键排序，主键空间划分为多个分片，每个分片映射到一台物理机上。有利于范围查询

分片映射表一般采用LSM树