互联网存储层技术了解_m0_60725291

未知 02-07 7893

目录 SQLNoSQL小文件存储大文件存储

SQL

业务发展到一定阶段后，需要拆库拆表来满足业务的进一步发展，一般做法是将这部分功能独立成中间件，如百度的 DBProxy、淘宝的 TDDL，开源方案如 MySQL的 MySQL Router、360 开源的 Atlas。

假如业务继续发展，规模继续扩大，SQL 服务器越来越多，如果每个业务都基于统一的数据库中间件独立部署自己的 SQL 集群，就会导致新的复杂度问题，具体表现在：

数据库资源使用率不高，比较浪费；各 SQL 集群分开维护，投入的维护成本越来越高；

实力雄厚的大公司此时一般都会在 SQL 集群上构建 SQL 存储平台，以对业务透明的形式提供资源分配、数据备份、迁移、容灾、读写分离、分库分表等一系列服务，如淘宝的 UMP（Unified MySQL Platform）系统。

NoSQL

NoSQL 方案一般自己本身就提供集群的功能，发展到一定规模后，通常会在 NoSQL 集群的基础之上再实现统一存储平台，统一存储平台主要实现这几个功能：

资源同态按需分配，如同一台 Memcache 服务器，可以根据内存利用率，分配给多个业务使用；资源自动化管理，如新业务只需要申请多少 Memcache 缓存空间就可以了，无需关注具体是哪些 Memcache 服务器在为自己提供服务；故障自动化管理，如某台 Memcache 服务器挂掉后，有另外一台备份 Memcache 服务器能立刻接管缓存请求，不会导致丢失很多缓存数据；小文件存储

得益于开源和大数据，可以在开源方案的基础上封装一个小文件存储平台。例如，HBase、Hadoop、Hypertable、FastDFS 等都可以作为小文件存储的底层平台，只需要将这些开源方案再包装一下基本上就可以用了。

典型的小文件存储有：淘宝的 TFS、京东 JFS、Facebook 的 Haystack。

大文件存储

互联网行业的大文件主要分为两类：一类是业务上的大数据，如视频、电影；另一类是海量的日志数据，如各种访问日志、操作日志、用户轨迹日志等。说到大文件，特别要提到 Google 和 Yahoo，Google 的 3 篇大数据论文（Bigtable/Map- Reduce/GFS）以及 Yahoo 开源的 Hadoop 系列。实力雄厚一些的大公司会基于这些开源方案，结合自己的业务特点，封装成大数据平台，如淘宝的云梯系统、腾讯的 TDW 系统。

--------来源《极客课程》? 学习摘要