加入收藏 | 设为首页 | 会员中心 | 我要投稿 西安站长网 (https://www.029zz.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 云计算 > 正文

云计算的分布式存储包括什么

发布时间:2022-11-17 06:30:50 所属栏目:云计算 来源:网络
导读: 文章目录
一、分布式存储的基础
1、相对于传统的存储系统,新一代的分布式存储系统有两个重要特点:低成本与大规模。
2、分布式存储分类:
(1)根据数据类型
1)非结构化数据(包括文本、

文章目录

一、分布式存储的基础

1、相对于传统的存储系统,新一代的分布式存储系统有两个重要特点:低成本与大规模。

2、分布式存储分类:

(1)根据数据类型

1)非结构化数据(包括文本、图片、图像、音频和视频信息等)

2)结构化数据(对应存储在关系数据库中的二维关系表结构,结构化数据的模式和内容是分开的,数据的模式需要预先定义)

3)半结构化数据(HTML文档就是典型的半结构化数据。半结构化数据的模式结构和内容混在一起,没有明显的区分,也不需要预先定义数据的模式结构)

(2)正因为数据类型的多样性,不同的分布式存储系统适合处理不同类型的数据,因此可以将分布式存储系统分为四类:

1)分布式文件系统:互联网应用中往往需要存储大量的图片、音频、视频等非结构化数据,这类数据以对象的形式组织,一般称这样的数据为Blob(二进制大对象)数据,用分布式文件系统存储,典型的有Taobao File System(TFS)。分布式文件系统也常作为分布式表系统以及分布式数据库的底层存储,如谷歌的GFS。

分布式文件系统用来存储三种类型的数据:Blob对象、定长块以及大文件。

2)分布式键值(Key-Value)系统:用于存储关系简单的半结构化数据。(它提供基于主键的CRUD(Create、Read、Update、Delete)功能,即根据主键创建、读取、更新或者删除一条键值记录。分布式键值系统是分布式表系统的一种简化,一般用作缓存。从数据结构的角度看,分布式键值系统支持将数据分布到集群中的多个存储节点。)一致性散列是分布式键值系统中常用的数据分布技术。

3)分布式表系统:(主要用于存储半结构化数据。不仅仅支持简单的CRUD操作,而且支持扫描某个主键范围)典型的分布式表系统包括Google Bigtable、Microsoft Azure Table Storage、Amazon DynamoDB等。选择题

4)分布式数据库:(用于存储大规模的结构化数据。采用二维表格组织数据分布式云计算,提供经典的SQL关系查询语言。关系数据库是目前为止最为成熟的存储技术。)为了解决关系数据库面临的可扩展性、高并发以及性能方面的问题,出现了各种非关系数据库,这类被称为NoSQL的系统,可以理解为“ Not Only SQL”的含义。

3、20世纪末,基于光纤通道的存储区域网络(SAN)技术和网络附连存储(NAS)技术得到了越来越广泛的应用。

(1)SAN(通过将磁盘存储系统和服务器直接相连的方式提供一个易扩展、高可靠的存储环境,高可靠的光纤通道交换机和光纤通道网络协议保证各个设备间链接的可靠性和高效性。设备间的连接接口主要是采用FC和SCSI(FC预防病毒,病毒一般攻击报头,FC解封装,去报头报尾))

在这里插入图片描述

(2)NAS(通过基于TCP/IP的各种上层应用在各工作站和服务器之间进行文件访问,直接在工作站客户端和NAS文件共享设备之间建立连接,NAS隐藏了文件系统的底层实现,注重上层的文件服务实现,具有良好的扩展性。)

(3)GFS:Google为大规模分布式数据密集型应用设计的可扩展的分布式文件系统。

(GFS能够将一万多台廉价PC机连接成一个大规模的Linux集群,具有高性能、高可靠性、易扩展性、超大存储容量等优点。)GFS采用单Master Server多Chunk Server来实现系统间的交互。(Master中主要保存命名空间到文件的映射、文件到文件块的映射、文件块到Chunk Server的映射,每个文件块对应三个Chunk Server)

在这里插入图片描述

二、文件存储

1、早期的并行文件系统有BFS和CFS。它们运行在MPP(大规模并行处理)结构的超级计算机上。

三、分布式文件系统

1、分布式文件系统的基本概念:

(1)异常(大规模分布式存储系统的一个核心问题是自动容错。然而,服务器节点是不可靠的,网络也是不可靠的,因此系统运行过程中可能会遇到各种异常。)

(2)超时:(如果某一个节点向另一个节点发起远程调用,这个远程调用执行的结果有三种状态)成功、失败和超时,也称为分布式存储系统的三态。

(3)一致性:副本是分布式存储系统容错技术的重要手段,通过多个副本的同时存在并保证副本之间的一致性是整个分布式系统的理论核心。

(4)衡量指标

1)性能:其中,系统的吞吐能力指系统在某一段时间可以处理的请求总数,通常用每秒处理的读操作数或写操作数来衡量;系统的响应时间指从某个请求发出到接收到返回结果消耗的时间。这两个指标往往是矛盾的,追求高吞吐量的系统,往往很难做到低延迟;追求低延迟的系统,吞吐量也会受到限制。

2)可用性:系统的可用性可以用系统停止服务的时间与正常服务的时间的比例来衡量。

3)一致性

4)可扩展性

2、分布式系统能够将数据分布到多个节点,并在多个节点之间实现负载均衡。其方式主要有两种:

(1)散列分布:如:一致性散列

(2)顺序分布

四、实践:分布式存储系统Ceph

1、Ceph是一个统一的、分布式的存储系统,具有出众的性能、可靠性和可扩展性。其中,“统一”和“分布式”是理解Ceph的设计思想的出发点。

(统一:意味着Ceph可以以一套存储系统同时提供“对象存储”、“块存储”、“文件系统”三种功能)

2、 Ceph最初设计的目标应用场景就是大规模的、分布式的存储系统,是指至少能够承载PB量级的数据,并且由成千上万的存储节点组成。在Ceph的设计思想中,对于一个大规模的存储系统,主要考虑了三个场景变化特征:存储系统的规模变化、存储系统中的设备变化以及存储系统中的数据变化。

3、随着云计算的发展,Ceph乘上了OpenStack的春风,受到各大厂商的欢迎,成为IaaS三大组件(计算、网络、存储)之一。

(编辑:西安站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章