集群瓶颈为什么是磁盘io？

一、集群瓶颈为什么是磁盘io？

首先，瓶颈一般是指在整体中的关键限制因素，磁盘IO是指数据往磁盘读写，现在的科技速度最快的属固态硬盘了，读的速度很大有1G/秒左右，但是写入速度最快几百兆/秒，集群中数据在cpu和内存之间速度快的可以忽略，处理速度也可以忽略，相对这些速度，磁盘读写就显得慢了，旁贷一下现在好一点的数据库oracle存储数据都是写日志先暂存然后等机器空闲再写入到磁盘，这些都是为了提高效率，不然你执行一条操作等半天。

大概就这样。希望能帮到您！

二、磁盘io请求过高造成的io瓶颈怎么解决？

占用IO过高，可以做如下考虑：

1）首先考虑写日志内容过多（或者访问量较大）

日志打印的内容是否合理( 前端应用服务器，要避免程序频繁打本地日志、或者异常日志)

日志级别是否合理

考虑异步写日志（一般可以解决CPU锯齿波动），为减少磁盘IO操作，将日志写如内存分区；但日志量太大，很容易将内存写满，再考虑将日志进行压缩。

2）磁盘满（压测过程中现象：TPS降低，响应时间增加）

找到导致磁盘满的大文件，合理的删除，最好有定期清理脚本，可以定期清理

对磁盘空间进行扩大磁盘容量

不好清理的，在主硬盘上进行读写操作，基础数据定时移动到挂载硬盘上。

3）数据库连接数超限制，导致sleep比较多，sleep任务太多的处理：

程序里每次连接数据库后，记得关闭数据库。

或者，在mysql配置文件中，设置mysql超时时间wait_timout, 默认是八小时，设置低一点

三、哪种分区模式可以缓解数据库磁盘io压力？

mongodb采用数据文件预分配模式来生成数据文件，数据文件的大小从64M开始，每增加一个文件，大小翻倍，直到2G，以后每次增加数据就会生成2G左右的数据文件，结合mongodb的mmap内存模型，对于写数据文件，将随机写转换为顺序写，一定程度上缓解了磁盘的io压力。

但在实际使用中，遇到了在预分配2G的数据文件时，如果磁盘io较慢，则mongodb基本锁死，无法响应请求的情况。持续时间则根据磁盘io的性能来确定。这个问题在2.0之后版本可能会有些改善，但在磁盘性能低的服务器上，该问题依旧存在.

这个问题目前没有太好的解决方案，只能建议使用读写性能比较好的服务器来跑mongodb。

在数据存量大于内存大小时，mongodb遇到冷数据查询速度变慢。

mongodb使用mmap的内存管理模式，如果查询的都是热数据，那么会在内存中直接查询，如果遇到冷数据，就需要从磁盘读取，并将一部分热数据从内存卸载掉.

有人曾经说mongodb内存管理是加载固定大小的文件块到内存，即如果冷数据在磁盘上，他会根据请求的数据，加载一定大小的数据块到内存，并卸载掉同样的热数据，这个操作本身会带来一定io.

因为mongodb使用的是全局锁，在某个操作缓慢时，整个操作队列会全部变慢。这个问题造成了mongodb会出现偶发性堵塞问题，连带整个库的性能下降。

该问题在应用需要尽量避免出现，需要将mongodb的数据大小规划好，尽量不要使数据量超过内存的大小，如果超过内存大小后，尽量不要去请求冷数据。

Mongodb全局锁机制。

mongodb最大的问题或者可以说是它的锁机制，在2.2版本之前，一个实例只有一个读写锁，不管有多少数据库和数据集合，当一个操作进行时其他操作只能等待，在2.2版本后，mongodb锁降低了粒度，改为按库锁。

MongoDB 使用的是“readers-writer”锁，可以支持并发但有很大的局限性，当一个读锁存在,许多读操作可以使用这把锁，然而, 当一个写锁的存在，一个单一的写操作会exclusively 持有该锁，同时其它读，写操作不能使用共享这个锁；举个例子，假设一个集合里有 10 个文档，多个 update 操作不能并发在这个集合上，即使是更新不同的文档。

删除数据集合后空间不会自动释放

mongodb删除集合后磁盘空间不释放，只有用db.repairDatabase()去修复才能释放。

修复可能要花费很长的时间,在使用db.repairDatabase()去修复时一定要停掉读写，并且mongodb要有备机才可以，不然千万不要随便使用db.repairDatabase()来修复数据库，切记。

但是在修复的过程中如果出现了非正常的mongodb的挂掉，再次启动时启动不了的，需要先修复才可以，可以利用./mongod --repair --dbpath=/data/mongo/ 如果你是把数据库单独的放在一个文件夹中指定dbpath时就指向要修复的数据库就可以。

7. replica set一些隐含问题

a) replica set模式最多支持12台服务器，而有投票权的服务器只支持7台，如果超过7台服务器，需设置部分服务器为无投票权服务器

b) replica set模式中，一个set服务器如果小于2台服务器，则自动故障恢复不会起作用，如果4台服务器出现2/2互相ping不通的情况，同样不会自动故障恢复。一般来说，一个set中尽量是有单数服务器。

c). replica set中，因为mongodb是按照时间进行操作，如果set中某个服务器时间超前或者延迟，很容易出现secondaries不断尝试更新oplog或者同步延迟的问题。甚至造成某些操作失败，如drop操作。

8. 分片模式的一些隐含问题

1. config server尽量按照官方的要求，有3个configserver，如果只有2个configserver，则shard的自动负载均衡和自动切片功能不可用。

2. api中的nearest模式在shard中，判断的是set到mongos的距离而非set到client的距离，在切片模式下，尽量不要使用nearest模式，可能会造成一些请求延迟增加的问题。

优点

l 文档结构的存储方式，能够更便捷的获取数据

l 内置GridFS，支持大容量的存储

l 内置Sharding，分片简单

l 海量数据下，性能优越

l 支持自动故障恢复（复制集）

mongodb是一个介于nosql数据库和mysql数据库之间的一个数据存储系统，它没有严格的数据格式，但同时支持复杂查询，而且自带sharding模式和Replica Set模式，支持分片模式，复制模式，自动故障处理，自动故障转移，自动扩容，全内容索引，动态查询等功能。扩展性和功能都比较强大。

mongodb在数据查询方面，支持类sql查询，可以一个key多value内容，可以组合多个value内容来查询，支持索引，支持联合索引，支持复杂查询，支持排序，基本上除了join和事务类型的操作外，mongodb支持所有mysql支持的查询，甚至某个客户端api支持直接使用sql语句查询mongodb。

mongodb的sharding功能目前日渐完善，支持自定义范围分片，hash自动分片等，分片自动扩容，shard之间自动负载均衡等功能。实际使用中功能还不错。

四、数据中心集群的意义？

一是有利于提升国家整体算力水平。通过全国一体化的数据中心布局建设，扩大算力设施规模，提高算力使用效率，实现全国算力规模化集约化发展。

二是有利于促进绿色发展。加大数据中心在西部布局，将大幅提升绿色能源使用比例，就近消纳西部绿色能源，同时通过技术创新、以大换小、低碳发展等措施，持续优化数据中心能源使用效率。

三是有利于扩大有效投资。数据中心产业链条长、投资规模大，带动效应强。通过算力枢纽和数据中心集群建设，将有力带动产业上下游投资。

四是有利于推动区域协调发展。通过算力设施由东向西布局，将带动相关产业有效转移，促进东西部数据流通、价值传递，延展东部发展空间，推进西部大开发形成新格局。

五、磁盘的io控制主要采取什么方式？

磁盘的io控制主要采取DMA方式。

　DMA是指外部设备不通过CPU而直接与系统内存交换数据的接口技术。要把外设的数据读入内存或把内存的数据传送到外设，一般都要通过CPU控制完成，如CPU程序查询或中断方式。利用中断进行数据传送，可以大大提高CPU的利用率。但是采用中断传送有它的缺点，对于一个高速I/O设备，以及批量交换数据的情况，只能采用DMA方式，才能解决效率和速度问题。DMA在外设与内存间直接进行数据交换，而不通过CPU，这样数据传送的速度就取决于存储器和外设的工作速度。

六、主机sql数据库占用磁盘IO读写过高,怎么解决？

sql 数据库占用磁盘IO读写过高，

原因：可能是插入数据频繁，并且存在的索引太多

所以建议清除不用的索引

或是对数据库进行重建索引

也可以叫DBCC 操作

七、greenplum如何查看单个sql的磁盘io情况？

打开任务管理器，选择“性能”标签，点击下面的“资源监视器”，在资源监视器窗口中点击“磁盘”标签。

八、hdfs集群的元数据存储格式？

hdfs元数据存储格式有如下几种：

1.sequencefile，key—value格式

2.textfile，行式文本文件

3.rcfile，行列混合存储

4.orc，列式存储

5.parquet，列式存储

九、大数据集群的主要瓶颈是？

1、数据分析之数据准备瓶颈：OLAP

我们知道从上个世纪90年代，甚包括80年代末，OLAP就已经被很好地使用了。如果这个瓶颈不打掉，企业的数据化运营的链条是不通畅的，并且业务流程会很缓慢，同时企业的运营效率和竞争能力也会大打折扣。

2、大数据分析之找到答案瓶颈：静态报告。静态报告就跟邮件样，我们需要的是个及时交互的过程，对数据进行分析、发掘它的价值。假如看到报告后，我们就发现了个问题，然后可能就会去问个问题。

3、大数据分析之分析流程瓶颈：IT部门。他们都会递交给IT部门，然后IT部门的加班非常严重，他们疲于应付，但是这样做出的结果还非常不好，大家对IT部门的诟病都很深。

4、大数据分析之厂商瓶颈：缺乏高质量的本土厂商

我们认为在国内缺乏高质量的本土厂商。

十、磁盘读写数据的方式？

硬盘主要由：盘片，磁头，盘片转轴及控制电机，磁头控制器，数据转换器，接口，缓存等几个部分组成。磁头可沿盘片的半径方向运百动，加上盘片每分钟几千转的高速旋转，磁头就可以定位在盘片的指定位置上进行数据的读写操作。

信息通过离磁性表面很近的磁头，由电磁流来改变极性方式被电磁流写到磁盘上，信息可以通过相反的方式读取。硬盘作为精密设备，尘问埃是其大敌，所以进入硬盘的空气必须过滤。