hdfs适合存储哪些数据库，hdfs数据存储在集群什么地方

本文目录一览

1，hdfs数据存储在集群什么地方
2，基于HDFS的存储有哪些
3，HDFS能够存储哪几种文件格式
4，hadoop能使用哪些数据库
5，什么是分布式文件系统HDFS

1，hdfs数据存储在集群什么地方

1、存储文件的时候需要指定存储的路径，这个路径是HDFS的路径。而不是哪个节点的某个目录。比如./hadoopfs-putlocalfilehdfspat一般操作的当前路径是/user/hadoop比如执行./hadoopfs-ls.实际上就相当于./hadoopfs-ls/user/hadoop2、HDFS本身就是一个文件系统，在使用的时候其实不用关心具体的文件是存储在哪个节点上的。如果需要查询可以通过页面来查看，也可以通过API来实现查询。

hdfs数据存储在集群什么地方

2，基于HDFS的存储有哪些

在正式介绍HDFS小文件存储方案之前，我们先介绍一下当前HDFS上文件存取的基本流程。(1) 读文件流程1）client端发送读文件请求给namenode，如果文件不存在，返回错误信息，否则，将该文件对应的block及其所在datanode位置发送给client2） client收到文件位置信息后，与不同datanode建立socket连接并行获取数据。(2) 写文件流程1） client端发送写文件请求，namenode检查文件是否存在，如果已存在，直接返回错误信息，否则，发送给client一些可用namenode节点2） client将文件分块，并行存储到不同节点上datanode上，发送完成后，client同时发送信息给namenode和datanode3） namenode收到的client信息后，发送确信信息给datanode4） datanode同时收到namenode和datanode的确认信息后，提交写操作。

不用纠结于这个吧。一般来说是dn去读处理自己节点的数据。当数据倾斜比较厉害的时候，也就是所有数据都在一台dn上的话，会有跨节点作业出现，其他的dn来读这台dn的数据。

基于HDFS的存储有哪些

3，HDFS能够存储哪几种文件格式

hdfs可以存储任何形式的文件啊。只要你硬盘能存储什么文件，它就能存储什么。其实文件就其本质，都是0001101001这种二进制数据。所以什么形式都可以的。但是如果不是这种ascii形式的文件，你读取他有什么意思呢比如一部电影，你放上去能处理吗对吧

在正式介绍hdfs小文件存储方案之前，我们先介绍一下当前hdfs上文件存取的基本流程。(1) 读文件流程1）client端发送读文件请求给namenode，如果文件不存在，返回错误信息，否则，将该文件对应的block及其所在datanode位置发送给client2） client收到文件位置信息后，与不同datanode建立socket连接并行获取数据。(2) 写文件流程1） client端发送写文件请求，namenode检查文件是否存在，如果已存在，直接返回错误信息，否则，发送给client一些可用namenode节点2） client将文件分块，并行存储到不同节点上datanode上，发送完成后，client同时发送信息给namenode和datanode3） namenode收到的client信息后，发送确信信息给datanode4） datanode同时收到namenode和datanode的确认信息后，提交写操作。

HDFS能够存储哪几种文件格式

4，hadoop能使用哪些数据库

框架本身提供一个DBInputFormat。支持MySql和PostgreSQL（需要自己提供驱动jar包）。需要使用其他数据库可以自己实现相应的InputFormat；实现起来也不难参照DBInputFormat即可。只要将拼接的sql语句改成适用的语法即可。

选择开始菜单中→程序→【management sql server 2008】→【sql server management studio】命令，打开【sql server management studio】窗口，并使用windows或 sql server身份验证建立连接。在【对象资源管理器】窗口中展开服务器，然后选择【数据库】节点右键单击【数据库】节点，从弹出来的快捷菜单中选择【新建数据库】命令。执行上述操作后，会弹出【新建数据库】对话框。在对话框、左侧有3个选项，分别是【常规】、【选项】和【文件组】。完成这三个选项中的设置会后，就完成了数据库的创建工作，在【数据库名称】文本框中输入要新建数据库的名称。例如，这里以“新建的数据库”。在【所有者】文本框中输入新建数据库的所有者，如sa。根据数据库的使用情况，选择启用或者禁用【使用全文索引】复选框。在【数据库文件】列表中包括两行，一行是数据库文件，而另一行是日记文件。通过单击下面的【添加】、【删除】按钮添加或删除数据库文件。切换到【选项页】、在这里可以设置数据库的排序规则、恢复模式、兼容级别和其他属性。切换到【文件组】页，在这里可以添加或删除文件组。完成以上操作后，单击【确定】按钮关闭【新建数据库】对话框。至此“新建的数据”数据库创建成功。新建的数据库可以再【对象资源管理器】窗口看到。

5，什么是分布式文件系统HDFS

HDFS是基于流数据模式访问和处理超大文件的需求而开发的，它可以运行于廉价的商用服务器上。总的来说，可以将 HDFS的主要特点概括为以下几点：（1 ）处理超大文件这里的超大文件通常是指数百 MB、甚至数百TB 大小的文件。目前在实际应用中， HDFS已经能用来存储管理PB(PeteBytes)级的数据了。在 Yahoo！，Hadoop 集群也已经扩展到了 4000个节点。（2 ）流式地访问数据HDFS的设计建立在更多地响应“一次写入，多次读取”任务的基础之上。这意味着一个数据集一旦由数据源生成，就会被复制分发到不同的存储节点中，然后响应各种各样的数据分析任务请求。在多数情况下，分析任务都会涉及数据集中的大部分数据，也就是说，对HDFS 来说，请求读取整个数据集要比读取一条记录更加高效。（3 ）运行于廉价的商用机器集群上Hadoop设计对硬件需求比较低，只须运行在廉价的商用硬件集群上，而无须昂贵的高可用性机器上。廉价的商用机也就意味着大型集群中出现节点故障情况的概率非常高。这就要求在设计 HDFS时要充分考虑数据的可靠性、安全性及高可用性。正是由于以上的种种考虑，我们会发现现在的 HDFS在处理一些特定问题时不但没有优势，而且有一定的局限性，主要表现在以下几个方面。（1 ）不适合低延迟数据访问如果要处理一些用户要求时间比较短的低延迟应用请求，则 HDFS不适合。HDFS 是为了处理大型数据集分析任务的，主要是为达到高的数据吞吐量而设计的，这就可能要求以高延迟作为代价。目前有一些补充的方案，比如使用HBase，通过上层数据管理项目来尽可能地弥补这个不足。（2 ）无法高效存储大量小文件在Hadoop 中需要用 NameNode来管理文件系统的元数据，以响应客户端请求返回文件位置等，因此文件数量大小的限制要由 NameNode来决定。例如，每个文件、索引目录及块大约占 100字节，如果有100 万个文件，每个文件占一个块，那么至少要消耗 200MB内存，这似乎还可以接受。但如果有更多文件，那么 NameNode的工作压力更大，检索处理元数据的时间就不可接受了。（3 ）不支持多用户写入及任意修改文件在HDFS 的一个文件中只有一个写入者，而且写操作只能在文件末尾完成，即只能执行追加操作。目前 HDFS还不支持多个用户对同一文件的写操作，以及在文件任意位置进行修改。

microsoft文件分布系统 (dfs) 是一个网络服务器组件，它能够使你更容易地在网络上查询和管理数据。分布式文件系统是将分布于不同电脑上的文件组合为单一的名称空间，并使得在网络上建立一个单一的、层次化多重文件服务器和服务器共享的工作更为方便的途径。详细信息：http://www.microsoft.com/china/windows2000/library/howitworks/fileandprint/dfsnew.mspx