Overview
Hive 基本概念
什么是 Hive
Hive
是基于 Hadoop
的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类 SQL 查询功能。
其本质是将 SQL 转换为 MapReduce
的任务进行运算,底层由 HDFS
来提供数据的存储,说白了 hive 可以理解为一个将 SQL 转换为 MapReduce 的任务的工具,甚至更进一步可以说 hive 就是一个 MapReduce 的客户端
为什么使用 Hive
直接使用 hadoop 所面临的问题
- 人员学习成本太高
- 项目周期要求太短
- MapReduce 实现复杂查询逻辑开发难度太大
为什么要使用 Hive
- 操作接口采用类 SQL 语法,提供快速开发的能力。
- 避免了去写 MapReduce,减少开发人员的学习成本。
- 功能扩展很方便。