-
-
分类:软件
-
Spark SQL支持在Spark中执行SQL,或者HiveQL的关系查询表达式。它的核心组件是一个新增的RDD类型JavaSchemaRDD。JavaSchemaRDD由Row对象和表述这个行的每一列的数据类型的schema组成。一个JavaSchemaRDD类似于传统关系数据库的一个表。JavaSchemaRDD可以通过一个已存在的RDD,Parquet文件,JSON数据集,或者通过运行HiveSQL获得存储在Apache Hive上的数据创建。
Spark SQL是Spark的一个模块,用于结构化数据处理。它分享了一个编程的抽象被称为DataFrames,也可以作为分布式SQL查询引擎
下载体验
点击下载