Skip to content

Month: January 2020

Spark SQL(一) 如何创建DataFrames

Spark SQL包含两个主要的部分,第一部分是DataFrames和Datasets, 第二部分是Catalyst optimizer. DataFrames和Datasets是结构性API的展示,定义了操作结构化数据的高层次API, 而Catalyst optimizer则是在背后对处理数据的逻辑进行优化,以加速处理数据的速度。 结构化数据通常有确定的格式,比如文本类数据格式CSV, XML, JSON。还有二进制数据:Avro,…

Author Copyriht by BackendSite