1.3 PySpark介绍

Spark是一种分布式计算框架,并且有一套生态系统,其中包括Spark Core、Spark SQL、Spark MLlib、Spark Streaming和Spark Graphx,支持进行离线计算、交互式查询、机器学习、流计算以及图计算。PySpark是Spark为Python开发者提供的API。子模块包括pyspark.sql模块、pyspark.streaming模块、pyspark.ml模块、pyspark.mllib模块;核心类包括pyspark.SparkContext、pyspark.RDD、pyspark.sql.SQLContext、pyspark.streaming.StreamingContext、pyspark.streaming. DStream和pyspark.sql.DataFrame。

PySpark的ML包和MLlib包都是机器学习包,可以应用于分类、回归等常见的机器学习问题。两者内部集成的具体算法有一些差别,模型的训练、预测和评估的细节上有所差别,但对于常用的机器学习功能,都是可以满足需求的。