PySpark - 环境设置
-
简述
在本章中,我们将了解 PySpark 的环境设置。现在让我们通过以下步骤下载并设置 PySpark。步骤 1− 前往官方 Apache Spark下载页面并下载最新版本的 Apache Spark。在本教程中,我们使用spark-2.1.0-bin-hadoop2.7.步骤 2− 现在,解压下载的 Spark tar 文件。默认情况下,它将在下载目录中下载。它将创建一个目录spark-2.1.0-bin-hadoop2.7. 在启动 PySpark 之前,您需要设置以下环境来设置 Spark 路径和Py4j path.或者,要全局设置上述环境,请将它们放在.bashrc file. 然后运行以下命令以使环境正常工作。现在我们已经设置了所有环境,让我们转到 Spark 目录并通过运行以下命令调用 PySpark shell -这将启动您的 PySpark shell。