ToB企服应用市场:ToB评测及商务社交产业平台

标题: 纪录我第一次在annaconda上配置pyspark(只是需要用pyspark库) [打印本页]

作者: 何小豆儿在此    时间: 2025-1-4 05:02
标题: 纪录我第一次在annaconda上配置pyspark(只是需要用pyspark库)
要期末了,上末了一节呆板学习实验课《使用协同过滤保举算法进行商品保举》的时间要用到pyspark,原来我也没以为有什么,因为上了这么多节实验课,我的感觉就是这些呆板学习算法别人都已经封装成为类了,我就实例化这些类,调用这些类的函数,投喂一下数据训练就结束了,结果没想到,环境我就配了一天多,烦死了,上课也不听讲,搞得像个无头苍蝇在浪费时间。导致我可怜的实验分又被扣了,特此纪录一下,盼望我cc理工的后来者不被扣实验分。
一.安装前的啰嗦

需要有  1.annaconda  2.spark的压缩包 3.python3.8版本 4.java环境 5.jupyter notebook
我配的时间就有点傻傻分不清晰,既然我用pyspark,怎么在配spark啊?AI是如许告诉我的:

我在网上找教程的时间,有的说还需要配置一个hadoop,有的没有说,这让我感觉到迷惑。我问了AI:

那为什么压缩包名字spark-3.3.0-bin-hadoop3中有hadoop又代表什么呢?
AI说

算了,废话有点多了,反正我又不是学大数据的,暂时也没须要清晰hadoop这个东西
二、安装anaconda和创建python3.8的环境

网上有许多安装anaconda的教程,乃至b站尚有视频,所以我就不重复说了,安装步调都一样的。这里我保举这个安装教程的链接,理由是它不光有安装的内容,尚有创建其他版本python环境的内容,尚有换源的内容,要知道国内有些时间下载个东西就是慢,换成清华源,或者其他源就是下载得快点。哦,差点忘了,在创建新的python环境时,选的python的版本一定要选择能支持你要用的spark的版本啊!!例如:python3.8 支持 spark3.3,但是python 3.6肯定就不行的,到时间就只是能导入库,但是跑不出来。牢记,牢记。
链接:https://blog.csdn.net/fly_enum/article/details/139753360
当然,如果想知道更多关于换源的操纵细节,我保举下面这个链接,主要讲了pip和conda两个方式换源。
https://blog.csdn.net/Natsuago/article/details/143212047?spm=1001.2014.3001.5501
三、安装jupyter notebook

这个就很简单了,因为就在 annaconda navigator里点一下就装好了,简直不要太轻松!!!但是,值得一提的是,每次创建新的python环境时,都是要再下一下的,因为之前那个是之前那个的环境的notebook哦。

 四、Java环境的安装

这个网上教程更多,我就不重复说了,值得一提的是,网上说这个pyspark要用jdk8才可以,但是我用jdk21也是能跑,但是我还是发起如果没安装过java环境的就安装jdk8,毕竟如许不会错,如果安装过的就先试一下已经安装的能不能用,不行再换成jdk8吧。
Java安装链接:https://blog.csdn.net/lu2815731764/article/details/131019396
五、配置spark

网上有许多配置spark的教程,但是呢,我只是需要用pyspark库,有些东西就是可以不用搞的,我很想就在这里放个链接,但是找不到合适的,所以就自己写一下吧(我真的想放个链接偷懒的)
1.下载spark
一定要下载python版本支持的spark版本啊!!!
我下载的是spark-3.3.0-bin-hadoop3.tgz
官网下载链接:https://archive.apache.org/dist/spark/
清华源:https://mirrors.tuna.tsinghua.edu.cn/apache/spark/
2.解压压缩包后配置环境变量

记住这个路径,开始配环境变量了,网上也有许多教程,我就简述一下吧。
起首右键点击  此电脑  ,点击属性,找到并点击高级系统设置,然后点击环境变量,在系统变量那里,点击新建,变量名字为SPARK_HOME,变量值就是你安装的路径。然后,在系统变量和用户变量里找到一个叫path的变量,点击编辑,然后点击新建,变量值就写%SPARK_HOME%\bin
对了,尚有一件事变,就是要指明一下,对应版本的python的位置,需要在系统变量中新建一个变量,名字是PYSPARK_PYTHON,变量值是你在annaconda新建的python环境下的到python.exe的路径,比如我的是D:\anaconda\envs\spark\python.exe,spark是我新建python环境,要在你新建环境的目录下找到这个python.exe,因为它是你新建python版本对应的python.exe。
接下来需要安装pyspark了,我的方法是用annaconda navigator安装,我看别的教程还可以用spak里的pyspark,但是我以为那样贫苦。因为annaconda navigator就点一下就好了。

在这个过程中annaconda会告诉你还要下py4j等相关依赖,同意就行了。
好了,现在就只打开下令行窗口输入pyspark,看看是不是正常。



免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。




欢迎光临 ToB企服应用市场:ToB评测及商务社交产业平台 (https://dis.qidao123.com/) Powered by Discuz! X3.4