- 班级所有博文发布时间分布(24小时制):
-
8. SparkSQL综合作业
8. SparkSQL综合作业 综合练习:学生课程分数 网盘下载sc.txt文件,分别创建RDD、DataFrame和临时表/视图; 分别用RDD操作、DataFrame操作和spark.sql执行SQL语句实现以下数据分析: 总共有多少学生? 总共开设了多少门课程? 每个学生选修了多少门课? 每门 -
补交作业7,补交原因:时间过了,忘记提交
1.请分析SparkSQL出现的原因,并简述SparkSQL的起源与发展。 如今关系数据库已经非常流行,关系数据库在大数据时代已然不能满足要求。首先,用户需要从不同数据源执行各种操作,包括结构化、半结构化和非结构化数据。其次,用户需要执行高级分析,例如机器学习和图像处理。在实际大数据应用中,经常需要 -
2.安装spark,7.Spark SQL
2.安装spark 一、安装Spark 1.检查基础环境 启动hdfs查看进程 查看hadoop和jdk环境 2.下载spark 3.配置环境变量 4.启动spark 5.试运行python代码 7.Spark SQL 1.请分析SparkSQL出现的原因,并简述SparkSQL的起源与发展。 因为 -
补交 第6次作业
未交原因:忘记了时间,错过了 第六次 集合运算练习 内连接与外连接 网盘下载sc.txt文件,通过RDD操作实现以下数据分析: 持久化 总共有多少学生? 开设了多少门课程? 每个学生选修了多少门课? 每门课程有多少个学生选? 有多少个100分? Tom选修了几门课?每门课多少分? Tom选修了几门课 -
(补交)7.Spark SQL
1.请分析SparkSQL出现的原因,并简述SparkSQL的起源与发展。 SparkSQL的出现,解决了对不同数据源和不同数据的操作,例如结构化和非结构化数据。还有可以支持融合关系查询和复杂分析算法。 SparkSQL的前身是Shark,Shark中提供了类似于Hive的功能。但是Shark设计中 -
7.Spark SQL
未交原因:忘记交了 1.请分析SparkSQL出现的原因,并简述SparkSQL的起源与发展。 spark出现的目的是为了替代Mapreduce,解决Mapreduce计算短板。我们知道最初的计算框架叫 mapreduce,他的缺点是计算速度慢,还有一个就是代码比较麻烦,所以有了 hive;hive -
7.Spark SQL
1.请分析SparkSQL出现的原因,并简述SparkSQL的起源与发展。 因为关系数据库已经很流行,而且关系数据库在大数据时代已经不能满足要求。首先,用户需要从不同数据源执行各种操作,包括结构化、半结构化和非结构化数据。其次,用户需要执行高级分析,比如机器学习和图像处理。在实际大数据应用中,经常需 -
补交作业
共补交2,4,5,6,7的作业 原因:之前没注意交作业的时间不小心错过了 作业2:安装Sprk与Python练习 一、安装Spark 1.检查基础环境hadoop, 2.下载spark 3.解压,文件夹重命名、权限 4.配置文件 5.环境变量 6.试运行Python代码 二、Python编程练习:英 -
安装Spark与Python练习
一、安装Spark 1.检查基础环境hadoop,jdk 2.下载spark 3.解压,文件夹重命名、权限 4.配置文件 5.环境变量 6.试运行Python代码 二、Python编程练习:英文文本的词频统计 1.准备文本文件 2.读文件,预处理:大小写,标点符号,停用词,分词,统计每个单词出现的次 -
作业5 6 7 8 补交原因:忘记交了
作业5 一、词频统计 A. 分步骤实现 准备文件 1.下载小说或长篇新闻稿 2.上传到hdfs上 读文件创建RDD 分词 排除大小写lower(),map() 标点符号re.split(pattern,str),flatMap(), 停用词,可网盘下载stopwords.txt,filter(),