基于决策树的学生成绩对毕业影响分析


打开文本图片集

摘要:高校生源质量的下降使得学生顺利毕业问题成为关注的焦点,该文以温州商学院会计学专业学生的毕业情况为例,运用决策树分类技术对学生的成绩进行综合分析,从中提取出决策树分类规则,发现关键课程对学生毕业的影响,以便于高校提前对学生实施预警,减少学生无法毕业的情况。

关键词:数据局挖掘;决策树;C4.5算法;学业预警

中图分类号:TP391 文献标识码:A 文章编号:1009-3044(2017)35-0015-02

Analysis of the Influence of Student Achievement on Graduation Based on Decision Tree

LIN Xiu-ke, SHEN Liang-zhong

(School of Information Engineering, Wenzhou Business College, Wenzhou 325000, China)

Abstract: Decline in student quality makes students graduate problems become the focus, this paper takes the graduate students of accounting major of Wenzhou business school as an example, and uses the decision tree classification to analyze the student score comprehensively. The classification rules extracted from the decision tree indicates the influence of key courses for the graduate students. Therefore the college can implements early warning on these students and reduces the number of students unable to graduate.

Key words: Data Mining; Decision Tree; C4.5 Algorithm; Academic Early Warning

1 概述

近些年,随着我国高等教育的迅速发展,高等教育已经进入了国际公认的大众化教育阶段。随着高校招生规模的迅速扩大,学生的生源结构以及生源质量都发生了很大的变化。很多普通本科高校,特别是在高等教育大众化阶段出现的民办高校,其学生都呈现出学习积极性不高、独立思考和解决问题的能力偏弱,但是同时又表现出较好的活动组织能力和情商的特点。

作为一名大学生,经过四年的学习是否能够顺利取得毕业证书和学位证书,主要依据就是课程成绩汇总处理之后得到的平均绩点。如果平均绩点低于学校的规定,那么学生将无法顺利毕业,从而对学生的就业和未来发展造成很大影响。由于最终平均绩点的计算在时序上有其滞后性,无法对学生进行及时的提醒和预警,因此有必要通过相关课程数据的分析对可能无法顺利毕业的学生进行提前的预警,以保障学生的顺利毕业。当前,高校对于学生成绩管理也逐渐向信息化发展,学生成绩的管理方式已由原来的纸质文件变成了现在的计算机管理。但是,大部分高校对于学生成绩信息的综合分析和挖掘还明显不够,例如可以通过数据挖掘相关技术对往届学生成绩进行分析,提炼出不同专业的学生学业预警规则,以此来指导学生的学习等。王芙蓉针对英语等级四级考试成绩,利用SPSS Clementine 12.0作为数据挖掘工具分析得出聽力单项成绩的高低对四级成绩是否合格有很重要的作用,阅读成绩的作用仅次于听力,写作的影响程度最小[1]。范珣珣基于Weka软件中的决策树算法进行挖掘,发现学生高考成绩、性别、对英语的学习态度、努力程度、与英语老师的关系和英语四级成绩之间存在潜在的关系[2]。刘红保用决策树C4.5算法从成绩分析,非成绩分析,院校性质三方面加实现了对CET-4成绩分类挖掘[3]。2017年,陈甲华以某大学信管专业学生成绩数据为例,运用改进后的Apriori建立了大学成绩关联规则分析模型[4]。由此可见,数据挖掘技术在成绩管理中已经有了一定的研究和应用,本文主要针对温州商学院会计学院近年来的毕业情况,分析各个课程成绩对学生毕业的影响。教师可以根据分析结果及时对学生实行预警并指导调整学生的学习状态,同时也有助于教师及时调整教学策略,提高教学质量并对个别有无法顺利毕业风险的学生进行高度关注。

2 决策树算法

2.1 数据来源

本文以商学院教务系统中所保留的历年来的会计学本科学生成绩与毕业情况为研究对象,确保了数据的真实性。同时为保护个人隐私,删除了学生姓名等重要身份信息,并对残缺的数据予以删除,最终保留906条数据。在课程选取上,剔除了大学体育,思想道德修养等考查类课程,保留了大学英语、高等数学以及各类专业基础、必修等考试类课程。课程包括如大学英语、高等数学、管理学原理、西方经济学、基础会计、审计学、成本会计税法、管理会计等等。具体数据如表1所示:

2.2 数据处理

为了方便数据的处理,本文直接把成绩转化为绩点。分数在 [0,60)内绩点为0,在[60,70)内绩点为1.5,在[70,80)内绩点为2.5,在[80,90)内绩点为3.5,在[90,100]内绩点为4.5。对于毕业情况,“Y”表示顺利毕业,“N”表示结业或者延迟毕业。处理后的数据如表2所示:

2.3 决策树构建

决策树算法属于数据挖掘中的分类算法,通过对某一带有类标记的数据集的训练,产生一棵二叉树或者多叉树。决策树的构建过程中,最重要的就是分裂节点的选择。ID3算法在树的分裂节点上选择具有最高信息增益的节点作为当前的分裂节点,因为该节点的分裂将使得分裂得到的结果划分中的样本分类所需的信息量最小[5]。ID3算法使用的公式如下所示:

由于ID3算法对属性的计算仅仅支持离散型,因此C4.5算法针对ID3算法做了改进,不仅支持连续型属性的分裂,而且在分裂节点时选择具有最高信息增益率的属性节点。C4.5算法中属性A分裂数据集S的信息增益率记为:

3 基于决策树的成绩分析

本文的研究数据存放在MySQL中,程序实现主要使用Python3,使用算法为C4.5,程序运行之后生成的决策树示意图如下所示:

根据以上决策树模型可知,会计学本科科目中基础会计课程起决定性作用,其次是税法和统计学,接下来是大学英语、管理会计、高等数学和经济法等课程。学生可以根据决策树模型调整自己对某一门课程的学习方法,会计学院也可以根据决策模型加强基础会计课程等的教学团队建设。通过对决策树模型的每个分支进行规则提取之后发现以下结论:

① 由决策树提取的分类规则对会计学生学习有着重要的指导作用,学生科根据自己的实际学习情况参考决策树模型的分类规则,找出自己的薄弱环节进行针对性的学习,对课程对毕业情况的影响有所了解。从上面规则中我们可以看出当有某门课程取得较高成绩时,那么能顺利毕业的可能性就增大。

② 从表中规则可以看出,对会计学生而言基础会计对毕业影响最大,其次是税法和统计学。因此,同学们在学习时应对这些对毕业影响较大的课程更为重视。并且像大学英语和高等数学这样的公共必修课也要重视,打好基础。

③ 专业老师也可以根据分类规则,对有无法顺利毕业风险的学生加强督促,及时调整教学方案,对学生进行科学的指导,帮助学生进一步提高学习效率。

4 结束语

大学能否顺利毕业对学生个人及家庭都十分重要,本文采用数据挖掘技术去分析商学院会计专业学生成绩及毕业情况,将理论运用到实际当中,是非常有意义的尝試。通过以上决策树,教师可以通过学生目前的成绩预测学生的毕业情况,对有毕业风险的学生提前警示,避免学生无法毕业。学生也可以通过决策树对应自己的成绩进行预测,对接下来可能会对毕业造成影响的课程更加努力学习,保证顺利毕业。

参考文献:

[1] 王芙蓉. 基于数据挖掘的CET-4成绩分析与研究[D]. 宁夏大学, 2016.

[2] 范珣珣, 钟宝荣. 基于Weka的CET-4成绩的挖掘与分析[J]. 电脑知识与技术, 2017, 13(7).

[3] 刘红保. 数据挖掘技术在CET-4成绩分析中的应用研究[D]. 河北大学, 2014.

[4] 陈甲华. 基于改进Apriori算法的大学成绩关联规则——某大学信管专业的实证研究[J]. 电子技术与软件工程, 2017(8):177-178.

[5] Han Jiawei, Kamber M. Data Mining Concepts and Techniques.Morgan Kaufmann Publishers,Inc., 2001.

推荐访问:成绩 影响 毕业 分析 学生