數(shù)據(jù)挖掘技術(shù)在高校學(xué)生成績(jī)分析中的應(yīng)用研究論文
摘 要:本文主要討論的是決策樹挖掘技術(shù)在學(xué)生成績(jī)分析中的應(yīng)用。通過確定數(shù)據(jù)挖掘的對(duì)象、數(shù)據(jù)選擇、數(shù)據(jù)分類挖掘,最后由決策樹產(chǎn)生分類規(guī)則,得出挖掘結(jié)果和運(yùn)用這個(gè)結(jié)果的指導(dǎo)作用。希望本文的研究能夠?yàn)橄嚓P(guān)領(lǐng)域提供一些指導(dǎo)和幫助。
關(guān)鍵詞:數(shù)據(jù)挖掘;高校學(xué)生;成績(jī)分析
1.確定數(shù)據(jù)挖掘的對(duì)象
本文數(shù)據(jù)挖掘的對(duì)象主要是以本人所授的《大學(xué)計(jì)算機(jī)基礎(chǔ)》課程的數(shù)據(jù)為例,對(duì)象是本校學(xué)生,總?cè)藬?shù)250人,采用授課方法是在機(jī)房上課,周學(xué)時(shí)為三節(jié)課。根據(jù)學(xué)生的基本情況來分析挖掘出哪些因素對(duì)學(xué)生的學(xué)習(xí)成績(jī)是有影響的,如性別、基礎(chǔ)程度、每周上機(jī)時(shí)間、生源地、出勤情況等等,分析考試成績(jī)?yōu)樵趦?yōu)、良、中、及格、不及格這五個(gè)等級(jí)之間分布的學(xué)生人數(shù)與上面哪些因素有關(guān)系,并希望用得到的分析結(jié)果來指導(dǎo)今后的教學(xué)工作,提高教學(xué)質(zhì)量、改革教學(xué)方法。
2.數(shù)據(jù)選擇
2.1學(xué)生的基本情況信息
數(shù)據(jù)結(jié)構(gòu)包含以下屬性信息:學(xué)號(hào)、姓名、性別、專業(yè)、家庭住址、籍貫、聯(lián)系方式、班級(jí)、生源地。這些信息可以通過學(xué)院的“學(xué)生教務(wù)管理信息系統(tǒng)”來獲取,存入“學(xué)生基本情況數(shù)據(jù)庫(kù)”中,內(nèi)部的數(shù)據(jù)結(jié)構(gòu)包含以上九個(gè)屬性。
2.2需要向?qū)W生調(diào)查的數(shù)據(jù)信息
需要調(diào)查的信息包括:對(duì)計(jì)算機(jī)課程是否感興趣、基礎(chǔ)程度、每周上機(jī)時(shí)間等。這些信息是通過對(duì)學(xué)生的調(diào)查才能得到。把調(diào)查所得到的數(shù)據(jù)存放到“調(diào)查信息數(shù)據(jù)庫(kù)”中!罢{(diào)查信息數(shù)據(jù)庫(kù)”的數(shù)據(jù)結(jié)構(gòu)包含以下屬性信息:學(xué)號(hào)、姓名、是否對(duì)計(jì)算機(jī)課程感興趣、基礎(chǔ)程度、每周上機(jī)時(shí)間五個(gè)屬性。其中是否對(duì)計(jì)算機(jī)課程感興趣屬性有感興趣、不感興趣兩個(gè)屬性值;基礎(chǔ)程度屬性有好、一般、差三個(gè)屬性值;上機(jī)時(shí)間量有0、≤1、1~2、≥2四個(gè)屬性值。
2.3學(xué)生的考試成績(jī)數(shù)據(jù)
學(xué)生的考試成績(jī)是教師在期末考試后統(tǒng)計(jì)的,通過學(xué)院已有的“教務(wù)管理系統(tǒng)”來完成錄入收集的,其數(shù)據(jù)結(jié)構(gòu)包含以下內(nèi)容:學(xué)號(hào)、姓名、專業(yè)名稱、班級(jí)、課程名稱、成績(jī)。錄入的學(xué)生成績(jī)保存在“學(xué)生成績(jī)數(shù)據(jù)庫(kù)”中,數(shù)據(jù)結(jié)構(gòu)包含以下屬性:學(xué)號(hào)、姓名、專業(yè)、成績(jī)四個(gè)屬性。
3.數(shù)據(jù)分類挖掘
數(shù)據(jù)分類挖掘的主要目的就是要建立學(xué)生成績(jī)分析決策樹的模型。
3.1算法的選擇
本文運(yùn)用決策樹技術(shù)的兩個(gè)經(jīng)典算法 ID3算法和C4.5算法,因ID3算法是利用信息增益,作為分類評(píng)價(jià)函數(shù)來選取最優(yōu)屬性,這種選擇容易傾向于選擇取值較大的屬性,但取值較大的屬性并不一定是最重要的屬性。且ID3算法只能處理離散值的屬性,沒有考慮數(shù)據(jù)中的缺值問題。C4.5算法能有效處理數(shù)值的離散化,考慮了缺值問題,因此選用了C4.5算法建立決策樹進(jìn)行數(shù)據(jù)挖掘分析。
3.2建立決策樹模型
用于挖掘的學(xué)生成績(jī)表中的屬性很多,本文選取了與成績(jī)屬性相關(guān)性較大的性別、基礎(chǔ)程度、每周上機(jī)時(shí)間三個(gè)屬性作為建立成績(jī)分類決策樹模型的依據(jù)。建立決策樹模型的步驟如下:
。1)對(duì)每個(gè)屬性分別計(jì)算該屬性的信息增益率。
(2)選取信息增益比率最大的屬性作為根結(jié)點(diǎn),并按其值劃分?jǐn)?shù)據(jù)集合,如果該屬性只有一個(gè)值則停止劃分。
。3)對(duì)劃分的每個(gè)子數(shù)據(jù)集遞歸執(zhí)行(1)~(2)。
4.生成分類規(guī)則
決策樹的最大優(yōu)點(diǎn)是能直接提取分類規(guī)則,可以以IF…THEN形式的分類規(guī)則表示。IF…THEN規(guī)則易于理解,特別是當(dāng)給定的決策樹很大時(shí)很實(shí)用。提取IF…THEN規(guī)則的主要做法是:對(duì)從根到葉節(jié)點(diǎn)的每條路徑創(chuàng)建一個(gè)規(guī)則,沿著給定路徑上的每個(gè)屬性值對(duì)形成規(guī)則前面部分的一個(gè)合取項(xiàng)。葉節(jié)點(diǎn)包含類預(yù)測(cè),形成規(guī)則的后面部分。
5.決策樹挖掘結(jié)果分析
通過應(yīng)用決策樹算法對(duì)學(xué)生成績(jī)進(jìn)行析,可得如下結(jié)論:
。1)基礎(chǔ)程度好的學(xué)生且每周上機(jī)時(shí)間不少于1小時(shí)的學(xué)生,成績(jī)基本上都是優(yōu)秀的。
。2)基礎(chǔ)程度一般的學(xué)生且每周上機(jī)時(shí)間不少于1小時(shí)的學(xué)生,成績(jī)基本上是良好的。
(3)基礎(chǔ)程度一般的學(xué)生且每周上機(jī)時(shí)間小于1小時(shí)的學(xué)生,成績(jī)基本是屬于中等水平。
。4)基礎(chǔ)程度差的學(xué)生但每周上機(jī)時(shí)間不少于1小時(shí)的學(xué)生,成績(jī)大部分集中在及格左右。
(5)基礎(chǔ)程度差的學(xué)生且每周上機(jī)時(shí)間少于1小時(shí)的學(xué)生,成績(jī)基本上都是不及格。
。6)而從結(jié)果來看性別是不能決定成績(jī)的。
6.決策樹方法分析結(jié)果的指導(dǎo)作用
通過對(duì)學(xué)生成績(jī)的決策樹分析,教師可以了解到哪些因素對(duì)學(xué)生成績(jī)有影響,根據(jù)這些影響因素,教師可以在今后的教學(xué)過程當(dāng)中進(jìn)行課程改革、改善教學(xué)過程當(dāng)中的不足之處,可以提高學(xué)生的學(xué)習(xí)成績(jī),學(xué)到更多的知識(shí)。
從生成的分類規(guī)則,可以了解到,學(xué)生基礎(chǔ)程度好且能保證每周有相當(dāng)?shù)臅r(shí)間來學(xué)習(xí),那么這樣的學(xué)生成績(jī)基本上都是優(yōu)秀,而基礎(chǔ)程度差且每周能用來學(xué)習(xí)的時(shí)間比較少的那些學(xué)生,成績(jī)基本上是屬于不及格的。而基礎(chǔ)程度一般且每周用來上機(jī)的時(shí)間相對(duì)比較多的學(xué)生,成績(jī)大部分是集中在中、良這兩個(gè)階段。基礎(chǔ)程度一般且每周用來上機(jī)時(shí)間比較少的那部分學(xué)生,成績(jī)集中在及格與不及格之間。所以可以知道學(xué)生的基礎(chǔ)程度好與差、每周能用來學(xué)習(xí)的上機(jī)時(shí)間的多與少,是影響學(xué)生成績(jī)的主要因素。但性別不是影響學(xué)生成績(jī)的主要因素,從決策樹來看,無論從哪個(gè)分支都看不出是男生成績(jī)好還是女生成績(jī)好,所以性別不是能影響學(xué)生成績(jī)的主要因素。
針對(duì)這些主次要因素,教師在教學(xué)過程當(dāng)中要進(jìn)行適當(dāng)?shù)慕虒W(xué)改革。而不能再用傳統(tǒng)的教學(xué)方法,不管基礎(chǔ)程度好與差,一概而論;也不管學(xué)生對(duì)知識(shí)掌握與否,一堂課都是老師在講,學(xué)生只能聽。這樣會(huì)使程度好的學(xué)生因?yàn)闆]有新知識(shí)可學(xué)而失去對(duì)這門課的興趣,而程度差的學(xué)生因?yàn)槁牪幻靼、學(xué)不到知識(shí),也對(duì)這門課失去興趣,結(jié)果會(huì)使整體的教學(xué)效果不好,學(xué)生的成績(jī)沒有得到提高,因此教師要改變這樣的傳統(tǒng)教學(xué)模式,才能提高學(xué)生對(duì)知識(shí)的掌握。改革的重點(diǎn)是要把程度差和程度好的學(xué)生進(jìn)行分開教學(xué),對(duì)于程度好的學(xué)生可以做一些更深層次的授課,而程度差的學(xué)生在授課的時(shí)候就要有針對(duì)性的授課,必須做到提高學(xué)生學(xué)習(xí)的積極性,讓他們對(duì)這個(gè)課程感興趣。程度好的學(xué)生計(jì)算機(jī)能力也會(huì)有所提高,而程度差的學(xué)生也可以學(xué)到自己想學(xué)的知識(shí)。
參考文獻(xiàn):
[1]陳文偉.決策樹支持系統(tǒng)與數(shù)據(jù)挖掘技術(shù)[M].北京:清華大學(xué)出版社,1998.
[2]陳文偉.數(shù)據(jù)挖掘技術(shù)[M].北京:北京工業(yè)大學(xué)出版社,2002
【數(shù)據(jù)挖掘技術(shù)在高校學(xué)生成績(jī)分析中的應(yīng)用研究論文】相關(guān)文章:
數(shù)據(jù)挖掘技術(shù)在Web信息檢索中的應(yīng)用研究論文12-01
數(shù)據(jù)挖掘技術(shù)在中等職業(yè)學(xué)校管理實(shí)踐中的應(yīng)用研究11-19
數(shù)據(jù)挖掘在電力企業(yè)中的應(yīng)用論文12-13
數(shù)據(jù)挖掘技術(shù)的教學(xué)輔助系統(tǒng)應(yīng)用論文03-16
數(shù)據(jù)挖掘技術(shù)在就業(yè)指導(dǎo)的應(yīng)用論文02-27
數(shù)據(jù)挖掘在現(xiàn)代遠(yuǎn)程教育中的應(yīng)用論文11-22
GPSRTK技術(shù)在工程測(cè)量中的應(yīng)用研究論文02-14
數(shù)據(jù)挖掘論文的參考文獻(xiàn)01-07
數(shù)據(jù)挖掘與客戶關(guān)系管理分析02-28
- 相關(guān)推薦