聚類分析算法論文
聚類分析又稱群分析,它是研究(樣品或指標(biāo))分類問題的一種統(tǒng)計(jì)分析方法,同時(shí)也是數(shù)據(jù)挖掘的一個(gè)重要算法。下面是小編分享給大家的聚類分析算法論文,歡迎閱讀。
一、引言
聚類分析算法是給定m維空間R中的n個(gè)向量,把每個(gè)向量歸屬到k個(gè)聚類中的某一個(gè),使得每一個(gè)向量與其聚類中心的距離最小。聚類可以理解為:類內(nèi)的相關(guān)性盡量大,類間相關(guān)性盡量小。聚類問題作為一種無指導(dǎo)的學(xué)習(xí)問題,目的在于通過把原來的對(duì)象集合分成相似的組或簇,來獲得某種內(nèi)在的數(shù)據(jù)規(guī)律。聚類分析的基本思想是:采用多變量的統(tǒng)計(jì)值,定量地確定相互之間的親疏關(guān)系,考慮對(duì)象多因素的聯(lián)系和主導(dǎo)作用,按它們親疏差異程度,歸入不同的分類中一元,使分類更具客觀實(shí)際并能反映事物的內(nèi)在必然聯(lián)系。也就是說,聚類分析是把研究對(duì)象視作多維空間中的許多點(diǎn),并合理地分成若干類,因此它是一種根據(jù)變量域之間的相似性而逐步歸群成類的方法,它能客觀地反映這些變量或區(qū)域之間的內(nèi)在組合關(guān)系。鹽礦區(qū)系統(tǒng)是一個(gè)多層次、復(fù)雜的大系統(tǒng),涉及諸多模糊、不確定的因素。平頂山市鹽礦區(qū)的經(jīng)濟(jì)分類是以整個(gè)平頂山市的所有鹽礦區(qū)為研究對(duì)象,以各鹽礦區(qū)為基本單元,以經(jīng)濟(jì)為中心,以發(fā)展戰(zhàn)略和合理布局為目標(biāo)進(jìn)行經(jīng)濟(jì)類型區(qū)劃。其基本原則是:平頂山市的鹽礦區(qū)資源開發(fā)、利用的相對(duì)一致性;自然、經(jīng)濟(jì)、社會(huì)條件的一致性;保持一定行政地域單元的相對(duì)穩(wěn)定性,F(xiàn)行的平頂山市鹽礦區(qū)行政劃分不能反映出各個(gè)鹽礦區(qū)的共同點(diǎn),有必要通過模糊聚類分析將那些經(jīng)濟(jì)實(shí)際狀況相似的鐵礦區(qū)歸類,剖析、發(fā)現(xiàn)各況礦區(qū)的差異,對(duì)癥下藥,為制定發(fā)展對(duì)策提供依據(jù)。
二、建立指標(biāo)體系
1、確定分類指標(biāo)進(jìn)行經(jīng)濟(jì)區(qū)劃分,應(yīng)考慮的指標(biāo)因素是多種多樣的。既要以巖鹽礦資源儲(chǔ)量為主,又要適當(dāng)考慮巖鹽質(zhì)量和勘察階段和開發(fā)利用狀況;既要有直接指標(biāo),又要有間接指標(biāo);既要考慮礦區(qū)發(fā)展的現(xiàn)狀,又要考慮礦區(qū)發(fā)展的過程和礦區(qū)發(fā)展的未來方向。參考有關(guān)資料,結(jié)合專家意見,我們確定了對(duì)平頂山市鹽礦區(qū)進(jìn)行經(jīng)濟(jì)區(qū)劃分的指標(biāo)。如表1所示。表中列舉了具體指標(biāo)及各指標(biāo)的原始數(shù)據(jù)(數(shù)據(jù)來源于河南省2006年礦產(chǎn)資源儲(chǔ)量簡(jiǎn)表)。表1鹽礦區(qū)經(jīng)濟(jì)劃分指標(biāo)體系及指標(biāo)數(shù)據(jù)注:表中N表示缺失數(shù)據(jù),勘察階段1、2、3分別表示:初步勘探、詳細(xì)普查、詳細(xì)勘探,利用狀況1~7分別表示:近期不宜進(jìn)一步工作、可供進(jìn)一步工作、近期難以利用、推薦近期利用、計(jì)劃近期利用、基建礦區(qū)、開采礦區(qū)。
2、轉(zhuǎn)換指標(biāo)數(shù)據(jù)由于不同變量之間存在不同量綱由于不同變量之間存在不同量綱、不同數(shù)量級(jí),為使各個(gè)變量更具有可比性,有必要對(duì)數(shù)據(jù)進(jìn)行轉(zhuǎn)換。目前進(jìn)行數(shù)據(jù)處理的方法大致有三種,即標(biāo)準(zhǔn)化、極差標(biāo)準(zhǔn)化和正規(guī)化。為便于更直觀的比較各市之間同一指標(biāo)的數(shù)值大小,我們采用了正規(guī)化轉(zhuǎn)換方式。其計(jì)算公式為:為了方便敘述,做如下設(shè)定:設(shè)Xi(i=1,2,3,…,21)為具體指標(biāo)層中第i個(gè)評(píng)價(jià)指標(biāo)的值,Pi(i=1,2,3,…,21)為第i個(gè)指標(biāo)正規(guī)化后的值,0≤Pi≤1,Xs,i(Xs,i=Xmax-Xmin),為第i個(gè)評(píng)價(jià)指標(biāo)的標(biāo)準(zhǔn)值,Xmax為最大值,Xmin為最小值。(1)對(duì)于越高越好的指標(biāo)①Xi≥Xmax,則Pi=1;②Xi≤Xmin,則Pi=0;③Xmin<Xi<Xmax,則其計(jì)算式為:Pi=Xi-Xmin/Xs,i(2)對(duì)于越低越好的指標(biāo)①2Xi≤Xmin,則Pi=1;②Xi≥Xmax,則Pi=0;③Xmin<Xi<Xmax,則其計(jì)算式為:Pi=Xmax-Xi/Xs,i所有參與聚類分析的指標(biāo)數(shù)據(jù)見表2。
三、聚類分析
1、聚類步驟(Stage).從1~3表示聚類的先后順序。
2、個(gè)案合并(ClusterCombined)。表示在某步中合并的個(gè)案,如第一步中個(gè)案1葉縣田莊鹽礦段和個(gè)案2葉縣馬莊鹽礦段合并,合并以后用第一項(xiàng)的個(gè)案號(hào)表示生成的新類。
3、相似系數(shù)(Coefficients).據(jù)聚類分析的基本原理,個(gè)案之間親密程度最高即相似系數(shù)最接近于1的,最先合并。因此該列中的系數(shù)與第一列的聚類步驟相對(duì)應(yīng),系數(shù)值從小到大排列。
4、新類首次出現(xiàn)的步驟(StageClusterFirstAppears)。對(duì)應(yīng)于各聚類步驟參與合并的兩項(xiàng)中,如果有一個(gè)是新生成的類(即由兩個(gè)或兩個(gè)以上個(gè)案合并成的類),則在對(duì)應(yīng)列中顯示出該新類在哪一步第一次生成。如第三步中該欄第一列顯示值為1,表示進(jìn)行合并的兩項(xiàng)中第一項(xiàng)是在第一步第一次生成的新類。如果值為O,則表示對(duì)應(yīng)項(xiàng)還是個(gè)案(不是新類)。
5、新類下次出現(xiàn)步驟(NextStage)。表示對(duì)應(yīng)步驟生成的新類將在第幾步與其他個(gè)案或新類合并。如第一行的值是11,表示第一步聚類生成的新類將在第11步與其他個(gè)案或新類合并。
6、解析圖DendrogramusingAverageLinkage(BetweenGroups)RescaledDistanceClusterCombine聚類樹狀圖(方法:組間平均連接法)圖清晰的顯示了聚類的全過程。他將實(shí)際距離按比例調(diào)整到0~25之間,用逐級(jí)連線的方式連接性質(zhì)相近的個(gè)案或新類,直至并未一類。在該圖上部的距離標(biāo)尺上根據(jù)需要(粗分或細(xì)分)選定一個(gè)劃分類的距離值,然后垂直標(biāo)尺劃線,該垂線將與水平連線相交,則相交的交點(diǎn)數(shù)即為分類的類別數(shù),相交水平連線所對(duì)應(yīng)的個(gè)案聚成一類。例如,選標(biāo)尺值為5,則聚為3類:葉縣田莊鹽段、葉縣馬莊鹽礦段為一類,葉縣婁莊鹽礦、葉縣五里堡鹽礦段為一類,葉縣姚寨鹽礦為一類。若選標(biāo)尺值為10,則聚為2類:葉縣田莊鹽段、葉縣馬莊鹽礦段為一類,葉縣婁莊鹽礦、葉縣五里堡鹽礦段、葉縣姚寨鹽礦為一類。
四、結(jié)論
對(duì)平頂山市5個(gè)鹽礦區(qū)進(jìn)行經(jīng)濟(jì)區(qū)劃分,究竟劃分為幾個(gè)區(qū)合適,既不是越多越好,也不是越少越好。劃分經(jīng)濟(jì)區(qū)的目的,就是要根據(jù)各鹽礦經(jīng)濟(jì)區(qū)資源特點(diǎn)、勘察、開發(fā)的不同,分類指導(dǎo)經(jīng)濟(jì)活動(dòng),使人們的經(jīng)濟(jì)活動(dòng)更加符合當(dāng)?shù)氐膶?shí)際,使各經(jīng)濟(jì)區(qū)能充分發(fā)揮各自的優(yōu)勢(shì),做到揚(yáng)長(zhǎng)避短,趨利避害,達(dá)到投人少、產(chǎn)出多,創(chuàng)造良好的經(jīng)濟(jì)效益和社會(huì)效益之目的。分區(qū)太多,就失去了分區(qū)的意義,分區(qū)太少,則分類指導(dǎo)很難做到有的放矢。綜合以上聚類分析結(jié)果,我們可以得出三個(gè)方案。其中兩個(gè)方案比較合適,可供選擇。方案一:(當(dāng)比例尺為5時(shí),分為3類)葉縣田莊鹽段、葉縣馬莊鹽礦段為一類,葉縣婁莊鹽礦、葉縣五里堡鹽礦段為一類,葉縣姚寨鹽礦為一類。從聚類分析中看出平頂山市鹽礦區(qū)分類圖方案一。方案二:(當(dāng)比例尺為10時(shí),分為2類)葉縣田莊鹽段、葉縣馬莊鹽礦段為一類,葉縣婁莊鹽礦、葉縣五里堡鹽礦段、葉縣姚寨鹽礦為一類。從聚類分析中看出平頂山市鹽礦區(qū)分類圖方案二。平頂山市鹽礦區(qū)分類圖方案2聚類分析的原理就是將礦石質(zhì)量、資源儲(chǔ)量、勘查階段、利用狀況相近或相類似的礦區(qū)聚合在一起,其分析結(jié)果也是直觀易見的。在此結(jié)合平頂山市實(shí)際行政區(qū)劃以及礦山企業(yè)特征我們對(duì)鐵礦區(qū)劃分做一個(gè)調(diào)整使其理論與實(shí)際能夠結(jié)合的更緊密使其更好的指導(dǎo)實(shí)踐。
1、葉縣田莊鹽段、葉縣馬莊鹽礦段為一類,這一類屬于礦床規(guī)模相當(dāng),資源儲(chǔ)量接近,勘查開發(fā)階段接近,利用程度相當(dāng),故,可以分為一類。
2、葉縣婁莊鹽礦、葉縣五里堡鹽礦段為一類,這一類屬于勘查開發(fā)階段處于同一階段。
3、葉縣姚寨鹽礦為一類,這一類屬于儲(chǔ)量較高,鹽礦品位較高,故其勘察開采規(guī)劃有別于其它兩類?偟恼f來,運(yùn)用聚類分析是基本成功的,大部分的分類是符合實(shí)際的。綜合以上論述鹽礦區(qū)劃分如下表所示:當(dāng)然聚類分析有其優(yōu)點(diǎn)也有其缺點(diǎn):(1)優(yōu)點(diǎn):聚類分析模型的優(yōu)點(diǎn)就是直觀,結(jié)論形式簡(jiǎn)明。(2)缺點(diǎn):在樣本量較大時(shí),要獲得聚類結(jié)論有一定困難。由于相似系數(shù)是根據(jù)被試的反映來建立反映被試問內(nèi)在聯(lián)系的指標(biāo),而實(shí)踐中有時(shí)盡管從被試反映所得出的數(shù)據(jù)中發(fā)現(xiàn)他們之間有緊密的關(guān)系,但事物之間卻無任何內(nèi)在聯(lián)系,此時(shí),如果根據(jù)距離或相似系數(shù)得出聚類分析的結(jié)果,顯然是不適當(dāng)?shù),但是,聚類分析模型本身卻無法識(shí)別這類錯(cuò)誤。
【聚類分析算法論文】相關(guān)文章:
基于智能優(yōu)化算法的Wiener模型辨識(shí)論文提綱12-05
計(jì)算機(jī)專業(yè)算法類課程教學(xué)模式改革論文02-18
詳談改進(jìn)的遺傳算法求解柔性作業(yè)車間調(diào)度問題論文12-16
計(jì)算機(jī)網(wǎng)絡(luò)路由選擇中改進(jìn)量子進(jìn)化算法的應(yīng)用分析論文02-17
基于QBASIC環(huán)境下的數(shù)學(xué)算法教學(xué)11-14
最小邊排名問題的若干算法研究12-04
《基于導(dǎo)納的圖像加密算法的研究》開題報(bào)告12-03
工件有到達(dá)時(shí)間排序問題的LS算法分析11-18
隨機(jī)規(guī)劃分解算法研究及其應(yīng)用提綱12-02
- 相關(guān)推薦