久久九九国产无码高清_人人做人人澡人人人爽_日本一区二区三区中文字幕_日韩无码性爱免费

統(tǒng)計(jì)學(xué)習(xí)方法李航

時(shí)間:2020-12-08 10:03:05 學(xué)習(xí)方法 我要投稿

統(tǒng)計(jì)學(xué)習(xí)方法李航

  李航的《統(tǒng)計(jì)學(xué)習(xí)方法》絕對是干貨十足的書,可惜實(shí)在是太干了,字字珠璣,幾乎每段話都能當(dāng)作筆記進(jìn)行整理。讀起來仿佛在吃加強(qiáng)版的壓縮餅干,雖然能量十足但未免太難吃了。接下來小編為你帶來統(tǒng)計(jì)學(xué)習(xí)方法李航,希望對你有幫助。

統(tǒng)計(jì)學(xué)習(xí)方法李航

  統(tǒng)計(jì)學(xué)習(xí)方法的三要素

 。1)模型

 。2)策略

 。3)算法

  實(shí)現(xiàn)統(tǒng)計(jì)學(xué)習(xí)的步驟:

  (1)得到用來訓(xùn)練模型和測試模型的數(shù)據(jù)集(輸入和輸出(實(shí)際值)+需要進(jìn)行預(yù)測的輸入數(shù)據(jù))

 。2)確定包含所有可能的模型的假設(shè)空間(模型的假設(shè)空間就是確定的帶參的函數(shù)族,之所以說是有無數(shù)個(gè)是因?yàn)閰?shù)的選取相對來說是任意的),就是學(xué)習(xí)模型的集合

 。3)確定怎么樣在假設(shè)空間中的帶參的無限多個(gè)函數(shù)中間來選取最終模型的準(zhǔn)則(就是說應(yīng)該給予什么約束來確定最終模型),這種準(zhǔn)則就是學(xué)習(xí)的策略

  一般是用代價(jià)函數(shù)最為準(zhǔn)則(策略)來確定最終模型的。代價(jià)函數(shù)指的就是帶參的模型的估計(jì)值和實(shí)際值之間的差距(一般用以度量的代價(jià)函數(shù)就是平方損失,概率估計(jì)等),代價(jià)函數(shù)的選取就是確定學(xué)習(xí)的策略,還要加上規(guī)范化項(xiàng)(正則項(xiàng))來約束這個(gè)模型(中的權(quán)重系數(shù),使得權(quán)重系數(shù)不至于過大,因?yàn)闄?quán)重系數(shù)過大可能會(huì)出現(xiàn)模型的過擬合,過擬合就是模型在訓(xùn)練樣本中的估計(jì)情況比較好但是在測試樣本中的表現(xiàn)就不行了)

  (4)有上述第三步確定了是由代價(jià)函數(shù)和規(guī)范化項(xiàng)來約束模型參數(shù)的選取的,最優(yōu)模型當(dāng)然是約束下的代價(jià)函數(shù)和規(guī)范化項(xiàng)取得最小值時(shí)候的參數(shù)了,這里如何求得代價(jià)函數(shù)和規(guī)范化項(xiàng)的最小值的算法就是學(xué)習(xí)的算法了(學(xué)習(xí)的意思就是通過算法求解模型的參數(shù))

  學(xué)習(xí)的算法有梯度下降法,正規(guī)矩陣求解等多元函數(shù)求導(dǎo)方法

 。5)通過學(xué)習(xí)方法(求解系數(shù)的算法)來求解最優(yōu)模型

  (6)利用求得的最優(yōu)模型來對新數(shù)據(jù)(測試數(shù)據(jù)或者是需要進(jìn)行預(yù)測的數(shù)據(jù))進(jìn)行模型的檢驗(yàn)或者是用模型進(jìn)行預(yù)判

  監(jiān)督學(xué)習(xí)(重點(diǎn)):具有輸出數(shù)據(jù)(標(biāo)簽)(可以根據(jù)輸入數(shù)據(jù)和輸出數(shù)據(jù)的離散還是連續(xù)來分為分類,回歸和標(biāo)注)

  無監(jiān)督學(xué)習(xí):不具有輸出數(shù)據(jù),僅具有輸入數(shù)據(jù)(一般是聚類分析)

  半監(jiān)督學(xué)習(xí):由于標(biāo)簽的成本比較高,只能給一部分的數(shù)據(jù)進(jìn)行標(biāo)簽操作。

  強(qiáng)化學(xué)習(xí):是一種自主學(xué)習(xí)的模式

  監(jiān)督學(xué)習(xí):將數(shù)據(jù)集(輸入數(shù)據(jù)和輸出標(biāo)簽)通過統(tǒng)計(jì)機(jī)器學(xué)習(xí)來得到輸入數(shù)據(jù)和輸出數(shù)據(jù)之間的函數(shù)映射(不知道的實(shí)際的f是黑盒子,我們要用學(xué)習(xí)得到的模型去逼近/近似模擬f黑盒子)關(guān)系,得到這個(gè)模型之后再將這個(gè)模型去應(yīng)用于其他未知標(biāo)簽的數(shù)據(jù)的標(biāo)簽的預(yù)測。

  監(jiān)督學(xué)習(xí)中的一些基本概念:

  1)輸入空間,特征空間和輸出空間

  輸入空間:輸入變量xi(x1,x2,...)的所有i對應(yīng)的x的取值構(gòu)建起來的集合叫做輸入空間(從形式上來看輸入空間是矩陣形式的

  輸出空間:輸出變量yi的所有可能的情況構(gòu)建起來的集合就叫做輸出空間(從形式上來看輸出空間應(yīng)該是列向量形式的)

  輸入空間和輸出空間可以在同一個(gè)空間中,也可以在不同的空間中,通常輸出空間要比輸入空間來的小(就是輸出的情況比輸入的情況來的少)

  特征空間:輸入變量xi(x1,x2,...)中的各個(gè)x1,x2,...來表征xi,這些x1,x2,...就是輸入變量xi對應(yīng)的屬性/特征,這些不同的屬性/特征構(gòu)建起來的空間就是特征空間(從形式上來看特征空間是列向量形式的)

  輸入空間就是在特征空間中的不同取值的集合,列向量(特征空間)的轉(zhuǎn)置的列向量組合就是輸入空間的矩陣

  一些約定:

  1.輸入,輸出變量的所有情況用大寫X,Y表示;

  2.輸入,輸出變量的某一種取值狀況用小寫x,y表示

  3.變量可以是標(biāo)量(如輸出變量y)也可以是向量(如輸入向量x)

  4.xi表示的是輸入空間中的第i個(gè)輸入變量,但是這個(gè)輸入變量是一個(gè)具有多屬性的向量;而x(i)表示的是輸入空間中的第i個(gè)屬性/特征,就是輸入空間的某個(gè)屬性列

  監(jiān)督學(xué)習(xí)的一些細(xì)分:

  輸入變量x和輸出變量y都是連續(xù)的模型叫做回歸分析

  輸入變量為連續(xù)的,輸出變量時(shí)離散的情形叫做分類問題

  輸入變量和輸出變量都為離散的叫做標(biāo)注

  2)聯(lián)合概率分布

  1.什么是概率分布?什么是聯(lián)合概率分布?

  概率分布p(y|x):指的是練習(xí)樣本數(shù)據(jù)中的一條數(shù)據(jù)(一個(gè)樣本點(diǎn))的模型估計(jì)和實(shí)際值之間的取值相等的概率(模型在這個(gè)樣本點(diǎn)之上的準(zhǔn)確度)

  概率分布指的就是在一定條件下面出現(xiàn)的不同情況的概率的情況

  形式有如p(y|x)表示的是在x的情形下發(fā)生y的概率。

  其中的y|x指的是在隨機(jī)變量x(輸入的一個(gè)數(shù)據(jù))的情形下面發(fā)生y的概率

  聯(lián)合概率分布P(Y|X):指的是練習(xí)樣本數(shù)據(jù)中的所有數(shù)據(jù)根據(jù)模型計(jì)算的估計(jì)值和實(shí)際值全部相等的概率(練習(xí)樣本數(shù)據(jù)集中所有數(shù)據(jù)輸入后的估計(jì)值和實(shí)際值一樣的概率當(dāng)然就是所有的單條數(shù)據(jù)經(jīng)過模型估計(jì)后的估計(jì)值和實(shí)際值相等的概率的乘積,當(dāng)然是將單個(gè)的概率分布做連乘處理,就是采用似然函數(shù)來估計(jì)總體的情況)(模型在練習(xí)數(shù)據(jù)集上面的準(zhǔn)確度)

  聯(lián)合概率分布指的是在X的條件下面事件Y發(fā)生的概率。

  其中的X指的是隨機(jī)變量x在輸入空間中的集合,就是在這些輸入空間中的隨機(jī)變量共同輸入的情況下事件Y發(fā)生的'概率。

  似然估計(jì):(總體概率的估計(jì)(聯(lián)合概率分布),就是將單個(gè)個(gè)體的概率的估計(jì)(概率分布)做連乘處理)

  由上面可知聯(lián)合概率分布(總體)可以采用似然估計(jì)來將概率分布(個(gè)體)相乘的前提就是各個(gè)個(gè)體服從獨(dú)立同分布(各個(gè)個(gè)體是相互獨(dú)立的而且這些個(gè)體的概率分布是相同的)

  獨(dú)立同分布:

  對象是練習(xí)數(shù)據(jù)集中的單條數(shù)據(jù)

  因?yàn)閿?shù)據(jù)集中的元素(一條條的數(shù)據(jù))的數(shù)據(jù)結(jié)構(gòu)是相同的,所以應(yīng)該是滿足同分布的,但是這些數(shù)據(jù)獨(dú)立嗎???

  3)假設(shè)空間

  假設(shè)空間是帶參的模型,是對練習(xí)數(shù)據(jù)集上面的輸入到輸出的映射關(guān)系,假設(shè)空間的確定意味著模型范圍的確定,就是確定了帶參的函數(shù),接下去的任務(wù)就是計(jì)算出最優(yōu)的模型

  假設(shè)空間中帶參的模型函數(shù)的建立

  這個(gè)模型的對象是練習(xí)數(shù)據(jù)集中的樣本點(diǎn)。因此這個(gè)帶參的函數(shù)模型如果是概率的話就是概率分布了

  學(xué)習(xí)的三要素:

  模型,策略,算法

  模型就是選取合適的帶參的函數(shù)(假設(shè)空間),有可能是條件概率分布函數(shù)p(y|x)也有可能是決策函數(shù)

 。1)由決策函數(shù)定義的模型叫做非概率模型

  (2)由條件概率分布函數(shù)定義的模型叫做概率模型。

  策略就是采取何種約束(規(guī)則)來計(jì)算帶參的函數(shù)(模型)(代價(jià)函數(shù),規(guī)則化項(xiàng)來制約,代價(jià)函數(shù)和規(guī)則化項(xiàng)的選取的不同就是策略的不同(對整體模型的準(zhǔn)確性的一種約束,最小二乘法,聯(lián)合概率分布)

  非概率模型的損失函數(shù)一般是平方損失函數(shù)(估計(jì)值和實(shí)際值之間的差距的平方):對應(yīng)于損失最小

  概率模型的損失函數(shù)一般考慮用聯(lián)合概率分布(對條件概率分布函數(shù)來構(gòu)造似然函數(shù)):對應(yīng)于聯(lián)合概率分布最大

  算法就是對策略產(chǎn)生的代價(jià)函數(shù)和正則項(xiàng)的綜合函數(shù)進(jìn)行最值的計(jì)算來使得這個(gè)模型的參數(shù)最優(yōu)化(使得代價(jià)最小或者是模型的估計(jì)值和實(shí)際值相等的概率最大),用梯度下降法或者正規(guī)矩陣的方法來計(jì)算得到最佳參數(shù)。

【統(tǒng)計(jì)學(xué)習(xí)方法李航】相關(guān)文章:

關(guān)于夏航面試經(jīng)驗(yàn)11-27

航拍構(gòu)圖技巧方法08-12

航拍方法技巧流程11-13

無人機(jī)航拍影視技巧10-08

影視制作的航拍要求10-06

機(jī)場助航燈基本知識(shí)08-14

基于統(tǒng)計(jì)學(xué)的李賀詩歌色彩詞的語言學(xué)分析08-05

影視制作中的航拍技巧10-07

航拍方法技巧及注意事項(xiàng)11-07

航材資源管理論文10-08