一句話理解機(jī)器學(xué)習(xí)一般訓(xùn)練過程 :通過有標(biāo)簽樣本來調(diào)整(學(xué)習(xí))并確定所有權(quán)重Weights和偏差Bias的理想值。
訓(xùn)練的目標(biāo):最小化損失函數(shù)
(損失函數(shù)下面馬上會(huì)介紹)
機(jī)器學(xué)習(xí)算法在訓(xùn)練過程中,做的就是:檢查多個(gè)樣本并嘗試找出可最大限度地減少損失的模型;目標(biāo)就是將損失(Loss)最小化
上圖就是一般模型訓(xùn)練的一般過程(試錯(cuò)過程),其中
例如:使用梯度下降法,因?yàn)橥ㄟ^計(jì)算整個(gè)數(shù)據(jù)集中w每個(gè)可能值的損失函數(shù)來找到收斂點(diǎn)這種方法效率太低。所以通過梯度能找到損失更小的方向,并迭代。
舉個(gè)TensorFlow代碼栗子,對(duì)應(yīng)上面公式在代碼中定義該線性模型:
y_output = tf.multiply(w,x) + b
假設(shè)該模型應(yīng)用于房價(jià)預(yù)測,那么y_output為預(yù)測的房價(jià),x為輸入的房子特征值(如房子位置、面積、樓層等)
損失是一個(gè)數(shù)值 表示對(duì)于單個(gè)樣本而言模型預(yù)測的準(zhǔn)確程度。
如果模型的預(yù)測完全準(zhǔn)確,則損失為零,否則損失會(huì)較大。
訓(xùn)練模型的目標(biāo)是從所有樣本中找到一組平均損失“較小”的權(quán)重和偏差。
損失函數(shù)的目標(biāo):準(zhǔn)確找到預(yù)測值和真實(shí)值的差距
如圖 紅色箭頭表示損失,藍(lán)線表示預(yù)測。明顯左側(cè)模型的損失較大;右側(cè)模型的損失較小
要確定loss,模型必須定義損失函數(shù) loss function。例如,線性回歸模型通常將均方誤差用作損失函數(shù),而邏輯回歸模型則使用對(duì)數(shù)損失函數(shù)。
正確的損失函數(shù),可以起到讓預(yù)測值一直逼近真實(shí)值的效果,當(dāng)預(yù)測值和真實(shí)值相等時(shí),loss值最小。
舉個(gè)TensorFlow代碼栗子,在代碼中定義一個(gè)損失loss_price 表示房價(jià)預(yù)測時(shí)的loss,使用最小二乘法作為損失函數(shù):
loss_price = tr.reduce_sum(tf.pow(y_real - y_output), 2)
這里,y_real是代表真實(shí)值,y_output代表模型輸出值(既上文公式的y' ),因?yàn)橛械臅r(shí)候這倆差值會(huì)是負(fù)數(shù),所以會(huì)對(duì)誤差開平方,具體可以搜索下最小二乘法公式
理解梯度下降就好比在山頂以最快速度下山:
好比道士下山,如何在一座山頂上,找到最短的路徑下山,并且確定最短路徑的方向
原理上就是凸形問題求最優(yōu)解,因?yàn)橹挥幸粋€(gè)最低點(diǎn);即只存在一個(gè)斜率正好為 0 的位置。這個(gè)最小值就是損失函數(shù)收斂之處。
通過計(jì)算整個(gè)數(shù)據(jù)集中 每個(gè)可能值的損失函數(shù)來找到收斂點(diǎn)這種方法效率太低。我們來研究一種更好的機(jī)制,這種機(jī)制在機(jī)器學(xué)習(xí)領(lǐng)域非常熱門,稱為梯度下降法。
梯度下降法的目標(biāo):尋找梯度下降最快的那個(gè)方向
梯度下降法的第一個(gè)階段是為 選擇一個(gè)起始值(起點(diǎn))。起點(diǎn)并不重要;因此很多算法就直接將 設(shè)為 0 或隨機(jī)選擇一個(gè)值。下圖顯示的是我們選擇了一個(gè)稍大于 0 的起點(diǎn):
然后,梯度下降法算法會(huì)計(jì)算損失曲線在起點(diǎn)處的梯度。簡而言之,梯度是偏導(dǎo)數(shù)的矢量;它可以讓您了解哪個(gè)方向距離目標(biāo)“更近”或“更遠(yuǎn)”。請(qǐng)注意,損失相對(duì)于單個(gè)權(quán)重的梯度(如圖 所示)就等于導(dǎo)數(shù)。
請(qǐng)注意,梯度是一個(gè)矢量,因此具有以下兩個(gè)特征:
梯度始終指向損失函數(shù)中增長最為迅猛的方向。梯度下降法算法會(huì)沿著負(fù)梯度的方向走一步,以便盡快降低損失
為了確定損失函數(shù)曲線上的下一個(gè)點(diǎn),梯度下降法算法會(huì)將梯度大小的一部分與起點(diǎn)相加
然后,梯度下降法會(huì)重復(fù)此過程,逐漸接近最低點(diǎn)。(找到了方向)
好比上面下山問題中,每次下山的步長。
因?yàn)樘荻仁噶烤哂蟹较蚝痛笮?,梯度下降法算法用梯度乘以一個(gè)稱為學(xué)習(xí)速率(有時(shí)也稱為步長)的標(biāo)量,以確定下一個(gè)點(diǎn)的位置。這是超參數(shù),用來調(diào)整AI算法速率
例如,如果梯度大小為 2.5,學(xué)習(xí)速率為 0.01,則梯度下降法算法會(huì)選擇距離前一個(gè)點(diǎn) 0.025 的位置作為下一個(gè)點(diǎn)。
超參數(shù)是編程人員在機(jī)器學(xué)習(xí)算法中用于調(diào)整的旋鈕。大多數(shù)機(jī)器學(xué)習(xí)編程人員會(huì)花費(fèi)相當(dāng)多的時(shí)間來調(diào)整學(xué)習(xí)速率。如果您選擇的學(xué)習(xí)速率過小,就會(huì)花費(fèi)太長的學(xué)習(xí)時(shí)間:
繼續(xù)上面的栗子,實(shí)現(xiàn)梯度下降代碼為:
train_step = tf.train.GradientDescentOptimizer(0.025).minimize(loss_price)
這里設(shè)置梯度下降學(xué)習(xí)率為0.025, GradientDescentOptimizer()就是使用的隨機(jī)梯度下降算法, 而loss_price是由上面的損失函數(shù)獲得的loss
至此有了模型、損失函數(shù)以及梯度下降函數(shù),就可以進(jìn)行模型訓(xùn)練階段了:
Session = tf.Session() Session.run(init) for _ in range(1000): Session.run(train_step, feed_dict={x:x_data, y:y_data})
這里可以通過for設(shè)置固定的training 次數(shù),也可以設(shè)置條件為損失函數(shù)的值低于設(shè)定值,
x_data y_data則為訓(xùn)練所用真實(shí)數(shù)據(jù),x y 是輸入輸出的placeholder(代碼詳情參見TensorFlow API文檔)
BP(BackPropagation)網(wǎng)絡(luò)的訓(xùn)練,是反向傳播算法的過程,是由數(shù)據(jù)信息的正向傳播和誤差Error的反向傳播兩個(gè)過程組成。
反向傳播算法是神經(jīng)網(wǎng)絡(luò)算法的核心,其數(shù)學(xué)原理是:鏈?zhǔn)角髮?dǎo)法則
輸入層通過接收輸入數(shù)據(jù),傳遞給中間層(各隱藏層)神經(jīng)元,每一個(gè)神經(jīng)元進(jìn)行數(shù)據(jù)處理變換,然后通過最后一個(gè)隱藏層傳遞到輸出層對(duì)外輸出。
正向傳播后通過真實(shí)值和輸出值得到誤差Error,當(dāng)Error大于設(shè)定值,既實(shí)際輸出與期望輸出差別過大時(shí),進(jìn)入誤差反向傳播階段:
Error通過輸出層,按照誤差梯度下降的方式,如上面提到的隨機(jī)梯度下降法SGD,反向修正各層參數(shù)(如Weights),向隱藏層、輸入層逐層反轉(zhuǎn)。
通過不斷的正向、反向傳播,直到輸出的誤差減少到預(yù)定值,或到達(dá)最大訓(xùn)練次數(shù)。
到此這篇關(guān)于AI:如何訓(xùn)練機(jī)器學(xué)習(xí)的模型的文章就介紹到這了,相信對(duì)你有所幫助,更多相關(guān)機(jī)器學(xué)習(xí)內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持腳本之家!
標(biāo)簽:股票 駐馬店 衡水 畢節(jié) 江蘇 中山 呼和浩特 湖州
巨人網(wǎng)絡(luò)通訊聲明:本文標(biāo)題《AI:如何訓(xùn)練機(jī)器學(xué)習(xí)的模型》,本文關(guān)鍵詞 如何,訓(xùn)練,機(jī)器,學(xué)習(xí),的,;如發(fā)現(xiàn)本文內(nèi)容存在版權(quán)問題,煩請(qǐng)?zhí)峁┫嚓P(guān)信息告之我們,我們將及時(shí)溝通與處理。本站內(nèi)容系統(tǒng)采集于網(wǎng)絡(luò),涉及言論、版權(quán)與本站無關(guān)。