摘要
前期回顧:
機(jī)器學(xué)習(xí)與連續(xù)流連載系列丨使用康寧反應(yīng)器集成在線(xiàn)光譜,通過(guò)半監(jiān)督機(jī)器學(xué)習(xí)識(shí)別化學(xué)反應(yīng)式計(jì)量和動(dòng)力學(xué)模型點(diǎn)擊進(jìn)入原文查看
本期亮點(diǎn)
本期將對(duì)機(jī)器學(xué)習(xí)做一次全面感性認(rèn)識(shí):
什么是機(jī)器學(xué)習(xí)?
機(jī)器學(xué)習(xí)的工作流程是怎樣的?
機(jī)器學(xué)習(xí)有幾種類(lèi)型?
機(jī)器學(xué)習(xí)也有局限性?
機(jī)器學(xué)習(xí)(Machine Learning, ML)作為人工智能(Artificial Intelligence, AI)的一個(gè)分支,正在逐漸改變我們與技術(shù)的互動(dòng)方式。本文將探討機(jī)器學(xué)習(xí)的核心概念、工作流程、類(lèi)型、優(yōu)勢(shì)與局限。
點(diǎn)擊關(guān)注公眾號(hào),我們下期不見(jiàn)不散!
在回答機(jī)器學(xué)習(xí)前,先回到人類(lèi)的學(xué)習(xí),什么叫做學(xué)習(xí)或者學(xué)會(huì)了?簡(jiǎn)而言之就是發(fā)現(xiàn)規(guī)律,能根據(jù)已有情況,尋找規(guī)律,解決新問(wèn)題。
“過(guò)擬合”,打個(gè)比方就像某學(xué)生做大量題,他死記硬背,只會(huì)做已經(jīng)做過(guò)的相同的題,遇到相同知識(shí)基礎(chǔ)的新題(稍微變化一下)就不會(huì)解答,也就是“泛化能力”差。
比如某某學(xué)生在模擬考試中,考試成績(jī)好,到了正式考試時(shí),成績(jī)不理想,很多家長(zhǎng)認(rèn)為沒(méi)有考試運(yùn)。當(dāng)然這個(gè)有很多原因,比如考試時(shí)緊張,身體出現(xiàn)不適等,但有個(gè)原因就是其“泛化能力”差,模擬考是他做過(guò)的題,沒(méi)有從中“泛化”出規(guī)律去解答新題。
機(jī)器學(xué)習(xí)類(lèi)似人類(lèi)學(xué)習(xí),根據(jù)大量題型總結(jié)規(guī)律,根據(jù)規(guī)律去解決新問(wèn)題。
人工智能先驅(qū)Arthur Samuel,在1950年代將“機(jī)器學(xué)習(xí)”定義為,“使計(jì)算機(jī)能夠在沒(méi)有明確編程的情況下進(jìn)行學(xué)習(xí)的研究領(lǐng)域”。
Nvidia認(rèn)為“機(jī)器學(xué)習(xí)最基本的是使用算法解析數(shù)據(jù),從中學(xué)習(xí),然后對(duì)世界上的事物做出決定或預(yù)測(cè)。”
傳統(tǒng)編程
機(jī)器學(xué)習(xí)
傳統(tǒng)編程需要寫(xiě)好嚴(yán)格的詳細(xì)的程序指令,根據(jù)輸入數(shù)據(jù)得到輸出結(jié)果。其難度在于程序的編寫(xiě),有時(shí)不能覆蓋某些新情況。比如做饅頭,寫(xiě)好買(mǎi)1kg白面粉,和面加入X kg水,捏好形狀,放入蒸籠蒸X分鐘。如果遇到了玉米粉,它就不會(huì)做玉米饅頭了。
機(jī)器學(xué)習(xí)是通過(guò)算法和大量的做饅頭的書(shū)籍介紹等,總結(jié)出通用規(guī)律,這樣遇到玉米粉也能輸出相應(yīng)做玉米饅頭的步驟。所以機(jī)器學(xué)習(xí)難在解析數(shù)據(jù)結(jié)構(gòu),發(fā)現(xiàn)規(guī)律。
機(jī)器學(xué)習(xí)的工作流程包括以下幾個(gè)關(guān)鍵步驟:
數(shù)據(jù)收集:從不同來(lái)源收集數(shù)據(jù),如音樂(lè)錄音、患者病史或照片。
數(shù)據(jù)準(zhǔn)備:清洗數(shù)據(jù)、去除錯(cuò)誤,并進(jìn)行格式化,使其適合計(jì)算機(jī)處理。
選擇和訓(xùn)練模型:根據(jù)任務(wù)選擇合適的機(jī)器學(xué)習(xí)模型,并開(kāi)始訓(xùn)練過(guò)程。
模型優(yōu)化:通過(guò)調(diào)整參數(shù)或設(shè)置來(lái)提高模型的準(zhǔn)確性。
模型評(píng)估:使用未包含在訓(xùn)練數(shù)據(jù)中的新數(shù)據(jù)來(lái)測(cè)試模型的泛化能力。
模型部署:將訓(xùn)練和評(píng)估好的模型用于對(duì)新數(shù)據(jù)進(jìn)行預(yù)測(cè)或識(shí)別模式。
機(jī)器學(xué)習(xí)模型主要分為四種類(lèi)型:
監(jiān)督學(xué)習(xí):使用帶有明確描述或標(biāo)簽的訓(xùn)練數(shù)據(jù),算法在“監(jiān)督者”的幫助下學(xué)習(xí)。監(jiān)督學(xué)習(xí)就像做題,有答案和目標(biāo)可以參照。
無(wú)監(jiān)督學(xué)習(xí):使用未標(biāo)記的訓(xùn)練數(shù)據(jù),目的是在沒(méi)有具體指導(dǎo)的情況下發(fā)現(xiàn)數(shù)據(jù)中的模式、結(jié)構(gòu)或關(guān)系。
半監(jiān)督學(xué)習(xí):嚴(yán)格意義上來(lái)說(shuō)不算獨(dú)立分類(lèi),顧名思義就是有一部分有明確描述的數(shù)據(jù)來(lái)訓(xùn)練。例如上篇文章提到的半監(jiān)督學(xué)習(xí)。就是先做一部分給答案的題,然后根據(jù)規(guī)律去做另一半沒(méi)有答案的題目。
強(qiáng)化學(xué)習(xí):計(jì)算機(jī)程序通過(guò)與環(huán)境的交互來(lái)學(xué)習(xí),通過(guò)試錯(cuò)來(lái)確定在特定情境下的最佳行動(dòng)。
優(yōu)勢(shì)
數(shù)據(jù)處理能力:機(jī)器學(xué)習(xí)能夠處理大量數(shù)據(jù),并自行發(fā)現(xiàn)模式和進(jìn)行預(yù)測(cè)。
靈活性:機(jī)器學(xué)習(xí)模型可以適應(yīng)新數(shù)據(jù),并隨著時(shí)間的推移不斷提高準(zhǔn)確性。
自動(dòng)化:機(jī)器學(xué)習(xí)模型消除了手動(dòng)數(shù)據(jù)分析和解釋的需要,實(shí)現(xiàn)了決策自動(dòng)化。
局限
過(guò)擬合和泛化問(wèn)題:機(jī)器學(xué)習(xí)模型可能過(guò)于適應(yīng)訓(xùn)練數(shù)據(jù),導(dǎo)致無(wú)法泛化到未見(jiàn)過(guò)的例子。
可解釋性:一些機(jī)器學(xué)習(xí)模型像“黑箱”一樣運(yùn)作,即使是專(zhuān)家也無(wú)法解釋它們的決策或預(yù)測(cè)。
算法偏差:由于訓(xùn)練數(shù)據(jù)可能包含人類(lèi)的偏見(jiàn),這可能導(dǎo)致算法偏差,產(chǎn)生不公平的結(jié)果。
電話(huà)
關(guān)注公眾號(hào)