久久亚洲春色中文字幕久久久_亚洲另类春色偷拍在线观看_精品www_精品免费国产一区二区三区四区介绍_日韩在线中文_国产区在线看

 
當(dāng)前位置: 首頁 » 行業(yè)資訊 » 機器人»實際工作總與理論相矛盾?詳解機器學(xué)習(xí)教科書七大經(jīng)典問題
   

實際工作總與理論相矛盾?詳解機器學(xué)習(xí)教科書七大經(jīng)典問題

 46.1K
     [點擊復(fù)制]
放大字體  縮小字體 發(fā)布日期:2017-08-06   瀏覽次數(shù):897
核心提示:  現(xiàn)實任務(wù)中,應(yīng)當(dāng)怎樣做和教科書講的結(jié)論相抵觸,這時候候要怎樣辦呢?豈非教科書中的結(jié)論失足了?  假如愿望懂得機械進修,或許曾經(jīng)決議投身機械進修,你會第一時光找到各類教材停止充電,同時在心中默許:書

  現(xiàn)實任務(wù)中,應(yīng)當(dāng)怎樣做和教科書講的結(jié)論相抵觸,這時候候要怎樣辦呢?豈非教科書中的結(jié)論失足了?

實際工作總與理論相矛盾?詳解機器學(xué)習(xí)教科書七大經(jīng)典問題

  假如愿望懂得機械進修,或許曾經(jīng)決議投身機械進修,你會第一時光找到各類教材停止充電,同時在心中默許:書里講的是牛人年夜神的終生聰明,是準確無誤的行為指南,賣力進修就可以取得疾速晉升。但現(xiàn)實情形是,你極可能曾經(jīng)在走彎路。

  科技成長很快,數(shù)據(jù)在指數(shù)級增加,情況也在指數(shù)級轉(zhuǎn)變,是以許多時刻教科書會跟不上時期的成長。有時,即使是寫教科書的人,也不見得都明確結(jié)論面前的“所以然”,是以有些結(jié)論就會落伍于時期。針對這個成績,第四范式開創(chuàng)人、首席履行官戴文淵近日就在公司外部分享上,向年夜家引見了機械進修教材中的七個經(jīng)典成績。戴文淵是ACM世界冠軍(2005年),“遷徙進修”全球領(lǐng)武士物,在遷徙進修范疇單篇論文援用數(shù)至今仍排名世界第三。曾任百度鳳巢戰(zhàn)略的技巧擔(dān)任人、華為諾亞方舟試驗室主任迷信家。

  本文依據(jù)演講實錄整頓,略有刪減。

  有時我們會發(fā)明,在現(xiàn)實任務(wù)中,應(yīng)當(dāng)怎樣做和教科書講的結(jié)論相抵觸,這時候候要怎樣辦呢?豈非教科書中的結(jié)論失足了?現(xiàn)實上,有時確切如斯。所以明天我就想和年夜家分享一下機械進修教材中的一些經(jīng)典成績,愿望對年夜家往后的任務(wù)和進修有所贊助。

  成績一:神經(jīng)收集不宜跨越3層

  這是最著名毛病斷定,如今的教科書簡直曾經(jīng)不再有如許的結(jié)論,但假如看15年、20年前的機械進修教科書,會有一個很風(fēng)趣的結(jié)論:神經(jīng)收集不克不及跨越三層。這和我們?nèi)缃裾f的深度進修是抵觸的,深度進修如今年夜家比拼的不是神經(jīng)收集能不克不及跨越三層,而是能不克不及做出一百層、一千層或許更多。

實際工作總與理論相矛盾?詳解機器學(xué)習(xí)教科書七大經(jīng)典問題

  那為何之前的教科書上會寫神經(jīng)收集不克不及跨越三層,這就要從神經(jīng)收集的汗青說起。五十年月有位迷信家叫Marvin Minksy,他是一名生物學(xué)家,數(shù)學(xué)又很好,所以他在研討神經(jīng)元的時刻就在想能不克不及用數(shù)學(xué)模子去描繪生物的神經(jīng)元,是以就設(shè)計了感知機。感知機就像一個神經(jīng)細胞,它能像神經(jīng)細胞一樣連起來,構(gòu)成神經(jīng)收集,就像年夜腦的神經(jīng)收集。其其實60年月開端的時刻,是有很深的神經(jīng)收集,但其時經(jīng)由年夜量試驗發(fā)明,不跨越三層的神經(jīng)收集后果不錯,因而年夜概到80年月時就得出結(jié)論:神經(jīng)收集不宜跨越三層。

實際工作總與理論相矛盾?詳解機器學(xué)習(xí)教科書七大經(jīng)典問題

  那為何如今這條結(jié)論又被顛覆了呢?現(xiàn)實上這條結(jié)論是有條件前提的,即在數(shù)據(jù)量不年夜的情形下,神經(jīng)收集不宜跨越三層。而從2005年開端,年夜家發(fā)明跟著數(shù)據(jù)增長,深度神經(jīng)收集的表示優(yōu)越,所以漸漸走向深度進修。其實這里真正準確的道理是Valiant引理,它可以懂得為“模子龐雜度(例如專家體系的規(guī)矩數(shù)目)要和數(shù)據(jù)量成反比”。數(shù)據(jù)量越年夜,模子就越龐雜。上個世紀由于數(shù)據(jù)量小,所以神經(jīng)收集的層數(shù)不克不及太深,如今數(shù)據(jù)量年夜,所以神經(jīng)收集的層數(shù)就要做深。這也說明了為何其時教科書會有如許的結(jié)論,而如今跟著深度進修的風(fēng)行,年夜家曾經(jīng)不再會以為這句話是對的。

  成績二:決議計劃樹不克不及跨越五層

  假如有同窗看教科書上引見決議計劃樹,會有一個說法就是決議計劃樹要減枝,決議計劃樹假如不減枝后果欠好。還有教科書會告知決議計劃樹不克不及跨越五層,跨越五層的決議計劃樹后果欠好。這個結(jié)論和神經(jīng)收集結(jié)論一樣,神經(jīng)收集不克不及跨越三層也是由于其時數(shù)據(jù)量不年夜,決議計劃樹不克不及跨越五層也是由于上個世紀數(shù)據(jù)量不敷年夜,二叉樹決議計劃樹假如深度是N的話,龐雜度年夜概是2的N次方,所以不跨越五層龐雜度也就是三十多。假如數(shù)據(jù)量到達一百萬的時刻,決議計劃樹能到達十幾二十層的范圍,假如數(shù)據(jù)量到了一百億的時刻決議計劃樹能夠要到三十幾層。

實際工作總與理論相矛盾?詳解機器學(xué)習(xí)教科書七大經(jīng)典問題

  如今,我們強調(diào)更深的決議計劃樹,這能夠和教科書講的相抵觸。抵觸的緣由是如今全部場景下數(shù)據(jù)質(zhì)變年夜,所以要做更深的決議計劃樹。固然,我們也紛歧定在一切的場景里都有很年夜數(shù)據(jù)量,假如碰到了數(shù)據(jù)量小的場景,我們也要曉得決議計劃樹是要做淺的。最基本來講,就是看有若干數(shù)據(jù),能寫出多龐雜的模子。

  成績?nèi)禾攸c選擇不克不及跨越一千個

  有些教科書會零丁開個章節(jié)來說特點選擇,告知我們在拿到數(shù)據(jù)后,要先刪除一些不主要的特點,乃至有的教科書注明,特點數(shù)不克不及跨越一千,不然模子后果欠好。但其實這個結(jié)論也是有條件前提的,假如數(shù)據(jù)量少,是不克不及夠充足支持許多特點,但假如數(shù)據(jù)量年夜,結(jié)論就會紛歧樣。這也就是為何我們做LogisticRegression會有幾十億個特點,而不是限制在幾百個特點。

實際工作總與理論相矛盾?詳解機器學(xué)習(xí)教科書七大經(jīng)典問題

  曩昔傳統(tǒng)數(shù)據(jù)剖析軟件,如SAS,之所以只要幾百個特點,是由于它出生于上世紀七十年月,它面對的成績是在詳細場景下沒有太多可用數(shù)據(jù),能夠只要幾百上千個樣本。是以,在設(shè)計體系時,就只須要針對幾百個特點設(shè)計,不須要幾十億個特點,由于上千個樣本沒法支持幾十億特點。但如今,跟著數(shù)據(jù)量增長,特點量也須要增長。所以我以為,在年夜數(shù)據(jù)情況下,全部機械進修教科書里關(guān)于特點選擇的章節(jié)曾經(jīng)落伍于時期,須要依據(jù)新的情勢從新撰寫;固然在小數(shù)據(jù)場景下,它依然具有價值。

  成績四:集成進修取得最勤學(xué)習(xí)后果

  第四個叫做集成進修,這個技巧在各類數(shù)據(jù)發(fā)掘競賽中特殊有效,好比近年KDD CUP的冠軍簡直都是采取集成進修。甚么是集成進修?它不是做一個模子,而是做許多(例如一千個)紛歧樣的模子,讓每一個模子投票,投票的成果就是終究的成果。假如不斟酌資本限制情形,這類形式是后果最好的。這也是為何KDDCUP選手們都選擇集成進修的方法,為了尋求最初后果,不在意投入若干,在這類前提下,集成進修就是最好的方法。

實際工作總與理論相矛盾?詳解機器學(xué)習(xí)教科書七大經(jīng)典問題

  但在實際中,企業(yè)做機械進修尋求的不是用無窮的資本做盡量好的后果,而是若何充足應(yīng)用無限資本,取得最好后果。假定企業(yè)只要兩臺機械,若何用這兩臺機械取得最好的后果呢?假如采取集成進修,用兩臺機械跑五個模子,就要把兩臺機械分紅五份,每一個模子只能用0.4臺機械去跑,是以跑的數(shù)據(jù)量就無限。那假如換種方法,不消集成進修,就用一個模子去跑,就可以跑5倍的數(shù)據(jù)。平日5倍的數(shù)據(jù)量能比集成進修有更好的后果。在工業(yè)界比擬少會運用集成進修,重要是由于工業(yè)界絕年夜多半的場景都是資本受限,資本受限時最好的方法是想方法放出來更多的數(shù)據(jù)。集成進修由于跑更多的模子招致只能放更少的數(shù)據(jù),平日這類后果都邑變差。

  成績五:正樣本和負樣本平衡采樣到1:1

  第五個叫做平衡采樣,絕年夜多半的教科書都邑講到。它是指假如我們練習(xí)一個模子,正樣本和負樣本很不屈均,好比在正樣本和負樣本1:100的情形下,就須要對正、負樣本做平衡采樣,把它釀成1:1的比例,如許才是最好的。但其實這個結(jié)論紛歧定對,由于統(tǒng)計進修里最基本的一條道理就是練習(xí)場景和測試場景的散布要一樣,所以這個結(jié)論只在一個場景下成立,那就是應(yīng)用模子的場景中正、負樣本是1:1,那這個結(jié)論就是對的。

實際工作總與理論相矛盾?詳解機器學(xué)習(xí)教科書七大經(jīng)典問題

  準確的做法是,運用場景是1:100,那練習(xí)聚集最好也是1:100。平衡采樣紛歧建都是對的,多半情形下不采樣反而才是準確的。由于年夜多時刻,我們直接把練習(xí)聚集和測試聚集做隨機拆分,或許依照時光拆分,兩者的散布就是分歧的,誰人時刻不采樣是最好的。固然有時刻,我們也會發(fā)明做負樣本采樣會有更好的后果,好比范式在為某股分制銀行卡中間做生意業(yè)務(wù)反訛詐時,就做了負樣本采樣,那是由于當(dāng)我們把一切樣本都放出來后,發(fā)明盤算資本不敷,所以只能做采樣。正樣本與負樣本年夜概是1:1000或許1:10000,假如對正樣本做采樣,喪失信息量會比擬年夜,所以我們選擇對負樣本采樣,好比做1:1000的采樣,再把負樣本以1000的加權(quán)加歸去。在資本受限時這么做,會盡量下降信息量的喪失。但假如僅僅是為了把它做平衡而做負樣本采樣,平日是紕謬的。和后面幾個成績分歧,負樣本采樣其實不是因情況轉(zhuǎn)變而結(jié)論變更,現(xiàn)實上就不該該做負樣本采樣。

  成績六:穿插驗證是最好的測試辦法

  下一個成績叫做穿插驗證,是指假定要將一份數(shù)據(jù)拆分紅練習(xí)集和測試集,這個時刻怎樣評價出它的誤差?穿插驗證是把聚集拆成五份,取四份做練習(xí)集、一份做測試集,而且每次選擇分歧的那一份做測試級,最初測出五個成果再做均勻,這被以為是最好的測試辦法。

實際工作總與理論相矛盾?詳解機器學(xué)習(xí)教科書七大經(jīng)典問題

  穿插驗證確切是一個還不錯的驗證的辦法,但在實際運用場景下,它常常不是最適合的一種方法。由于平日來講,我們用機械進修做的工作是猜測,絕年夜多半情形下我們是用如今或許曩昔的數(shù)據(jù)做一個模子來猜測將來。而拿曩昔的練習(xí)猜測將來的最好測試辦法不是穿插驗證,由于穿插驗證是依照生意業(yè)務(wù)或許按人拆分的。最適合的是辦法實際上是依照時光拆分,好比評價的時刻拔取一個時光點,用在這個時光點之前的數(shù)據(jù)做練習(xí),猜測在這個時光點以后的,這是最接近真實運用場景的評價成果。

  穿插驗證能夠只實用于和時光屬性不相干的場景,好比人臉辨認,但我們面對更多的運用場景,不管是風(fēng)險、營銷或許反訛詐,都是在用曩昔的數(shù)據(jù)練習(xí)后猜測將來,最適合如許場景的評價辦法不是穿插驗證,而是依照時光去拆分。

  成績七:過擬合必定欠好

  最初一個叫過擬合,這也是一個評論辯論特殊多的話題。之前,平日我們會說假如模子做的太龐雜了就會過擬合,如PPT左邊所示,而最好的方法應(yīng)當(dāng)是圖中中央的狀況——擬合的方才好,圖中右邊的模子underfitting,沒有練習(xí)完整。但如今來看,年夜多半的現(xiàn)實場景都是在拿曩昔猜測將來,過擬合紛歧定是欠好的,照樣要看詳細場景。假如這個場景是曩昔見過的情形比擬多,新的情形比擬少的時刻,過擬合反卻是好的。

實際工作總與理論相矛盾?詳解機器學(xué)習(xí)教科書七大經(jīng)典問題

  打個比喻,假如期末測驗題就是日常平凡的功課,那我們把日常平凡的功課都背一遍就是最好的方法,而這就是過擬合。假如期末測驗不考日常平凡功課,滿是新題,那末這個時刻就不克不及只背日常平凡的功課,還要充足懂得這門課的常識,控制若何推懂得題的技能。所以過擬合利害與否,完整取決于場景。假如運用場景依附逝世記硬背就可以弄定,那過擬合反卻是好的。現(xiàn)實上在我們的設(shè)計外面,許多時刻我們會偏向于往過擬合靠一點,能夠做新題會差一點,然則關(guān)于逝世記硬背的送分題會做的異常好。在拿曩昔猜測將來的運用場景下,有的時刻過擬合紛歧定欠好,要依據(jù)現(xiàn)實情形來看。

  明天與年夜家分享了教科書中的幾個經(jīng)典成績。其其實現(xiàn)實工業(yè)運用中,我們不會完整依照教科書中的方法去理論。我們也會設(shè)計很深的模子、很深的決議計劃樹、許多的特點、會過擬合一點,我們更強調(diào)按時光拆分,不強調(diào)平衡采樣。面臨教科書中的結(jié)論,我們須要學(xué)會的是依據(jù)現(xiàn)實場景做出響應(yīng)靈巧斷定。

只要你關(guān)注機器人,你就無法錯過睿慕課

 
 
 
[ 行業(yè)資訊搜索 ]  [ 加入收藏 ]  [ 告訴好友 ]  [ 打印本文 ]  [ 關(guān)閉窗口 ]
 
 
 
主站蜘蛛池模板: 国产精品自产拍在线观看 | 色婷婷国产精品综合在线观看 | 久国产精品视频 | www中文字幕 | 精品国产黄a∨片高清在线 黄色大片aaaa | 99国产精品99久久久久久 | 亚洲高清在线视频 | 黄在线免费 | 日韩电影免费在线观看 | 黄视频在线观看免费 | 91大片在线观看 | 天堂中文在线8 | 成人在线网站 | 欧美日韩国产精品一区二区 | 污视频在线观看免费 | 日韩在线观看视频一区二区三区 | 久久国产精品偷 | 久久伊人久久 | 色综合一区二区三区 | 高清一区二区 | 蜜桃av网址| 日韩欧美在线观看 | 国产精品久久久久aaaa | 色综合888| 亚洲毛片在线 | 国产午夜一区二区三区 | 精品视频免费在线 | 成年人黄色免费视频 | 69免费网站| av色伊人久久综合一区二区 | 亚洲精品一区二三区不卡 | 精品国产乱码久久久久久图片 | 久久综合伊人 | 九九精品视频观看 | 欧美日韩亚洲国产 | 国产欧美日韩综合精品一区二区 | 台湾黄网 | 亚洲欧美第一页 | 久久精品视频一区 | 国产精品久久精品 | 国产精品九九九 |