如今,很多打著AI名號售出的產(chǎn)品都屬于萬金油系列,沒什么實(shí)質(zhì)性的功能。為什么會這樣?我們應(yīng)該如何識別這類AI?
幻燈片上是評估性格和工作合適性的30秒視頻
數(shù)以百萬計的求職者已經(jīng)接受了這類算法的評估。上圖是來自某家公司的促銷視頻截圖。這些系統(tǒng)聲稱甚至不用理會應(yīng)聘者說的內(nèi)容,根據(jù)肢體語言和語音就可以分析一個應(yīng)聘者。
基本常識會告訴我們這不可能,但是AI專家會說這是可能的。而實(shí)際上這個產(chǎn)品只是一個精心制作的隨機(jī)數(shù)生成器。
這些公司籌集了數(shù)億美元,并且積極的占領(lǐng)客戶。偽造AI來篩選求職者的現(xiàn)象變得越來越嚴(yán)重。這張PPT顯示了該問題有多嚴(yán)重,其中的表格來自
人們正在學(xué)習(xí)如何利用這些虛假系統(tǒng)來工作,并在社交媒體上分享一些恐怖的故事 這為什么會發(fā)生?為什么人事部門如此容易受欺騙?除了雇傭,其它哪些領(lǐng)域還有打著AI旗號的萬金油工具? 以上是作者的關(guān)于為什么有如此多的AI萬金油工具,以及為什么決策者會被它們欺騙的假設(shè)。 例如,AlphaGo是一項(xiàng)非凡的成就,并且值得稱贊。大多數(shù)專家都沒想到這種可能。 但是,它與聲稱可以預(yù)測工作績效的工具之間,卻大相徑庭。 媒體大肆宣傳公司可以將AI作為解決所有問題的解決方案。因此,美國公眾認(rèn)為,所有工種的自動化僅10年之遙! 如果決策者認(rèn)為這種根本性變革即將到來,請想象一下它將如何扭曲我們正在進(jìn)行的優(yōu)先事項(xiàng)。我相信在如今社會這實(shí)際上是正在發(fā)生的。 請注意,AI專家對人工智能或強(qiáng)AI的預(yù)測距離尚有50多年之久,但是歷史告訴我們,即使是專家,也往往對AI的發(fā)展太樂觀了。 讓我們更具體一點(diǎn)。我將把AI應(yīng)用程序分為三類(并非詳盡無遺)。 這張幻燈片上的所有內(nèi)容都是一個識別問題(Deepfakes并不是純粹的識別而是緊密相關(guān)的。它們是使用生成對抗網(wǎng)絡(luò)來實(shí)現(xiàn)的)。識別是人工智能快速發(fā)展的幾個領(lǐng)域之一。 在這張幻燈片上的所有任務(wù)中,AI都已經(jīng)達(dá)到或超過了人類的準(zhǔn)確性,并且正在不斷迅速提高。 取得進(jìn)展的根本原因是,這些任務(wù)沒有不確定性或模棱兩可。給定兩張圖像,關(guān)于它們是否代表同一個人是有一個基本事實(shí)。因此,如果有足夠的數(shù)據(jù)和計算能力,人工智能能夠?qū)W到將一張臉與另一張臉區(qū)分開的模式。人臉識別存在一些明顯的失敗,但是我很高興地預(yù)測它將能變得更加準(zhǔn)確(不過這也正是我們應(yīng)該擔(dān)心的原因)。 第二類是關(guān)于嘗試自主判別的應(yīng)用程序。人的思維是具有啟發(fā)性的,例如什么是垃圾郵件,而不是垃圾郵件,并且給出足夠的例子。機(jī)器會嘗試去學(xué)習(xí)它。 在這些任務(wù)上,人工智能將永遠(yuǎn)是不完美的,因?yàn)樗鼈兩婕芭袆e力,并且理性的人可能會不同意正確的決定。 我們似乎已經(jīng)準(zhǔn)備部署這些系統(tǒng),并且必須決定如何最好地管理它們,例如為被錯刪內(nèi)容的人們找出適當(dāng)?shù)某绦驒C(jī)制。 我將把剩下的話題集中在第三類,那里有大量的萬金油。 上面已經(jīng)展示了聲稱可以預(yù)測工作適合程度的工具。類似的,基于慣犯的算法來預(yù)測保釋金的多少。人們使用算法去分析社交媒體帖子并預(yù)測恐怖分子的危險程度,因而被拒之門外。 這些問題很難解決,因?yàn)槲覀儫o法預(yù)測未來。而這些應(yīng)該是常識。但在涉及AI時,我們似乎已經(jīng)決定忘記常識。 當(dāng)然,這甚至與AI所面向的事物(如機(jī)器人技術(shù))都不相近。但,要點(diǎn)是說明對于不同類型的任務(wù),數(shù)據(jù)的數(shù)量和質(zhì)量對精度的限制上是如何不同的。 接下來將展示,無論你投入多少數(shù)據(jù),第三類應(yīng)用不會有真正的改善。 我知道這是一次衡量社會結(jié)果可預(yù)測性,非常嚴(yán)格的嘗試。 他們根據(jù)深入訪談和多年來多次重復(fù)進(jìn)行的家庭觀察收集了有關(guān)每個孩子和家庭的大量數(shù)據(jù)。 他們使用了與許多其他機(jī)器學(xué)習(xí)競賽相似的挑戰(zhàn)環(huán)境。 任務(wù)是根據(jù)訓(xùn)練實(shí)例學(xué)習(xí)背景數(shù)據(jù)和結(jié)果數(shù)據(jù)之間的關(guān)系。比賽期間在排行榜上評估準(zhǔn)確性,比賽結(jié)束后根據(jù)保留的數(shù)據(jù)評估準(zhǔn)確性。 完美預(yù)測對應(yīng)于R^2為1。預(yù)測每個實(shí)例的均值對應(yīng)于R^2為0(即,該模型完全沒有學(xué)會區(qū)分實(shí)例)。 大多數(shù)人的直覺似乎都認(rèn)為R^2的值在0.5到0.8之間。并且組織競賽的許多專家都寄予厚望。 這是實(shí)際發(fā)生的情況。 記?。簲?shù)百名AI / ML研究人員和學(xué)生嘗試過這樣做,他們需要最大限度地提高預(yù)測準(zhǔn)確性,每個家庭都有13,000個特征。圖上的是表現(xiàn)最好的模型。 這就是問題所在。 回歸分析已有一百年歷史了。 在許多領(lǐng)域都有相同的發(fā)現(xiàn)。 請注意,上圖所示是準(zhǔn)確度,而不是R^2,因此65%僅比隨機(jī)數(shù)略好。 實(shí)際準(zhǔn)確性可能更低,這是因?yàn)殡m然該工具聲稱可以預(yù)測累犯,但實(shí)際上是能預(yù)測重新逮捕,因?yàn)檫@就是數(shù)據(jù)中記錄的內(nèi)容。因此,至少算法的某些預(yù)測性能來自預(yù)測策略的偏差。 這是個人的意見。當(dāng)然,如果發(fā)現(xiàn)相反的證據(jù),我愿意改變主意。但是,鑒于目前的證據(jù),這似乎是最謹(jǐn)慎的看法。 駕照的欠費(fèi)可以被視為預(yù)測事故風(fēng)險的一種方式。一些研究發(fā)現(xiàn)此類系統(tǒng)可以進(jìn)行合理的使用。 很長時間以來,我們就知道,如果我們真正想做的只是預(yù)測,那么簡單的公式比人類的預(yù)測更準(zhǔn)確, 甚至是經(jīng)過多年訓(xùn)練的專家。丹尼爾·卡尼曼(Daniel Kahneman)解釋說,這是因?yàn)槿祟惖念A(yù)測往往“太多雜念”:如果輸入相同,則不同的人(甚至在同一時間的同一個人)將做出非常不同的預(yù)測。而使用統(tǒng)計公式則可以消除這種不同。 與人工評分規(guī)則相比,使用AI進(jìn)行預(yù)測有許多缺點(diǎn)。也許最重要的是缺乏可解釋性。想象一下這樣一個系統(tǒng),在該系統(tǒng)中,每次您被警務(wù)人員攔下時,警務(wù)人員都會將您的數(shù)據(jù)輸入計算機(jī),這并不像駕照上的積分。大多數(shù)情況下,您可以免費(fèi)離開,但是在某些時候,黑匣子系統(tǒng)會告訴您不再允許被開車。 不幸的是,實(shí)際上如今我們在許多領(lǐng)域都擁有這種系統(tǒng)。 (轉(zhuǎn)載)