作者:劉以棟
最近,人工智能的聊天平台,ChatGPT 很火。有人預測,ChatGPT 對未來人類的影響,將類似於(yu) 電的使用對人類的影響。我認為(wei) 這種觀點有點言過其實。與(yu) 此同時,ChatGPT對未來人工智能領域的影響不容低估。
我自己不做ChatGPT的 研究和開放,也沒有去測試 ChatGPT的各種功能,但是我現在每天都在開發人工智能模型,了解人工智能的基本功能。這裏我編譯一篇關(guan) 於(yu) ChatGPT的相關(guan) 文章,供大家參考和指正。ChatGPT 是開放人工智能(OpenAI)公司的產(chan) 品。微軟公司對開放人工智能公司投資超過100億(yi) 美元。ChatGPT 的名字包括兩(liang) 部分,Chat 和 GPT。
穀歌把 ChatGPT 翻譯成聊天 GPT。前麵部分是翻譯了,後麵部分它不知道怎麽(me) 翻譯。GPT 是Generative Pre-trained Transformer 的縮寫(xie) 。字麵翻譯是生成式預先訓練過的轉換器。這樣合在一起, ChatGPT 就是一個(ge) 人工智能聊天平台。生成式預先訓練過的轉換器(Generative Pre-trained Transformer )基本描述了人工智能的基本步驟,就是用人工智能的工具訓練一個(ge) 模型,然後投入使用。
一說人工智能,就顯得高大上,其實其原理並不是那麽(me) 複雜。這裏我用簡單一個(ge) 例子解釋一下基本原理。譬如一個(ge) 人的體(ti) 重,跟身高和腰圍有關(guan) 係。個(ge) 頭高的人一般比較重,同樣,腰圍大的人一般比較胖,也容易重。如果有100 個(ge) 5年級的學生,我們(men) 把他們(men) 的身高,腰圍和體(ti) 重都量了,然後用簡單的線性回歸,就可以算出他們(men) 體(ti) 重跟身高和腰圍的關(guan) 係。現在如果有一個(ge) 新的5年級學生,你知道他的身高和腰圍,你就可以根據線性回歸的公式算出他的體(ti) 重。這裏我們(men) 看到,我們(men) 的模型,是用100 個(ge) 學生的數據 預先訓練出來的 (Pre-trained)。
當我們(men) 知道一個(ge) 新孩子的身高和腰圍以後,我們(men) 就可以根據公式算出他的體(ti) 重 (Transformer)。前麵100 個(ge) 孩子的數據是曆史數據,後麵新孩子的身高和腰圍數據是新輸入數據。這兩(liang) 者結合,可以給出我們(men) 需要的結果。當然,這個(ge) 結果肯定不夠準確。現在回到ChatGPT 的話題,它也是用曆史數據訓練出來的。它的曆史數據,就是網上相關(guan) 話題的各種公開數據,聊天記錄和有關(guan) 人士的觀點。
當我們(men) 對它提出問題時,我們(men) 提供了新的輸入數據,然後ChatGPT 根據我們(men) 的問題,給出它認為(wei) 正確的答案。再回到我們(men) 的例子。我們(men) 知道我的模型過於(yu) 簡單,結果肯定也不準。人的體(ti) 重,除了身高和腰圍以外,還受其它信息影響,譬如性別,同樣的身高和腰圍,男女體(ti) 重可能不一樣。還有種族,不同種族的人,他們(men) 的體(ti) 重和身高、腰圍的關(guan) 係也不一樣。
其它信息還有年齡,營養(yang) 情況,體(ti) 育鍛煉情況等等。更重要的是,體(ti) 重跟身高和腰圍,也不是線性關(guan) 係。再進一步,我們(men) 建立模型的時候,要把數據歸類,不是所有數據同等對待。譬如上麵的例子,我們(men) 會(hui) 根據年齡,種族,身高,腰圍等做不同的分組。基本做到每個(ge) 組的各個(ge) 個(ge) 體(ti) 的體(ti) 重基本都是一樣的,這樣我們(men) 的公式也省了,各種指標落在這個(ge) 分組內(nei) ,就是這個(ge) 體(ti) 重。這樣就有一個(ge) 矛盾的問題,如果分組太多,每個(ge) 組的人太少,應用的時候不實際,結果不穩定;如果分組太少,每個(ge) 組內(nei) 的體(ti) 重差異性就比較大。
再回到ChatGPT, 它比我上麵的例子複雜得多。我的例子是科學模型,表述很清楚,ChatGPT是文科模型,表述本身就不清楚,更不要說各種語言的表述精確度不同,同樣內(nei) 容不同的表達 ……科學模型的訓練數據一般是通過驗證的,是可靠的。而曆史、哲學等文科的觀點和結論很多時候是沒有辦法驗證的,也沒有標準正確的觀點。同時,我們(men) 知道,互聯網上的信息來源並不可靠,因此準確性是ChatGPT 和其他生成式 AI 工具的弱點。即便如此,ChatGPT 的人性化回答給用戶一種確定和自信的錯覺。
開放式人工智能公司表示,它正在通過模型更新來不斷提高 ChatGPT 的準確性,但問題依然存在。ChatGPT 的轉換器是專(zhuan) 門用於(yu) 在數據序列中尋找廣泛模式的算法。ChatGPT 的轉換器 不僅(jin) 學習(xi) 預測句子中的下一個(ge) 單詞,還學習(xi) 預測段落中的下一個(ge) 句子和文章中的下一個(ge) 段落。
這就是讓它在長篇文本中保持主題的原因。因為(wei) ChatGPT 的轉換器需要大量數據,所以它分兩(liang) 個(ge) 階段進行訓練:首先,它在通用數據上進行預訓練,這些數據更容易大量收集,然後它針對用戶的特定的輸入問題進行微調, 給出它的回答。ChatGPT 在龐大的在線文本庫上進行了預訓練,學習(xi) 語言的規則和結構;它對對話記錄進行了微調,了解對話的特征。請記住,開放人工智能公司擁有ChatGPT, 它可以看到用戶給 ChatGPT提供的問題和信息。
作為(wei) ChatGPT 改進服務的一部分,ChatGPT員工可以閱讀用戶提供給ChatGPT的信息。所以ChatGPT用戶要 避免提供私人數據或敏感的公司信息。AI 聊天機器人和其它生成性 AI 程序是它們(men) 輸入的數據的鏡像。
ChatGPT 及相關(guan) 聊天軟件反芻和重新混合它們(men) 所接受的信息,它們(men) 既產(chan) 生了驚人的效果,也產(chan) 生了巨大的失敗。基於(yu) AI 轉換器 的 AI 程序故障,特別難以預測和控製,因為(wei) 這些程序依賴於(yu) 非常大量的數據,以至於(yu) 開發人員幾乎不可能掌握這些輸入數據包含的內(nei) 容。
如果ChatGPT 攝取高質量數據資源,經常與(yu) 其人類培訓師交談並得到正確提示,那麽(me) 它可以在相關(guan) 的問題上給出正確的答案。但是,它會(hui) 在包含大量錯誤信息的互聯網話題上胡說八道,例如陰謀論,以及非英語語言,例如中文話題。我看到有人問ChatGPT , 林黛玉為(wei) 什麽(me) 嫁給西門慶,而不嫁給武鬆?結果ChatGPT就開始胡扯,因為(wei) 這樣的話題以前互聯網上就沒有,它沒有被訓練。
一些藝術家還表示,AI 圖像生成器剽竊了他們(men) 的作品並威脅到他們(men) 的生計,而軟件工程師則表示, ChatGPT代碼生成器竊取了他們(men) 的大量代碼。出於(yu) 同樣的原因,ChatGPT 和其它文本生成器可以給出種族主義(yi) 和性別歧視的回答。開放人工智能公司 表示,它期望通過跟人類聊天來不斷改進聊天機器人的輸出以減少產(chan) 生錯誤信息。
它還使用內(nei) 容審核過濾器,來限製 ChatGPT 的回答,並避免政治上有爭(zheng) 議或令人討厭的話題。怎樣開發消除人工智能聊天軟件偏見的技術,多年來一直是一個(ge) 反複出現的問題,當前仍然是一個(ge) 未解決(jue) 的問題和研究的熱點領域。聊天機器人發布後不久,開放人工智能(OpenAI) 首席執行官 山姆-奧特曼(Sam Altman) 發推文說, “ChatGPT 的功能非常有限,在某些事情上, 它足以讓人產(chan) 生它很偉(wei) 大的這種誤導性印象”。他補充說“如果現在一個(ge) 人任何重要的事情都依賴ChatGPT,那無疑是錯誤的選擇 ”。
與(yu) 每一波自動化技術浪潮一樣,最新的技術可能會(hui) 對未來的就業(ye) 和工作性質的產(chan) 生重大影響。盡管藍領工人總是首當其衝(chong) 被衝(chong) 擊,但生成式人工智能可能會(hui) 對白領職業(ye) 產(chan) 生更大的影響。 布魯金斯學會(hui) 2019 年的一項研究發現,人工智能可能會(hui) 對營銷專(zhuan) 業(ye) 人士、財務顧問和計算機程序員等方麵的工作的影響最大。
這些影響將是混合的。研究自動化的經濟學家發現,三種情況往往會(hui) 發生:一些工人提高了生產(chan) 率,一些工作被自動化取代,一些以前不存在的新工作機會(hui) 被創造出來。譬如生產(chan) 和維修自動化機器。人工智能自動化的最終結果還很難預測。在公司層麵的自動化研究中,研究人員發現,一些采用自動化的公司可能會(hui) 提高生產(chan) 率,並隨著時間的推移最終雇傭(yong) 更多的員工。
但這些工人可能會(hui) 經曆工資停滯和職業(ye) 發展機會(hui) 減少。新創建的工作機會(hui) 通常采用以下兩(liang) 種方式之一:與(yu) 自動化以前的工作相比,它們(men) 要麽(me) 需要更多技能,要麽(me) 需要更少技能。
例如,自動駕駛汽車對高技能工程師產(chan) 生了新的需求,但是對坐在駕駛座上照看車輛的低技能安全駕駛員減少了技能要求。ChatGPT 可以寫(xie) 詩、故事和歌詞。甚至有熱心的用戶要求聊天機器人通過專(zhuan) 業(ye) 考試, 或者創建跑贏市場的股票基金。但在每種情況下,細節都講述了一個(ge) 同樣重要的故事:人工智能在準確性、創造力或獨創性方麵仍然無法與(yu) 人類智能相媲美。
開放人工智能的總裁明確表示,ChatGPT沒有通用人工智能, 即AGI (artificial general intelligence)。就是說,機器不能通過自主學習(xi) 和思考來提高自己。簡單來說,如果網上的觀點比較一致,那麽(me) ChatGPT 可以給出很好的總結;如果網上的觀點充滿對立和錯誤信息,ChatGPT 則無所適從(cong) 。ChatGPT 沒有原則,不能驗證事實,不能給出獨立思考的結論。從(cong) 投資的角度,微軟和穀歌是行業(ye) 領跑者。
英偉(wei) 達(NVDA)和高級微設備公司(AMD)生產(chan) 高性能人工智能的芯片。Adobe 和 IBM 都參與(yu) 人工智能的研發。從(cong) 個(ge) 人就業(ye) 的角度,人工智能行業(ye) 值得考慮。我認為(wei) 以後很多行業(ye) 會(hui) 使用人工智能技術。我們(men) 以前的統計模型變量,一般隻有20-30 個(ge) 。現在的人工智能模型變量,一般有 200-300 個(ge) 。現在不僅(jin) 數據量變得很大,數據的種類也很多。
以前數據一般指數字和字符串,現在的數據還包括圖像,聲音,視頻等。未來幾十年,這方麵會(hui) 有更多發展機會(hui) 。高性能的芯片,使得很多人工智能的開發成為(wei) 可能。
評論已經被關(guan) 閉。