首先AI 確實學習(xi) 的很多的人類文字。
Google 當時預估人類目前出版的書(shu) 籍差不多125 million冊(ce) 書(shu) ,包括了 laws, poems, myths, essays, histories, treatises, and novels.
目前的AI 都還沒學習(xi) social media 上的文字,所以AI 學習(xi) 都還是高質量的文字,語言表達能力好於(yu) 人類普通水準也是可以理解的。
但人類的高質量文字是有限的,據估計到2027年基本上能供AI 學習(xi) 的人類文字就沒了,所以AI 到底能走到多驚豔,還是得看人類有多努力了。
而類似ChatGPT 的輸出方式,也很受限於(yu) 人類的文字使用習(xi) 慣。為(wei) 了讓自己的表達像人類,ChatGPT 的每一個(ge) 字的輸出都是一個(ge) 概率:從(cong) 學習(xi) 的文字裏裏麵去判斷同語境下,人類會(hui) 怎麽(me) 說下一個(ge) 字。
比如下麵這個(ge) 回答,ChatGPT 首先會(hui) 去找到在學習(xi) 的內(nei) 容裏關(guan) 於(yu) LeBron James 的文字內(nei) 容,然後發現在這些人類內(nei) 容裏LeBron James is an American 後麵接著用professional 這個(ge) 字的分數是50,basketball 的分數隻有1,其他的連1 都不到, 那麽(me) 輸出的時候Chat GPT 就會(hui) 選擇professional
所以ChatGPT 當然不知道自己在輸出什麽(me) ,對於(yu) ta來說,要做的就是基於(yu) 學習(xi) 的人類文字,按照概率,去模仿人類輸出。
機器可以依據人類常用的文字去設定一個(ge) 表單
在遇到類似語境的時候去調用類似的表單。
所以ChatGPT 在使用文字的時候會(hui) 有一些可捕捉的特點,這些特點是目前一些反作弊工具判斷文字是不是AI 寫(xie) 的依據。
比如Princeton 學生利用冬假出的GPTZero
techcruch 給的結果是GPTZero 在7次裏麵有5次判斷對了文字是不是AI 寫(xie) 的。
當然作弊工具的出現,自然會(hui) 有反作弊的工具,然後就是反反作弊的工具...
評論已經被關(guan) 閉。