後麵做為(wei) 例子的是ChatGPT 備考GRE 的過程,但可以延伸到所有考試的備考,因為(wei) 測試和出題的方式都是類似的。
從(cong) ChatGPT 出來以後Google 的緊張度可以看出目前最直接的ChatGPT的應用還是在搜索相關(guan) 領域,而目前版本的ChatGPT和Google之前的區別主要也是呈現形式上的不同,調用的數據上Google 的範圍可能還更廣些。比如我們(men) 要找GRE 備考適合的單詞表,如果輸入中文的情況下,Google 是會(hui) 調用中文互聯網的數據的,而ChatGPT 隻是把自己英文的結果翻譯為(wei) 了英文
對應ChatGPT 英文的回答
所以中文的版本基本就是把英文的翻譯了一下,隻是不知道為(wei) 什麽(me) 在中文版本裏麵去掉了第5個(ge) 選項。【實際備考的時候建議用基於(yu) 考試題目的詞表就好,不建議用這些機構詞表,這個(ge) 立場適用於(yu) 所有考試】
所以對於(yu) 找資料這方麵,特別是涉及中文互聯網方麵的資料,ChatGPT 目前版本的還不能很理想。
那關(guan) 於(yu) 做題呢?
GRE 一共有涉及寫(xie) 作、語文(包括閱讀理解和填空)和寫(xie) 作(包括Issue 和 Argument)。之前分享過一個(ge) ChatGPT 答題寫(xie) 作部分的推送。實現效果還是很好的。
下麵看下其他幾個(ge) 部分的情況
填空部分
2022年底的時候嚐試過一次用ChatGPT 來做GRE 的填空題,之後ChatGPT 有小的更新下,這次測試用的是2023.2.13 的更新版本 (ChatGPT Feb 13 Version.)。和去年底的相比,做題的正確率是一樣的,隻是多了答案的解析(隻是一個(ge) 錯誤答案的解釋,你說的這麽(me) 錚錚有詞也是很難為(wei) )。
具體(ti) 題型來看,單空的題目正確率目前看是幾個(ge) 題型裏麵最高的,但也會(hui) 有錯。
比如下麵這個(ge) 題目
實際答案應該是zealous,題目想說的是那些最在乎 genetic privacy 的人也要承認給予genetic 的歧視是比較少的。這個(ge) 題目關(guan) 鍵就是要明白genetic privacy 和 genetic discrimination 之間的關(guan) 係。這兩(liang) 個(ge) 之間的關(guan) 係舉(ju) 一個(ge) 現實生活裏的例子就可以明白,比如我們(men) 申請的時候有時候不想明確自己的族裔,或者性別(包括自己這方麵的privacy),就是不希望學校錄取時候有基於(yu) 這些信息的歧視。所以要privacy,是希望減少discrimination,因此題目要選的應該是zealous。
而ChatGPT 這題沒做對主要是語言能力還沒那麽(me) 強(就像大多數的學校寫(xie) 作任務,ChatGPT也差不多是B+ 的能力,還實現不了A+)。我們(men) 也可以用這個(ge) 題目來觀察下未來ChatGPT 的進步曲線。
兩(liang) 空和三空分部分本身對於(yu) 考生閱讀能力的要求會(hui) 更高些,所以ChatGPT 在這兩(liang) 個(ge) 題型的正確率隻是偶爾能做對(事實上到目前為(wei) 止還沒遇到過ChatGPT 能做對的多空題,所以“偶爾”是一個(ge) 很保守的說法)。
下麵這個(ge) 題目是去年年底時候要ChatGPT 做的,正確答案應該是 plausible 和undermined
下麵這個(ge) 是2.13 版本的ChatGPT 的答案
和去年年底的版本相比,增加了解析的部分,隻是答案還是錯的。
做錯原因,其實和人類做錯的原因是一樣的:閱讀能力不夠。
下麵是正確答案的出題依據:如果從(cong) 機器角度來思考的話,類似這樣的多空題的出題依據其實是比較複雜的,題目考的不僅(jin) 僅(jin) 是要一個(ge) 合適語義(yi) 的單詞,隻是在給的有限的選項裏麵,選一個(ge) 最為(wei) 合適的。所以比如第二空我們(men) 的判斷的證據是需要一個(ge) 負向單詞,而選項裏麵隻有undermine 是負向的,所以選這個(ge) 詞。從(cong) 做題情況看,目前AI 在這方麵的判斷能力還不理想。
Despite the fact that the political scientist's negative forecast about the country's future is altogether (i) _______, its believability is (ii) _______ by her unrelenting pessimism.
- plausible speculative unpalatable
- disciplined distinguished undermined
閱讀部分
閱讀和填空不同的地方是,ChatGPT 是能讀到完整的文本的,所以做題效果應該會(hui) 好些。
實際是邏輯題做的不錯。
傳(chuan) 統的閱讀理解的題目做的不好。
邏輯題目的做題情況【下麵這題是做對的】
雖然這個(ge) 解析的過程,看著用處不大(隻是把題目重複了一遍),但呈現出來的做題思路是對的,邏輯題做題的第一步就是要找到 argument 裏的證據和結論,然後看到題目要的是assumption,就去找證據到結論過程中缺的信息。
隻是這個(ge) 解析對於(yu) 同樣如果是做錯題的同學來說確實是用處不大的。
閱讀理解是不同考試都有的類型,從(cong) GRE 的閱讀理解題目做題效果來看:很不理想。
連下麵的這個(ge) 主旨題也錯了。覺得ChatGPT 主旨題應該做對的原因是微軟示範它們(men) 最新的Bing(ChatGPT-4 加持)搜索的時候,一個(ge) 例子就是可以直接放個(ge) 會(hui) 議文件的PDF 進去,Bing 可以整理出來文檔的大概意思。實際上哪怕目前對外公開的ChatGPT-3 版本,在總結文章和書(shu) 籍的意思的時候,做的也是不錯的。所以這種主旨題沒能做對,隻能說對於(yu) GPT 來說,選項間的混淆度有些高。
數學部分
GPT 的數學是出了名的差,下麵是WSJ 的報道 【2023.2.10 的文章】
文章裏麵示範了一個(ge) 例子, 當時ChatGPT 做錯了
但是這個(ge) 題目我再用GPT 做了一遍,下麵這個(ge) 回答是對的,一共應該是23個(ge) 。
隻是目前這個(ge) 版本的GPT 在做GRE 數學題目的時候還是錯了。下麵這個(ge) 題目可能是有些難了,正確答案是E,GPT 給了D 的答案
Suppose a, b, c, d, e are selected randomly from the set {1, 2, 3, 4, 5} and they can repeat. Find the probability that a*b*c*d+e is odd.
- 12/25
- 27/125
- 243/3125
- 1632/3125
- 1794/3125
又讓ChatGPT 做了一個(ge) GRE數學的幾何題
這題也是做錯了。正確答案應該是一個(ge) point: 就是通過P,Q,R三點的圓的圓心。
總結一下
目前版本的GPT對於(yu) 標準化考試的幫助更多還是在寫(xie) 作方麵的,當然這也符合群眾(zhong) 經驗,畢竟更多看到的作弊的情況都是用GPT來寫(xie) 作文或者文書(shu) 。
評論已經被關(guan) 閉。