ChatGPT數據增強方法
NLP數據增強是指使用各種技術和方法來擴大訓練數據集,從(cong) 而提高自然語言處理(NLP)模型的性能和魯棒性。
NLP數據增強可以通過多種方式實現,這些技術可以單獨或組合使用,下麵展示部分常見的方法:
- 同義詞替換:將原始文本中的某些單詞替換為其同義詞,例如將“好”替換為“優秀”。
- 隨機插入:在文本中隨機插入一些單詞或短語,例如在句子中插入“有時候”或“通常情況下”。
- 隨機刪除:從文本中隨機刪除一些單詞或短語,例如刪除一些限定詞或形容詞。
- 隨機交換:交換句子中相鄰的兩個單詞或短語,例如將“我很喜歡吃巧克力”變成“我巧克力很喜歡吃”。
- 文本合成:使用不同的句子或段落來生成新的文本,例如將兩個句子合並成一個,或將多個段落合並成一個。
- 增加噪音:向文本中添加噪音,例如添加拚寫錯誤或詞匯錯誤。
在ChatGPT中隻需要的輸入下麵的Prompt就可以完成相似的功能:
- 對句子中單詞進行隨機同義詞替換;
- 對句子中單詞進行隨機反義詞替換;
- 對句子中單詞進行隨機同音詞替換;
- 對句子中單詞進行隨機錯別字替換;
- 對句子中單詞進行隨機位置交換;
- 生成和下麵句子含義相似的句子;
- 對句子先翻譯為英文,然後返回為德語,然後翻譯為中文;
使用時Prpmpt需要注意:
- 需要變換的方法
- 變換為維度(字還是單詞)
- 變換的次數(產生句子的個數)
ChatGPT數據增強案例
文本生成
輸入ChatGPT內(nei) 容:
對每個(ge) 句子進行改寫(xie) ,輸出2份和他含義(yi) 相近的。
1. 還有雙鴨山到淮陰的汽車票嗎13號的
2. 隨便播放一首專(zhuan) 輯閣樓裏的佛裏的歌
3. 我想看挑戰兩(liang) 把s686打突變團競的遊戲視頻
ChatGPT輸出結果:
1.請問13號是否還有從(cong) 雙鴨山到淮陰的汽車票?有沒有13號從(cong) 雙鴨山到淮陰的汽車票?
2.
隨便放一首閣樓裏的佛裏專(zhuan) 輯裏的歌曲。
播放閣樓裏的佛裏專(zhuan) 輯中的一首歌曲。
3.
幫我找一下S686在團隊競技中挑戰的遊戲視頻。
我想觀看S686在團隊競技中挑戰的遊戲視頻。
回譯
輸入ChatGPT內(nei) 容:
對下麵的每個(ge) 句子進行翻譯為(wei) 英文,然後翻譯為(wei) 德語,然後翻譯為(wei) 中文。
1. 還有雙鴨山到淮陰的汽車票嗎13號的
2. 隨便播放一首專(zhuan) 輯閣樓裏的佛裏的歌
3. 我想看挑戰兩(liang) 把s686打突變團競的遊戲視頻
ChatGPT輸出結果:
英文:Is there still a bus ticket from Shuangyashan to Huaiyin on the 13th?德語:Ist noch ein Busticket von Shuangyashan nach Huaiyin am 13. verfügbar?中文:還有從(cong) 雙鴨山到淮陰的巴士票嗎,日期是13號的?
英文:Play a random song by Buddha in the album Attic.
德語:Spiel ein zufälliges Lied von Buddha im Album Attic ab.
中文:隨機播放《閣樓》專(zhuan) 輯裏的佛裏的歌曲。
英文:I want to watch a game video of playing two s686s in Mutation Team Battle.
德語:Ich möchte ein Spielvideo sehen, in dem zwei s686 in Mutation Team Battle gespielt werden.
中文:我想觀看在《絕地求生》突變團隊競技模式中使用兩(liang) 把S686進行挑戰的遊戲視頻。
同義詞替換
輸入ChatGPT內(nei) 容:
對下麵的每個(ge) 句子中的單詞進行同義(yi) 詞替換,分別替換生成3個(ge) 句子。
1. 還有雙鴨山到淮陰的汽車票嗎13號的
2. 隨便播放一首專(zhuan) 輯閣樓裏的佛裏的歌
3. 我想看挑戰兩(liang) 把s686打突變團競的遊戲視頻
ChatGPT輸出結果:
1.還有雙鴨山到淮陰的巴士票嗎13號的還有雙鴨山到淮陰的交通票嗎13號的
2.
隨便播放一首專(zhuan) 輯閣樓裏的佛裏的音樂(le)
隨便播放一首專(zhuan) 輯閣樓裏的佛裏的曲子
3.
我想看挑戰兩(liang) 把s686打突變團競的遊戲影片
我想看挑戰兩(liang) 把s686打突變團競的遊戲錄像
隨機刪除
輸入ChatGPT內(nei) 容:
對下麵的每個(ge) 句子中的單詞進行隨機刪除,分別生成2個(ge) 句子。
1. 還有雙鴨山到淮陰的汽車票嗎13號的
2. 隨便播放一首專(zhuan) 輯閣樓裏的佛裏的歌
3. 我想看挑戰兩(liang) 把s686打突變團競的遊戲視頻
ChatGPT輸出結果:
1. 還有淮陰的汽車票嗎13號的 還有到淮陰的汽車票嗎13號的
2.
隨便播放一首專(zhuan) 輯佛裏的歌
隨便播放閣樓裏的佛裏的歌
3.
我想看兩(liang) 把s686打突變競的遊戲視頻
我想看挑戰s686打團競的遊戲視頻
隨機插入
輸入ChatGPT內(nei) 容:
對下麵的每個(ge) 句子中的隨機添加一些單詞,分別生成2個(ge) 句子。
1. 還有雙鴨山到淮陰的汽車票嗎13號的
2. 隨便播放一首專(zhuan) 輯閣樓裏的佛裏的歌
3. 我想看挑戰兩(liang) 把s686打突變團競的遊戲視頻
ChatGPT輸出結果:
1. 還有雙鴨山到淮陰的綠色的便宜的汽車票嗎13號的嗎? 還有雙鴨山到淮陰的汽車站的窗口買(mai) 13號的票可以嗎?
2.
隨便播放一首專(zhuan) 輯閣樓裏的佛裏的經典老歌吧。
可以在閣樓裏專(zhuan) 輯裏隨意挑選一首佛裏的歌曲播放。
3.
我想看挑戰兩(liang) 把s686打突變團競的遊戲視頻,請給我找一些最好的。
你能給我推薦一些s686在突變團競中的挑戰視頻嗎?
隨機交換
輸入ChatGPT內(nei) 容:
對下麵的每個(ge) 句子中的單詞進行隨機交換,分別生成2個(ge) 句子。
1. 還有雙鴨山到淮陰的汽車票嗎13號的
2. 隨便播放一首專(zhuan) 輯閣樓裏的佛裏的歌
3. 我想看挑戰兩(liang) 把s686打突變團競的遊戲視頻
ChatGPT輸出結果:
1. 汽車票的雙鴨山還有到淮陰13號嗎? 淮陰到雙鴨山還有13號的汽車票嗎?
2.
隨便裏播放閣一首專(zhuan) 輯佛樓的歌
一首隨便播放閣樓裏的佛專(zhuan) 輯的歌
3.
兩(liang) 把s686打挑戰想我看突變團競的遊戲視頻
突變團競的遊戲視頻我想看挑戰兩(liang) 把s686打
錯別字替換
輸入ChatGPT內(nei) 容:
對下麵的每個(ge) 句子中的字進行替換為(wei) 錯別字,分別生成2個(ge) 句子。
1. 還有雙鴨山到淮陰的汽車票嗎13號的
2. 隨便播放一首專(zhuan) 輯閣樓裏的佛裏的歌
3. 我想看挑戰兩(liang) 把s686打突變團競的遊戲視頻
ChatGPT輸出結果:
1. 還有雙鴨衫到淮陰的汽車票嗎13號的 還有雙鴨山到淮陰的汽車飄嗎13號的
2.
隨便剖開一首專(zhuan) 輯閣樓裏的佛裏的歌
隨便波動一首專(zhuan) 輯閣樓裏的佛裏的歌
3.
我想看挑戰兩(liang) 把s686打突遍團競的遊戲視頻
我想看挑戰兩(liang) 把s686打突變團警的遊戲視頻
同音詞替換
輸入ChatGPT內(nei) 容:
對下麵的每個(ge) 句子中單詞隨機替換為(wei) 同音詞,分別生成2個(ge) 句子。
1. 還有雙鴨山到淮陰的汽車票嗎13號的
2. 隨便播放一首專(zhuan) 輯閣樓裏的佛裏的歌
3. 我想看挑戰兩(liang) 把s686打突變團競的遊戲視頻
ChatGPT輸出結果:
1. 還有數鴨山道淮陰的汽車票嗎13號的 還有雙雅閃達淮音的汽車票嗎13號的
2.
隨便播放一首專(zhuan) 輯閣樓裏的佛裏的歌
隨便播放一首專(zhuan) 輯隔樓裏的佛理的狗
3.
我想看挑戰兩(liang) 把S686打突變團競的遊戲視頻
我想看挑戰兩(liang) 把S686打圖變團精的遊戲視頻
反義詞替換
輸入ChatGPT內(nei) 容:
對下麵的每個(ge) 句子中單詞隨機替換為(wei) 反義(yi) 詞,分別生成2個(ge) 句子。
1. 還有雙鴨山到淮陰的汽車票嗎13號的
2. 隨便播放一首專(zhuan) 輯閣樓裏的佛裏的歌
3. 我想看挑戰兩(liang) 把s686打突變團競的遊戲視頻
ChatGPT輸出結果:
1. 還有深圳到上海的航班票嗎3號的 沒有長春到南京的高鐵票嗎12號的
2.
隨便靜音一張單曲酒館內(nei) 的死寂的詩
隨便跳舞一首專(zhuan) 輯森林裏的飛蛾撲火的歌
3.
我想玩堅持一把p92打突變模式的遊戲視頻
我不想看放棄兩(liang) 把akm打團隊模式的遊戲視頻
使用注意事項
通過多次實驗我們(men) 發現,ChatGPT並不擅長進行複雜或者組合的數據增強,否則生成的效果比較差。
對於(yu) 每種增強方法,ChatGPT輸出的速度也存在明顯差異。比如插入同義(yi) 詞或反義(yi) 詞比較慢,但隨機單詞替換比較快。
ChatGPT本質還是GPT網絡,擅長生成文本。因此使用ChatGPT生成相似的句子,可以為(wei) 分類模型增加精度。
https://arxiv.org/pdf/2302.13007.pdf
評論已經被關(guan) 閉。