比賽名稱:CAFA 5 Protein Function Prediction
根據蛋白質的氨基酸序列和其他數據進行訓練,預測蛋白質的生物學功能。
比賽鏈接:https://www.kaggle.com/competitions/cafa-5-protein-function-prediction
比賽類型:生物科學、氨基酸序列
比賽背景
蛋白質負責我們(men) 組織、器官和身體(ti) 的許多活動,它們(men) 還在細胞的結構和功能中發揮核心作用。蛋白質是由 20 種被稱為(wei) 氨基酸的結構單元組成的大分子。
人體(ti) 製造數萬(wan) 種不同的蛋白質,每一種蛋白質都是由幾十或幾百個(ge) 氨基酸依次連接而成。這種氨基酸序列決(jue) 定了蛋白質的三維結構和構象動力學,進而決(jue) 定了其生物學功能。
由於(yu) 正在進行的基因組測序項目,我們(men) 被來自數千種物種的大量基因組序列數據淹沒,這些數據告訴我們(men) 這些基因編碼的蛋白質的氨基酸序列數據。將生物學功能準確分配給蛋白質是在分子水平上理解生命的關(guan) 鍵。
比賽任務
這是一個(ge) 視角的數據競賽。測試數據中的許多蛋白質目前沒有明確任何指定的功能。研究人員在比賽進行期間將發布一些蛋白質將構成未來的測試集,最終排行榜分數將在比賽的策劃階段後計算。
評價指標
組織者提供了一組蛋白質序列,參與(yu) 者被要求預測三個(ge) 子本體(ti) 中的基因本體(ti) 論 (GO) 術語:分子功能 (MF)、生物過程 (BP) 和細胞成分 (CC)。
https://www.kaggle.com/competitions/cafa-5-protein-function-prediction/overview/evaluation
數據描述
基因本體(ti) 論(GO) 是一個(ge) 概念層次結構,它描述了不同抽象級別的基因和基因產(chan) 物的生物學功能。它是描述蛋白質功能的多麵性的一個(ge) 很好的模型。
對於(yu) 訓練集,我們(men) 包括所有帶有注釋術語的蛋白質,這些術語已通過實驗或高通量證據。測試集在比賽開始時是未知的。它將包含來自測試超集的蛋白質序列(及其功能),這些超集在提交截止日期和評估時間之間獲得了實驗注釋。
- train_sequences.fasta - 訓練集中蛋白質的氨基酸序列
- train_terms.tsv - 蛋白質訓練集和相應的帶注釋的 GO 術語
- train_taxonomy.tsv - 訓練集中蛋白質的分類 ID
- go-basic.obo - 本體圖結構
- testsuperset.fasta - 應該進行預測的蛋白質的氨基酸序列
- testsuperset-taxon-list.tsv - 測試超集中蛋白質的分類 ID
- IA.txt - 每個術語的信息積累。這用於衡量精度和召回率(參見評估)
- sample_submission.csv - 格式正確的樣本提交文件
比賽賽程
- 2023 年 8 月 14 日 - 報名截止日期。
- 2023 年 8 月 14 日 - 團隊合並截止日期
- 2023 年 8 月 21 日 - 提交截止日期。
賽題獎金
- 第一名 - 15,000 美元
- 第二名 - 10,000 美元
- 第三名 - 8,000 美元
- 第四名 - 7,000 美元
- 第五名 - 5,000 美元
- 第六名 - 5,000 美元
解題思路
賽題數據是以序列的方式進行組織,其中蛋白質包含了多個(ge) 氨基酸序列。因此在建模時,可以考慮使用序列模型。
可以參考已有的蛋白質預測比賽,也可以參考已有的序列分類模型,但應該有Transformer類似結構。
https://www.kaggle.com/code/danofer/cafa-protein-implicit-tfrs-recommender-baseline
評論已經被關(guan) 閉。