Kaggle賽題解析:蛋白質功能預測

比賽名稱:CAFA 5 Protein Function Prediction

根據蛋白質的氨基酸序列和其他數據進行訓練,預測蛋白質的生物學功能。

比賽鏈接:https://www.kaggle.com/competitions/cafa-5-protein-function-prediction

比賽類型:生物科學、氨基酸序列

比賽背景

蛋白質負責我們(men) 組織、器官和身體(ti) 的許多活動,它們(men) 還在細胞的結構和功能中發揮核心作用。蛋白質是由 20 種被稱為(wei) 氨基酸的結構單元組成的大分子。

人體(ti) 製造數萬(wan) 種不同的蛋白質,每一種蛋白質都是由幾十或幾百個(ge) 氨基酸依次連接而成。這種氨基酸序列決(jue) 定了蛋白質的三維結構和構象動力學,進而決(jue) 定了其生物學功能。

由於(yu) 正在進行的基因組測序項目,我們(men) 被來自數千種物種的大量基因組序列數據淹沒,這些數據告訴我們(men) 這些基因編碼的蛋白質的氨基酸序列數據。將生物學功能準確分配給蛋白質是在分子水平上理解生命的關(guan) 鍵。

比賽任務

這是一個(ge) 視角的數據競賽。測試數據中的許多蛋白質目前沒有明確任何指定的功能。研究人員在比賽進行期間將發布一些蛋白質將構成未來的測試集,最終排行榜分數將在比賽的策劃階段後計算。

評價指標

組織者提供了一組蛋白質序列,參與(yu) 者被要求預測三個(ge) 子本體(ti) 中的基因本體(ti) 論 (GO) 術語:分子功能 (MF)、生物過程 (BP) 和細胞成分 (CC)。

https://www.kaggle.com/competitions/cafa-5-protein-function-prediction/overview/evaluation

數據描述

基因本體(ti) 論(GO) 是一個(ge) 概念層次結構,它描述了不同抽象級別的基因和基因產(chan) 物的生物學功能。它是描述蛋白質功能的多麵性的一個(ge) 很好的模型。

對於(yu) 訓練集,我們(men) 包括所有帶有注釋術語的蛋白質,這些術語已通過實驗或高通量證據。測試集在比賽開始時是未知的。它將包含來自測試超集的蛋白質序列(及其功能),這些超集在提交截止日期和評估時間之間獲得了實驗注釋。

  • train_sequences.fasta - 訓練集中蛋白質的氨基酸序列
  • train_terms.tsv - 蛋白質訓練集和相應的帶注釋的 GO 術語
  • train_taxonomy.tsv - 訓練集中蛋白質的分類 ID
  • go-basic.obo - 本體圖結構
  • testsuperset.fasta - 應該進行預測的蛋白質的氨基酸序列
  • testsuperset-taxon-list.tsv - 測試超集中蛋白質的分類 ID
  • IA.txt - 每個術語的信息積累。這用於衡量精度和召回率(參見評估)
  • sample_submission.csv - 格式正確的樣本提交文件

比賽賽程

  • 2023 年 8 月 14 日 - 報名截止日期。
  • 2023 年 8 月 14 日 - 團隊合並截止日期
  • 2023 年 8 月 21 日 - 提交截止日期。

賽題獎金

  • 第一名 - 15,000 美元
  • 第二名 - 10,000 美元
  • 第三名 - 8,000 美元
  • 第四名 - 7,000 美元
  • 第五名 - 5,000 美元
  • 第六名 - 5,000 美元

解題思路

賽題數據是以序列的方式進行組織,其中蛋白質包含了多個(ge) 氨基酸序列。因此在建模時,可以考慮使用序列模型。

可以參考已有的蛋白質預測比賽,也可以參考已有的序列分類模型,但應該有Transformer類似結構。

https://www.kaggle.com/code/danofer/cafa-protein-implicit-tfrs-recommender-baseline

【競賽報名/項目谘詢+微信:mollywei007】

上一篇

2023年中國隊伍在康萊德全球總決選獲獎!

下一篇

NACAC美國大學招生谘詢協會一周新聞

你也可能喜歡

  • 暫無相關文章!

評論已經被關(guan) 閉。

插入圖片
返回頂部