您當前的位置:首頁 > 農業

利用代謝相關基因構建列線圖是如何發4分+SCI的?

作者:由 科研芝士 發表于 農業時間:2021-01-02

大家好!今天跟大家分享的文獻是2020年9月發表在Molecular Therapy-Oncolytics(IF=4。115)雜誌上的一篇文章。文章利用TGCA資料庫中肺癌患者的轉錄組資料,使用代謝基因特徵建立預測模型,預測患者的生存時間。構建列線圖預測患者的3年和5年生存率。

題目:Prognostic Implication of a Metabolism-Associated Gene Signature in Lung Adenocarcinoma

肺癌代謝相關基因的預後特徵

摘要

肺癌是全球最常見的癌症之一,其致死率很高。代謝途徑在肺癌的發生和發展過程中起著十分重要的作用。作者旨在基於代謝相關基因(MTG)特徵構建肺腺癌(LUAD)的預後預測模型。從TCGA LUAD佇列中篩選差異表達(DE)的MTG。透過單因素Cox迴歸分析和LASSO分析作者構建了最佳風險模型,使用生存分析評估預後模型的能力。KM結果表明該模型在TCGA和GEO資料中均表現良好。最後,結合臨床表型和代表基因特徵構建列線圖,其結果有助於個性化結果預測。校準曲線顯示了實際結果和預測結果之間的一致性。

流程圖

利用代謝相關基因構建列線圖是如何發4分+SCI的?

1. 資料的獲取和整理

本文從GeneCards(

https://www。

genecards

。 org/ ) 收集MTGs。從TCGA資料庫收集533個腫瘤樣本和59個正常樣本。從GEO資料庫下載資料GSE31210和GSE30219資料集。

2. 鑑定差異表達(DE)-代謝相關基因(MTGs)和功能分析

從GeneCards資料庫中收集到1943個MTGs,其中有86個是TCGA佇列的差異表達基因(圖1A)。差異表達基因(DEGs)和MTGs的交集情況見圖1B。對這86個DE-MTGs進行GO和KEGG富集分析,主要富集在PPAR訊號通路和參與醯胺結合、肽結合和正調節樹突狀細胞分化等功能。

利用代謝相關基因構建列線圖是如何發4分+SCI的?

圖1 TCGA資料集的差異表達分析

3. TCGA訓練佇列構建預後基因模型

單因素Cox迴歸分析鑑定到了37個與OS顯著相關的DE-MTGs(圖1C)。圖1D和1E展示了這37個基因在腫瘤和正常樣本中的差異表達情況。隨後使用LASSO構建預後模型,迴歸係數見圖2A,包含這13個基因預後模型效能最好(圖2B)。這些預後基因主要參與糖代謝,脂代謝和維生素代謝(表1)。

利用代謝相關基因構建列線圖是如何發4分+SCI的?

表1 預後基因的功能

利用代謝相關基因構建列線圖是如何發4分+SCI的?

作者使用cBioPortal for Cancer Genomics網站研究這13個基因的遺傳變異情況。在PanCancer Atlas資料中的507位LUAD患者中有119(23%)位患者發生了突變(圖2C),而Firehose Legacy中的230位LUAD患者有54(23%)位患者發生了突變。在Nat Genet2016中有1144位患者中有304(27%)位患者發生了突變。這些突變的頻繁發生可能在某種程度上意味著這些基因有助於腫瘤發生。作者同樣研究了6個預後基因在BRCA,CESC,PAAD,STAD,LIHC等癌症中的突變情況。分別有18%,15%,18%,9%和52%的患者發生了基因突變。

根據這13個基因的表達水平和LASSO Cox迴歸分析計算患者的預後risk score。作者使用單因素Cox迴歸分析和多因素Cox迴歸分析評估risk score的預後價值。單因素Cox迴歸分析顯示risk score和臨床表型與OS顯著相關而多因素Cox迴歸分析表明risk score是獨立的預後因素。

利用代謝相關基因構建列線圖是如何發4分+SCI的?

圖2 構建代謝基因特徵和預後價值的評估

risk score的分佈及risk score和生存時間的相關性見圖3A。根據risk score將患者分為high-risk和low-risk兩組。使用聚類熱圖展示high-rish和low-risk預後基因的表達水平(圖3B)。KM生存分析表明low-risk組具有更高的生存可能性(圖4A)。生存期1-5年的ROC曲線見圖4B,AUC的最大值為0。72,表明該模型的敏感性和特異性良好。

利用代謝相關基因構建列線圖是如何發4分+SCI的?

圖3 risk score的特徵和代謝基因的聚類熱圖

利用代謝相關基因構建列線圖是如何發4分+SCI的?

圖4 預後基因的生存分析和ROC曲線

4. GEO驗證資料集中預後基因的評估

為驗證risk score的預後價值,作者根據TCGA資料集得到的閾值將兩個GEO資料集分為high-和low-risk兩組。risk score的分佈和risk score及risk score和生存時間的相關性見圖3C和圖3E。基因表達情況見圖3D和圖3F。Okayama資料集包含226個Ⅰ期和Ⅱ期LUAD患者,KM生存分析表明low-risk組的生存可能性更高,AUC最大為0。83(圖4C和4D)。Rousseaux資料集包含292個Ⅰ期到Ⅳ期的肺癌患者。預後基因模型在驗證資料集中表現良好(圖4E和4F)。總的來說,這13個代謝相關基因有助於風險分層。作者使用TCGA資料庫中6種其他癌症(BRCA,CESC,PAAD,SKCM,STAD和LIHC)的資料集評估這些預後基因的特異性,K-M生存分析表明,LIHC和PAAD的低風險組的生存率較高。

5.構建列線圖

列線圖是整合多種風險因子應用於臨床的有效工具之一。作者對TCGA LUAD佇列資料集構建列線圖,主要包括年齡、性別、T期、M期、N期和代謝特徵等七個風險因子(圖5A)。患者3年和5年的OS與列線圖預測結果一致(圖5B和5C)。

利用代謝相關基因構建列線圖是如何發4分+SCI的?

圖5 列線圖

6.訊號通路分析

GSEA分析表明high-risk組的基因主要富集在細胞迴圈,P53訊號通路,嘧啶代謝和蛋白酶體等通路,而low-risk組的基因主要富集在血管平滑肌收縮和初級膽汁酸生物合成等通路(圖5D)。

7.預後基因的免疫組化染色

為驗證這些預後基因的蛋白表達水平,作者對4個基因進行了免疫組化染色。在NSCLC和SCLC lung組織中SLC2A1的表達水平增加,在肺癌組織中PSCK9和ABCC2呈弱陽性而在NSCLC和SCLC lung組織中均沒有檢測到KL(圖6)。

利用代謝相關基因構建列線圖是如何發4分+SCI的?

圖6 預後基因的免疫組化染色

7.單細胞水平上分析基因表達水平

Thienpont等人鑑定到了肺癌微環境中的7個主要細胞型別的52個細胞亞類。作者對肺癌組織進行單細胞轉錄組測序來評估這些基因在單細胞水平上的表達水平。結果表明,SLC2A1,CYP4B1,TFAP2A,TCN1,CDKN3和TK1在大部分細胞中表達,而FFAR4主要在髓系細胞中表達CAV3僅在纖維細胞的亞類中表達。

結語

作者基於TCGA資料集構建了一個MTG預後特徵,可能有助於為LUAD患者提供治療靶點。本研究構建的列線圖可以準確預測LUAD患者的3年和5年生存率,有助於個性化治療。本文的亮點在於使用代謝相關基因建立模型預測肺癌患者的預後情況,得到了較好的預測效果且使用外部資料進行了驗證,同時使用單細胞資料集研究這些基因在單細胞水平上的表達情況具有一定的創新性,值得我們學習。但是文章還有有一些不足,例如對單細胞資料的分析較少。

標簽: 基因  risk  預後  score  TCGA