基於邏輯迴歸分類器的乳腺癌易感基因標誌物識別

文思社 人氣:3.24W

隨著基因測序技術的發展,生物資訊資料呈現爆炸式增長,如何從海量生物資料中挖掘出隱藏的生物模式和資訊,成為生物資訊學領域的一個重要課題。癌症的發生通常是由於細胞增長機制的失常而引起的,表現為細胞內某些基因突變或表達異常所致,進一步影響其他基因的表達,從而導致一些蛋白質分子的表達發生改變,因此產生了病理學上腫瘤的差異,形成了臨床診斷中的不同的癌症類別。隨著20世紀90年代啟動的人類基因組計劃(Human Genome Project) 的順利進行,DNA微陣列技術的迅速發展給癌症的臨床輔助診斷和治療帶來了新的希望,它在實驗中產生的基因表達資料可以使我們從基因水平對癌症病因進行分析和研究。但一次微陣列實驗會同時產生數以萬計的基因表達資料,對海量的基因表達資料進行分析和處理,從中提取有效的生物資訊給人們的研究提出了新的挑戰。基因表達譜資料分析是生物資訊學領域研究的最重要內容之一,作為研究的一種重要的方法,正確的對不同病理分型的癌症進行分類,對癌症的臨床診斷 和治療具有非常重要的意義。邏輯迴歸(LogisticRegression)理論的提出和發展,給高維的基因表達譜資料處理帶來了新的啟發,邏輯迴歸是當前機器學習演算法比較常用的方法,可以用來回歸分析,也可以用來分類,主要是二分類問題。邏輯迴歸分類演算法就是將線性迴歸應用在分類場景中,通過曲線擬合與sigmoid函式得到對樣本資料的分類標籤,在二分類問題中得到的分類結果為0/1。

基於邏輯迴歸分類器的乳腺癌易感基因標誌物識別

邏輯迴歸就是一個分類的演算法,常見用在二分類當中,就是把我們的輸入值線上性迴歸中轉化為預測值,然後對映到Sigmoid 函式中,講值作為x軸的變數,y軸作為一個概率,預測值對應的Y值越接近於1說明完全符合預測結果。但是擬合的越好,不代表效果就越好,有可能擬合過度。

經過反覆實驗,本文實現了對基因表達資料的分類,利用本文提出的邏輯迴歸演算法最終對資料集分類都得到了很好的分類效果,分類準確率達到了 93.4%。