我打算做一個RNA-seq項目,研究一株細菌在兩個環境條件下的表達差異。現在,我打算確定生物學重復的個數,以便可以得到統計學上有意義的結果。我打算每個環境的樣本設置兩個生物學重復,而不打算測更多重復。請問,兩個重復的設置是否合理?
1.如果是我的話,我會選擇設置三個生物學重復。要知道兩個生物學重復意味著雙倍的工作量但沒有雙倍的效果。如果做兩個生物學重復,你會引入無法校正的噪音。如果兩個重復結果一樣,那能說明問題,但如果不一樣,你就解釋不了了。如果樣品制備不是非常難,經費不是非常有限,我建議還是設置3個生物學重復吧。
2.這是個有意思的問題,從統計學的角度來說
排除生物學意義,從統計學的角度來說,不同的統計方法,對生物學重復的個數的要求并不相同。
如果使用T檢驗,你應該設置盡可能多的生物學重復,建議至少3個重復。當然T檢驗的方法,在RNA-seq的差異分析里不是很合理。因為RNA-seq的誤差分布,并不符合正態分布。
如果你選擇的統計模型是Fisher 精Que檢驗類的統計模型(包括超幾何分布或泊松分布),即使沒有生物重復也是可以進行統計的。當然,沒有生物學重復只是在統計學上可行,但實際上無算估算生物差異或實驗誤差帶來的系統誤差。所以,這樣的策略現在發表論文的話,可能會被質疑的。
如果你選擇一些軟件,例如Deseq這樣的軟件,一般也要求2個以上的生物學重復。
這個是非常有意思的問題,我提供的建議非常有限,期望其他人有更好的回答。
“虎式坦克”的回答不錯。關于生物學重復與統計的關系,我補充一下。在我們的測序樣本中,每一個基因表達量的方差包含兩個方面的內容:
1)處理方差,就是我們的實驗處理導致的差異,這些差異當然就是我們關注的;
2)誤差方差,就是與我們實驗處理無關的差異,例如,生物個體間的差異,實驗技術不穩定導致的偏差等。誤差方差并非我們關注的,但這些差異會引入假陽性。
所以生物學重復的價值在于幫助我們估算誤差方差的大小,從而我們可以從總體方差中剔除誤差方差的影響。
以上的內容,就是生物統計學中“方差分析”所講的內容。其實RNA-seq差異分析的主體思路和方差分析基本相同,只是把誤差分布的假設從方差分析的正態分布,替換為了其他更合理的分布,例如負二項分布。 那么,生物學重復在這里的意義就是用于計算誤差方差的大小。因為生物學重復間不存在處理效應,任何差異都屬于誤差方差的范疇。
但還需要補充一點,由于我們大部分二代測序只有2~3個生物學重復。這么少的重復數,正確預估每個基因誤差方差其實是不夠的(也就是單個基因的方差估計很不穩定)。所以,一般的差異表達分析軟件(例如,Deseq,edgerR)使用了一個代償的方法。這個方法假設:對于表達量相似的基因,其誤差方差也應該是相似的。所以在Deseq里面,會使用所有基因的方差獲得擬合曲線,來獲得不同表達量的基因的期望方差(如下圖)。在重復數比較少的情況下,擬合得到的期望方差理論上會比單個基因的估算更準。
回答完統計學角度的問題,我們再從生物學試驗設計的角度來考慮重復數設置的問題。我們一般會建議老師測3個生物學重復,除了統計角度的考慮,還有考慮試驗的意外因素。如果測兩個重復,而其中一個樣本發現有問題而需要被剔除,就會導致這組數據將非常不可信。但如果我們有三個重復,剔除一個樣本后,依然留有兩個樣本,保證這組數據依然是有重復的。
我認為從統計的角度,4個重復是理想的。當然,從費用的角度來說,目前依然是太貴了。隨著測序價格不斷下降,重復的設置應該會慢慢提高的。