生物學重復到底設定多少個合適

發布時間： 2021-04-07　　點擊次數： 3584次

我打算做一個RNA-seq項目，研究一株細菌在兩個環境條件下的表達差異。現在，我打算確定生物學重復的個數，以便可以得到統計學上有意義的結果。我打算每個環境的樣本設置兩個生物學重復，而不打算測更多重復。請問，兩個重復的設置是否合理？

1.如果是我的話，我會選擇設置三個生物學重復。要知道兩個生物學重復意味著雙倍的工作量但沒有雙倍的效果。如果做兩個生物學重復，你會引入無法校正的噪音。如果兩個重復結果一樣，那能說明問題，但如果不一樣，你就解釋不了了。如果樣品制備不是非常難，經費不是非常有限，我建議還是設置3個生物學重復吧。

2.這是個有意思的問題，從統計學的角度來說
排除生物學意義，從統計學的角度來說，不同的統計方法，對生物學重復的個數的要求并不相同。
如果使用T檢驗，你應該設置盡可能多的生物學重復，建議至少3個重復。當然T檢驗的方法，在RNA-seq的差異分析里不是很合理。因為RNA-seq的誤差分布，并不符合正態分布。
如果你選擇的統計模型是Fisher 精Que檢驗類的統計模型（包括超幾何分布或泊松分布），即使沒有生物重復也是可以進行統計的。當然，沒有生物學重復只是在統計學上可行，但實際上無算估算生物差異或實驗誤差帶來的系統誤差。所以，這樣的策略現在發表論文的話，可能會被質疑的。
如果你選擇一些軟件，例如Deseq這樣的軟件，一般也要求2個以上的生物學重復。

這個是非常有意思的問題，我提供的建議非常有限，期望其他人有更好的回答。

“虎式坦克”的回答不錯。關于生物學重復與統計的關系，我補充一下。在我們的測序樣本中，每一個基因表達量的方差包含兩個方面的內容：
1）處理方差，就是我們的實驗處理導致的差異，這些差異當然就是我們關注的；
2）誤差方差，就是與我們實驗處理無關的差異，例如，生物個體間的差異，實驗技術不穩定導致的偏差等。誤差方差并非我們關注的，但這些差異會引入假陽性。

所以生物學重復的價值在于幫助我們估算誤差方差的大小，從而我們可以從總體方差中剔除誤差方差的影響。

以上的內容，就是生物統計學中“方差分析”所講的內容。其實RNA-seq差異分析的主體思路和方差分析基本相同，只是把誤差分布的假設從方差分析的正態分布，替換為了其他更合理的分布，例如負二項分布。那么，生物學重復在這里的意義就是用于計算誤差方差的大小。因為生物學重復間不存在處理效應，任何差異都屬于誤差方差的范疇。

但還需要補充一點，由于我們大部分二代測序只有2~3個生物學重復。這么少的重復數，正確預估每個基因誤差方差其實是不夠的（也就是單個基因的方差估計很不穩定）。所以，一般的差異表達分析軟件（例如，Deseq，edgerR）使用了一個代償的方法。這個方法假設：對于表達量相似的基因，其誤差方差也應該是相似的。所以在Deseq里面，會使用所有基因的方差獲得擬合曲線，來獲得不同表達量的基因的期望方差（如下圖）。在重復數比較少的情況下，擬合得到的期望方差理論上會比單個基因的估算更準。

回答完統計學角度的問題，我們再從生物學試驗設計的角度來考慮重復數設置的問題。我們一般會建議老師測3個生物學重復，除了統計角度的考慮，還有考慮試驗的意外因素。如果測兩個重復，而其中一個樣本發現有問題而需要被剔除，就會導致這組數據將非常不可信。但如果我們有三個重復，剔除一個樣本后，依然留有兩個樣本，保證這組數據依然是有重復的。

我認為從統計的角度，4個重復是理想的。當然，從費用的角度來說，目前依然是太貴了。隨著測序價格不斷下降，重復的設置應該會慢慢提高的。

上一篇：茁彩生物ELISA試劑盒包被原理!

下一篇：ELISA法手工測定的影響因素

嫩草视频在线日本精品一区二|国产精品乱伦AV|亚洲美乳人妻视频|99久久多吊无码国产日韩

生物學重復到底設定多少個合適