統(tǒng)計學方法在醫(yī)學論文中的正確應用!
來源:醫(yī)學服務團隊發(fā)布時間:2017-05-19 13:06:44
導語:醫(yī)學科技論文,特別是高質量的原始論著及根據(jù)高質量原始論著產生的系統(tǒng)評價己不斷地改進和規(guī)范著臨床醫(yī)療實踐活動。因此,醫(yī)學文獻的質量高低與我們的臨床醫(yī)療實踐活動密切相關。然而,如果統(tǒng)計學方法應用不當,不僅不能準確地反映科研結果,而且還可能帶來錯誤的結淪。

Rosenfeld 等比較了不同年代發(fā)表的文章,在20 世紀90年代以后有更多的文章使用了統(tǒng)計推斷,而且比較復雜的統(tǒng)計分析方法如多因素分析等也更多的應用于臨床研究中,但同時也存在使用統(tǒng)計方法欠妥或敘述不清的情況。國內耳鼻咽喉科醫(yī)學科技論文情況近似,熊國強等分析了2000 年到2001 年“中國耳鼻咽喉顱底外科雜志”,在科研設計和統(tǒng)計分析方面的應用現(xiàn)狀;胡良平等抽查了“中華耳鼻咽喉科雜志”1998 年到2000 年發(fā)表的部分文獻,發(fā)現(xiàn)統(tǒng)計學誤用比較常見。因此本文將對醫(yī)學科技論文常見統(tǒng)計學方法的正確應用進行討論,希望加強作者的統(tǒng)計思維,進而提高期刊論文的統(tǒng)計質量及學術水平。
1 統(tǒng)計學方法的內容
統(tǒng)計軟件包、統(tǒng)計分析方法及檢驗水準是統(tǒng)計學方法必須描述的3方面內容。SPSS (statistics package for social science) 和SAS(statistical analysis system ) 是全世界學術界公認且最常用的兩大統(tǒng)計軟件包。檢驗水準即A,表示組間實際無差別而統(tǒng)計結果判斷為有差別,犯這類錯誤的概率。實際工作中常取 A=0.05,表示本次研究計算所得P 值必須小于0.05,才能認為組間差異有統(tǒng)計學意義。因而本刊對于檢驗水準的描述多簡化為“P值< 0. 05 為有統(tǒng)計學意義”。統(tǒng)計分析方法的準確描述是科技論文科學性的關鍵所在。統(tǒng)計學方法一般包括統(tǒng)計描述和組間差異性檢驗(即:假設檢驗) 兩部分內容?,F(xiàn)詳細敘述如下:
2 統(tǒng)計描述
統(tǒng)計描述主要是根據(jù)資料類型及原始數(shù)據(jù)分布類型,選擇正確的指標描述資料特征。資料類型分為定量資料和定性資料,前者是指對每個觀察對象測得的某個指標能夠用具體數(shù)據(jù)表示,如:年齡、身高、每張切片的陽性細胞百分率等; 后者指對每個觀察對象測得的某個指標不能用具體數(shù)值表示,僅反映觀察對象的某一特征,如: 陽性、陰性,ABO 血型,治愈、顯效、好轉、無效等。定量資料如果符合正態(tài)分布,統(tǒng)計描述指標可用均數(shù)及標準差,一般描述為“數(shù)據(jù)以均數(shù)±標準差表示”; 如果不符合正態(tài)分布,則統(tǒng)計描述指標選用中位數(shù)和級差(即: 最大值和最小值之差)。
區(qū)分資料是正態(tài)或偏態(tài)分布,可以通過SPSS、SAS 統(tǒng)計軟件程序判斷,也可以通過目測數(shù)據(jù)是否有"極端值",即特別大或特別小的數(shù)據(jù),進行判斷。定性資料的統(tǒng)計描述包括率、構成比及相對比。率表示單位時間內某現(xiàn)象或事物發(fā)生的概率,如發(fā)病率、死亡率等;構成比指事物內部某一部分的個體數(shù)與該事物各部分個體數(shù)的總和之比,表示各構成部分在全體中所占的比重或分布,不能說明某現(xiàn)象發(fā)生的頻率或強度,如性別構成、疾病構成、死亡構成等。二者的區(qū)別從以下公式則一目了然。然而,在實際應用中以構成比代替率很常見。
例如,某文分析240 例耳鼻咽喉科住院患者,鼻竇炎41 例,稱發(fā)病率17. 08% ,文中“發(fā)病率”實際為鼻竇炎患者在該科所有患者中的構成比。此外,還有將病死率誤用為死亡率、患病率誤用為發(fā)病率等,這些都需引起作者的注意。某種疾病發(fā)病率= 某段時間內發(fā)生該疾病的人數(shù)/某段時間內可能發(fā)生該種疾病的總人數(shù)某種疾病構成比= 某段時間內發(fā)生該疾病的人數(shù)/某段時間內發(fā)生各種疾病的總人數(shù)。
3 假設檢驗
科技論文中最常用的是組間差異性檢驗。假設檢驗方法很多,不同的科研設計類型及資料類型適用的檢驗方法有所不同。定量資料與定性資料常用的統(tǒng)計分析方法介紹如下。
3.1 定量資料
定量資料的統(tǒng)計分析方法包括參數(shù)法和非參數(shù)法,前者如t檢驗、方差分析,后者如秩和檢驗。選擇的關鍵在于資料分布類型,如果資料符合正態(tài)分布且組間方差齊(即各組標準差彼此接近) 則選用參數(shù)法,不符合則選用非參數(shù)法。但在許多醫(yī)學論文中經常忽略這兩個條件,不考慮資料的分布直接采用t 檢驗或方差分析,由此得出的分析結果是不可信的,見例1。
例1
為研究TGF- β、CEA 腫瘤標志在喉癌患者手術前、后有無差異,分別檢測了58 名患者前及術后TGF- β和CEA,經配對t 檢驗,TGF- β術前、后差異有統(tǒng)計學意義,結果見表1。
表1.腫瘤標記物術前術后的檢測*
組別 TGF- β(μg/l) CEA(μg/l)
術前 19.0±26.3 34.0±79.0
術后 4.8±7.5* 20.6±11.2
與術前比較p值﹤0.05
表中兩指標標準差均相差達2 倍以上,提示方差不齊,故不宜采用t 檢驗,而適合采用秩和檢驗。t 檢驗用于兩組均數(shù)間的比較,包括兩獨立樣本t 檢驗、配對t 檢驗和樣本均數(shù)與總體均數(shù)比較的t 檢驗;方差分析用于兩組或兩組以上均數(shù)的比較。然而,在許多醫(yī)學論文中,對于3 組或3 組以上均數(shù)的兩兩比較,常重復使用獨立樣本t 檢驗作比較,如例2。這樣會加大犯陽性錯誤的概率,即可能將無差別的兩個總體均數(shù)判斷為有差別。這點尤其需引起作者的注意,這也是醫(yī)學科技論文中t 檢驗濫用的重要表現(xiàn)之一。
此類資料正確的分析方法應是先進行方差分析,以確定這幾組均數(shù)總體差異有無統(tǒng)計學意義;如果有統(tǒng)計學意義,則進一步采用q 檢驗(任意組間兩兩比較) 或Dunnett t 檢驗(每個實驗組與對照組比較) 以確定哪些組間差異有統(tǒng)計學意義。
例2
為了解不同分化程度的下咽癌患者VEGFR- 3 表達陽性脈管的數(shù)目VEGFR- 3 表達陽性脈管差異,分別檢測16 例高分化患者,1
5 例中分化者及13 例低分化者,作者采用獨立樣本t檢驗,結果見表2。
表2 下咽癌組織中VEGFR- 3 表達陽性脈管與病理分級的關系
組別 例數(shù) VEGFR- 3 表達陽性脈管
高分化組 16 14.29±6.50
中分化組 15 15.65±5.84
低分化組 13 16.16±4.75
各組之間p 值﹥0.05
3.2 定性資料
定性資料整理與歸納后,主要分為3 種類型,即四格表資料(只有2 組,且結果變量為2 分類變量,總絡子數(shù)為4 見表3)、行×列表資料(總格子數(shù)> 4,見表4) 和列聯(lián)表資料(又稱雙向有序資料,見表5)。行×列表資料又包括單向有序資料(即等級資料,2 組或2 組以上,結果變量為有序多分類變量,見表6)。不同資料類型采用的統(tǒng)計分析方法有所不同。
表3 四格表資料格式
組別 陰性 陽性 合計
實驗組 10 29 39
對照組 24 11 35
合計 34 40 74
表4 行×列表資料格式
組別 陰性 陽性 合計
實驗1 組 10 29 39
實驗2 組 15 19 34
對照組 24 11 35
合計 49 59 108
表5 列聯(lián)表資料格式
N 分期
T 分期 N0 N1 N2 N3 合計
T1 15 9 4 3 31
T2 13 14 9 4 40
T3 9 14 6 5 34
T4 8 7 7 4 26
合計 45 44 26 16 131
表6 單向有序資料格式
組別 無效 好轉 顯效 治愈 合計
實驗組 3 9 11 19 42
對照組 9 5 7 9 30
合計 12 14 18 28 72
四格表資料χ2 檢驗醫(yī)學論文中,四格表資料χ2 檢驗的應用很常見,但使用時應注意具體的應用條件。當總例數(shù)大于40,且每個格子的理論頻數(shù)均不小于5 時,應用未校正的χ2 檢驗;如果總例數(shù)大于40,有一個格子的理論頻數(shù)小于5 但大于1,采用校正的χ2 檢驗; 如果總例數(shù)小于40,或有一個格子的理論頻數(shù)小于1,則采用Fisher 確切概率法。實際應用中,許多作者不考慮應用的前題條件,均使用未校正的χ2 檢驗,從而導致結果不可靠。行×列表資料χ2 檢驗行×列表資料χ2 檢驗主要用于多個率或構成比的比較。但此時要求所有格子中理論頻數(shù)小于5 的格子數(shù)少于總格子數(shù)的1/5。如果大于1/5 ,則相鄰格子應刪除或合并后再計算。此時若需了解具體那些率之間差異有統(tǒng)計學意義,就需進行χ2 分割來確定。
單向有序資料此類資料如果是比較組間治療效果差異有無統(tǒng)計學意義,則應采用秩和檢驗。如果采用χ2 檢驗,僅表明各組的療效構成差異有無統(tǒng)計學意義,因為此時只利用了每組構成比提供的信息,損失了有序指標提供的“等級”信息。這也是許多作者誤用統(tǒng)計學方法的資料類型之一,需尤其注意。列聯(lián)表資料χ2 檢驗此類資料特征為對同一組觀察對象,分別觀察其兩種有序分類變量的表現(xiàn),歸納成雙向交叉排列的統(tǒng)計表,分析兩個分類變量是否有相關聯(lián)系的假設檢驗,采用行×列表χ2 檢驗。
3.3 相關性分析
如果需了解兩變量有無相關性,或相關程度有多大,此時需作相關分析。相關分析應報告相關系數(shù)及對該相關系數(shù)所作的假設檢驗P 值。相關系數(shù)種類很多,選擇時應根據(jù)指標類型來確定。如果是計量指標,則應選擇Pearson 相關系數(shù); 如果是等級指標,則應選擇Spearman 相關系數(shù)。
3.4 結論的表述
首先要明確“P 值< 0.05”,習慣上稱“顯著”(significant) ,僅說明兩組差異有統(tǒng)計學意義,并不能說明兩組該指標相差很大,或在專業(yè)上有顯著的(重要的)價值; 反之,P 值>0.05,習慣上稱“不顯著”(non significant) ,不應誤解為相差不大,或一定相等,僅說明從統(tǒng)計角度考慮這兩組差異無統(tǒng)計學意義。為了不與一般意義上的“顯著”、“不顯著”相混淆,許多統(tǒng)計學家主張作結論時不用“是否顯著”一詞,而用“差異有無統(tǒng)計學意義”。
此外,根據(jù)統(tǒng)計結果得出專業(yè)結論不能太絕對化,因為統(tǒng)計結論均是概率性的,不是絕對的肯定或否定,本次研究統(tǒng)計結果是陰性,如果增加樣本含量,組間差異可能就有統(tǒng)計學意義了。
綜上所述,不同的統(tǒng)計分析方法均有其應用條件和適用范圍,實際應用時,必須根據(jù)科研設計類型及變量類型選擇恰當?shù)慕y(tǒng)計分析方法,同時注意檢查結果解釋和專業(yè)結論是否同時滿足專業(yè)和統(tǒng)計學要求。切忌將t 檢驗、χ2 檢驗視為分析資料的“萬能工具”,盲目套用,導致文章的科學性降低。