社會統計學中簡化一個變項的基本技術
在分析資料時,首先要用適當的敘述統計法來簡化每一個變項的資料,然後才能進一步分析變項與變項之間的關係。社會統計學中簡化一個變項的基本技術,還是按照測量層次的骨架來分類介紹的,
適用於簡化一個定類變項資料的方法有次數分佈、比例、比率、圖示和對比值等
1、次數分佈
最基本的一種方法,用於簡化大量原始資料。即
看看變項內每一個值的原始資料出現了多少次。
優點是很容易看到數量的多少,缺點是常常因為樣本總數的不同而不能進行比較,如要比較,要看比例、比率
2、比例
比例就是將每類的次數(f)除以總數(N)
比例的方法可以使兩個樣本的總數變成同一個基數進行比較。
3、比率
把計算比例時所用的基數變大,使讀者容易領會。如變成百分率、千分率、萬分率。社會學研究中常用的是百分率,通常保留小數點後一位、兩位數字。
4、對比值
分析定類層次資料也可以計算兩數值的對比值,a數值與b數值的對比值就是a除以b。比如性別對比值,每千名女性中有1217名男性。
5、圖示法
用圖形來簡化資料,在社會學研究中比較多用的有長條圖和圓瓣圖。長條圖是以長方形的長度來表示次數或百分率的多少。圓瓣圖就是把一個圓形平面按數值的比例分割。
適用於定序層次但不適用於定類層次的有累加次數和累加百分率。
累加次數就是把次數逐級相加起來。分為兩種,一種是向上累加,一種是向下累加。他們的作用是使我們容易知道某值以下或以上之次數總和。
累加百分率就是把各級的百分率數值逐級相加。
簡化定居資料的基本技術有矩形圖、多角線圖
矩形圖:以一個矩形的面積表示每組數值之次數或百分率的多少
多角線圖:把各個矩形頂端的中點用直線連線起來,其作用是使各組的次數(或百分率)的分佈情況更顯而易見
在這裡,需要介紹組限,組距以及組中值。
組限:每組的範圍,包括上限和下限。
組距:每個組的寬度,組的真實上限與真實下限之差。各組距(即矩形的寬度)的大小會影響線條的平滑程度。組距越小,線條越平滑。
組中點:真實上限與真實下限的平均數
接下來,引入集中趨勢測量法與離散趨勢測量法
集中趨勢測量法:找出一個數值來代表變項的資料分佈,以反映資料的集結情況。可以根據代表值來估計或預測每一個研究物件(即個案)的數值
定類變項:眾值(Mo)
眾值就是次數最多之值,眾值最有代表性,所以眾值做預測所犯的錯誤總數是最小的。眾值適合於分析定類變項,當然也可用來分析定序或定距變項的資料。
定序變項:中位值(Md)
中位值就是在一個序列的中央位置之值。中位值具有估計或預測的意義,長遠的說,以中位值去估計定序變項的數值,所犯的錯誤總數是最小的。
定距變項:均值(Mean)
定距資料可以做加減運算,故可以將變項的各個數值相加起來,求取一個平均的數值,這就是均值。均值表明了資料的集中趨勢,可做估計或預測之用。長遠的說,以均值估計定距變項的資料,錯誤最小。
均值陷阱:一種情況是在分組資料的極端組沒有組限時,不能求出均值,只能用中位值,另一種情況是變項中有個別的數值非常特殊,則均值的代表性有問題,用中位值比較適合。
離散趨勢測量法:是要求出一個值來表示個案與個案之間的差異情況,與集中趨勢測量法具有相互補充的作用。
因為集中趨勢測量法所求出的是一個最能代表變項所有資料的值,但其代表性的高低卻要視乎各個個案之間的差異情況,如果個案之間的差異很大,則眾值中位值或均值的代表性就會甚低。因此,對於每個變項的資料,我們既要測量其集中趨勢,也要測量其離散或差異的程度。
定類變項:離異比率
離異比率就是非眾值的次數與全部個案數目的比率。離異比率要求出的是在全部的個案中,有多少是偏離眾值不屬於眾值的個案,所佔的比例越大,就表示眾值的代表性越小
定序變項:四分位差
將個案由低至高排列,然後分為四個等分,則第一個四分位置的值與第三個四分位置的值的差異就是四分位差。
四分位差越大,表示有50%的個案的分佈越遠離中位值,因而中位值的代表性就越小。
定距變項:標準差
標準差是將各數值與其均值之差的平方和除以全部個案數目,然後取其平方根。表示用均值做估計或預測變項值時所犯錯誤的大小。
離勢測量法與集中趨勢測量法是有互補作用的,二法並用就可以一方面知道資料的代表值,有助於估計或預測的工作,另一方面可以知道資料的差異情況,反映估計或預測時會犯的錯誤。
以上就是社會統計學研究當中常用的簡化每一個變項的基本技術。