Chỉ số Skewness và Kurtosis trong SPSS: Định nghĩa và cách kiểm tra phân phối chuẩn

Chỉ số skewness và kurtosis trong SPSS là những công cụ quan trọng để đánh giá sự lệch và dốc của phân phối dữ liệu. Skewness đo mức độ lệch của dữ liệu, trong khi kurtosis đo mức độ tập trung của dữ liệu xung quanh giá trị trung bình. Bài viết này sẽ giới thiệu về cách tính toán và ý nghĩa của hai chỉ số này trong SPSS.

1. Khái niệm skewness và kurtosis

Skewness là một khái niệm thống kê dùng để đo độ lệch của phân phối dữ liệu so với phân phối chuẩn. Nó cho biết sự chênh lệch giữa trung vị và trung bình của dữ liệu. Skewness có thể được chia thành ba loại: positive skewness (lệch phải), negative skewness (lệch trái) và zero skewness (không lệch). Positive skewness xảy ra khi đuôi bên phải của phân phối dài hơn, trong khi negative skewness xảy ra khi đuôi bên trái dài hơn. Zero skewness xảy ra khi trung vị và trung bình cùng nằm ở giữa.

Kurtosis là một khái niệm thống kê dùng để đo độ đỉnh hoặc độ phẳng của phân phối dữ liệu so với phân phối chuẩn. Kurtosis cho biết mức độ tập trung của các giá trị quan sát gần hay xa khỏi giá trị trung bình. Có hai loại kurtosis: leptokurtic (đỉnh cao) và platykurtic (đỉnh thấp). Leptokurtic xảy ra khi có nhiều giá trị quan sát gần giá trị trung bình, trong khi platykurtic xảy ra khi có ít giá trị quan sát gần giá trị trung bình.

2. Mức độ “méo mó, lệch phải lệch trái, lệch lên lệch xuống” so với phân phối chuẩn

Mức độ “méo mó” của một phân phối dữ liệu được so sánh với phân phối chuẩn để xác định mức độ lệch của nó. Nếu skewness dương (lệch phải), tức là có nhiều giá trị nhỏ hơn giá trị trung bình và ít giá trị lớn hơn, thì dữ liệu có xu hướng tập trung về bên phải. Ngược lại, nếu skewness âm (lệch trái), tức là có nhiều giá trị lớn hơn giá trị trung bình và ít giá trị nhỏ hơn, thì dữ liệu có xu hướng tập trung về bên trái. Nếu skewness gần bằng 0, tức là không có sự chênh lệch đáng kể giữa các cụm dữ liệu.

Mức độ “lệch” của một phân phối cũng liên quan đến mức độ kurtosis của nó. Leptokurtic (đỉnh cao) kurtosis cho thấy rằng phân phối có đuôi dày hơn và nhiều giá trị quan sát gần giá trị trung bình. Platykurtic (đỉnh thấp) kurtosis cho thấy rằng phân phối có đuôi mỏng hơn và ít giá trị quan sát gần giá trị trung bình.

3. Giá trị kurtosis và mô tả độ đỉnh hoặc độ phẳng của phân phối

Giá trị kurtosis là một số thống kê dùng để mô tả độ đỉnh hoặc độ phẳng của một phân phối dữ liệu so với phân phối chuẩn. Nó cho biết mức độ tập trung của các giá trị quan sát xung quanh giá trị trung bình.

Nếu giá trị kurtosis lớn hơn 3, tức là leptokurtic (đỉnh cao), thì có nhiều giá trị quan sát gần với giá trị trung bình, và có ít giá trị quan sát xa khỏi giá trị trung bình. Đây là dạng của các phân phối như Poisson và tập hợp dữ liệu với outliers.

Nếu giá trị kurtosis nhỏ hơn 3, tức là platykurtic (đỉnh thấp), thì có ít giá trị quan sát gần với giá trị trung bình, và có nhiều giá trị quan sát xa khỏi giá trị trung bình. Đây là dạng của các phân phối như uniform và tập hợp dữ liệu không có outliers.

4. Giá trị skewness và mô tả sự cân bằng của phân phối

Giá trị skewness là một số thống kê dùng để mô tả sự cân bằng của một phân phối dữ liệu so với phân phối chuẩn. Nó cho biết mức độ lệch của dữ liệu so với trung tâm của nó.

Nếu giá trị skewness lớn hơn 0, tức là positive skewness (lệch phải), thì có nhiều giá trị nhỏ hơn giá trị trung bình và ít giá trị lớn hơn. Đây là dạng của các phân phối như log-normal và exponential.

Nếu giá trị skewness nhỏ hơn 0, tức là negative skewness (lệch trái), thì có nhiều giá trị lớn hơn giá trị trung bình và ít giá trị nhỏ hơn. Đây là dạng của các phân phối như chi-square và tập hợp dữ liệu với outliers.

5. Cách kiểm tra phân phối chuẩn thông dụng nhất: phân tích đồ thị và kiểm định thống kê

Để kiểm tra xem một tập dữ liệu có tuân theo phân phối chuẩn hay không, có hai cách thông dụng nhất: phân tích đồ thị và kiểm định thống kê.

Phân tích đồ thị là một cách trực quan để xem xét hình dáng của một tập dữ liệu. Đồ thị histogram cho biết mật độ xác suất của các giá trị trong tập dữ liệu, trong khi đồ thị QQ plot (quantile-quantile plot) so sánh các quantile của tập dữ liệu với quantile của một phân phối chuẩn. Nếu các điểm trên QQ plot nằm gần một đường thẳng, tức là tập dữ liệu tuân theo phân phối chuẩn.

Kiểm định thống kê là một cách chính xác hơn để kiểm tra xem một tập dữ liệu có tuân theo phân phối chuẩn hay không. Có nhiều loại kiểm định khác nhau, bao gồm Kolmogorov-Smirnov test, Shapiro-Wilk test và Anderson-Darling test. Các kiểm định này so sánh tập dữ liệu với một phân phối chuẩn và cho biết xác suất của việc tìm thấy một tập dữ liệu khác nhau nếu tập dữ liệu không tuân theo phân phối chuẩn.

6. Phương pháp kiểm định chẩn đoán: biểu đồ so sánh và normal probability plot

Phương pháp kiểm định chẩn đoán là một cách để xác định xem một tập dữ liệu có tuân theo phân phối chuẩn hay không bằng cách so sánh các giá trị quan sát với các giá trị mong đợi từ một phân phối chuẩn.

Một trong những công cụ chính để thực hiện kiểm định chẩn đoán là biểu đồ so sánh (comparison plot). Biểu đồ này cho thấy sự khác biệt giữa các giá trị quan sát và các giá trị mong đợi từ một phân phối chuẩn. Nếu các điểm trên biểu đồ gần với một đường thẳng, tức là tập dữ liệu tuân theo phân phối chuẩn.

Normal probability plot (đồ thị xác suất chuẩn) cũng được sử dụng để kiểm tra phân phối chuẩn. Đồ thị này so sánh các quantile của tập dữ liệu với quantile của một phân phối chuẩn. Nếu các điểm trên đồ thị nằm gần một đường thẳng, tức là tập dữ liệu tuân theo phân phối chuẩn.

Tổng kết, chỉ số skewness và kurtosis là những công cụ quan trọng trong SPSS để đánh giá sự lệch và tập trung của dữ liệu. Chúng cho phép chúng ta hiểu rõ hơn về phân phối của biến số và đưa ra những kết luận chính xác hơn về mẫu dữ liệu. Việc nắm vững việc sử dụng các chỉ số này sẽ giúp chúng ta tăng cường khả năng phân tích và hiểu biết về dữ liệu trong SPSS.