Phân tích nâng điểm của các thí sinh Sơn La
Mấy ngày qua, dư luận xôn xao về vụ sửa điểm thi tốt nghiệp ở Sơn La. Vài tờ báo làm cái việc quá đáng và kém suy nghĩ là công bố danh sách thí sinh (1). Những số liệu về điểm chấm lần thứ nhất và điểm chấm lại cho ra vài xu hướng rất thú vị, mà nếu chỉ nhìn qua bảng thì không thấy gì cả; phải nhìn qua biểu đồ (visualization) thì mới hay. Trong cái note này tôi dùng R để hiển thị dữ liệu, trước là mua vui, sau là học R.
Danh sách 44 học sinh Sơn La bao gồm điểm của 8 môn (toán, lí, hóa, sinh, văn, ngoại ngữ, sử và địa). Trước hết, chúng ta thử xem qua tổng số điểm của hai lần chấm thi. Biểu đồ 1 thể hiện điểm cho mỗi thí sinh lần 1 và lần 2. Tất cả, như chúng ta biết, đều được nâng điểm, nhưng số điểm được nâng không giống nhau.
Chúng ta sẽ khai thác sự khác biệt về điểm được nâng qua phân tích tổng số điểm (Biểu đồ 2). Điểm trung bình (và độ lệch chuẩn, SD) của lần chấm đầu tiên là 26.7 (SD 8.0); đến lần thứ hai giảm xuống 15.2 (6.5). Như vậy, tính trung bình các quan chức Sơn La nâng 11.5 điểm, và khoảng tin cậy 90% dao động từ 3 đến 23.6 điểm. Nhìn qua phân bố của lần chấm thứ nhất chúng ta thấy độ đao động lớn (phản ảnh qua độ lệch chuẩn 8.0) và có nhiều 'bump', nhưng lần chấm thứ hai thì có vẻ 'smooth' hơn và độ dao động cũng thấp hơn (ĐLC 6.5). Sự khác biệt này không nói lên nhiều, mà chỉ có thể nói lên rằng việc nâng điểm diễn ra rất khác nhau giữa các môn học.
Do đó, bước kế tiếp là phân tích điểm được nâng cho mỗi môn học, và kết quả được trình bày qua Biểu đồ 3. Biểu đồ này tiết lộ cho chúng ta biết các môn được nâng điểm là toán (điểm nâng trung bình 4.1), lí (4.4), ngoại ngữ (4.4), và ngạc nhiên thay, môn sử (4.7). Các môn khác, đặc biệt là môn Văn, thì số điểm được nâng không cao. Biểu đồ này cũng tiết lộ rằng điểm được nâng cũng khá khác nhau giữa các thí sinh. Chỉ có môn Văn và Địa là điểm nâng rất nhất quán, còn các môn khác như Toán, Lí, Hóa, Sinh và đặc biệt là Ngoại ngữ thì điểm được nâng khác biệt rất lớn giữa các thí sinh.
Chúng ta sẽ khai thác sự khác biệt đó qua Biểu đồ 4. Biểu đồ này nhằm trả lời câu hỏi: họ nâng điểm cho những ai? Một cách để trả lời là xem xét mối tương quan giữa điểm thật (chấm lại lần 2, trục hoành) và điểm được nâng (trục tung). Chúng ta dễ dàng thấy có mối tương quan nghịch: thí sinh có điểm càng thấp thì điểm được nâng càng cao. Ví dụ như môn Toán, thí sinh số 14 có điểm thật là 0, nhưng được nâng 9 điểm! Thí sinh 14 này cũng được nâng điểm môn Lí (9 điểm) và môn ngoại ngữ (9 điểm). Riêng môn Văn và Địa thì không có mối liên quan nghịch đảo đó.
Tóm lại, số liệu về danh sách thí sinh Sơn La được nâng điểm cho thấy số điểm được nâng là rất đáng kể (11.5 điểm, cao gần gấp hai lần độ lệch chuẩn). Những môn được nâng điểm cao nhất là Lí, Ngoại ngữ, Toán, và Sử. Thí sinh có điểm thi [thật] càng thấp thì điểm được nâng càng cao, và mối liên quan này đặc biệt hiển nhiên trong 4 môn Toán, Lí, Ngoại ngữ, và Sử. Điều đáng chú ý là hầu hết các thí sinh được nâng điểm đều theo học ngành công an và quân đội, nói lên một đặc điểm của thời thế ngày nay.
Những phân tích này (chỉ chừng 20 phút dùng R) cho thấy hiển thị dữ liệu hay data visualization là một kĩ thuật rất mạnh để hiểu câu chuyện và phát hiện xu hướng.
===
PS: Cuối tháng 5 và đầu tháng 6, ĐH Dược Hà Nội và Viện Y học Đinh Tiên Hoàng sẽ tổ chức 2 lớp học (mỗi lớp 6-7 ngày) về phân tích tiên lượng (predictive modeling) dùng R và cách sọan bài báo khoa học. Tôi, anh Thạch và Bs Đức sẽ phụ trách hai lớp học. Các bạn chờ thông báo để theo học nhé.
"Biểu đồ bánh tằm" thể hiện sự biến chuyển (nâng điểm) cho mỗi thí sinh và mỗi môn học. Đường đậm màu xanh là số trung bình. Môn toán, lí và hóa, nâng điểm với mục tiêu đạt >7.5 điểm.
https://www.nguoiduatin.vn/danh-sach-toan-bo-44-thi-sinh-duoc-nang-diem-thi-o-son-la-a430459.html
R codes
Biểu đồ 1:
p = ggplot(data=hs, aes(x=Score, y=Total, group=1, col=factor(ID))) p = p + geom_line() + geom_point() + facet_wrap(~ID) p + ggtitle("Tổng số điểm cho mỗi thí sinh, chấm lần 1 và lần 2 ") + theme(legend.position="none")
Biểu đồ 2:
p = ggplot(data=hs, aes(x=Total, fill=Score)) p1 = p + geom_histogram(position="dodge") + xlab("Tổng số điểm") + ylab("Số thí sinh") + theme(legend.position="none") p2 = ggplot(data=hs, aes(x=Total, fill=Score, color=Score)) + geom_density(alpha = 0.1) + xlab("Tổng số điểm") + ylab("Xác suất") grid.arrange(p1, p2, ncol=2)
Biểu đồ 3: p = ggplot(data=h1, aes(x=Subject, y=Diff, fill=Subject, col=Subject)) p = p + geom_boxplot(col="black") + geom_jitter(alpha=0.2) p + theme_bw() + theme(legend.position="none") + ggtitle("Khác biệt giữa 2 lần chấm thi")
Biểu đồ 4:
p = ggplot(data=h0, aes(x=Math2, y=dmath, col=Math2)) p = p + geom_point() + xlab("Điểm chấm lần 2") + ylab("Nâng điểm") + theme_bw() + theme(legend.position="none") p1 = p + geom_text(aes(label=id), hjust=0, vjust=0) + ggtitle("Toán") p = ggplot(data=h0, aes(x=Physics2, y=dphysics, col=Physics2)) p = p + geom_point() + xlab("Điểm chấm lần 2") + ylab("Nâng điểm") + theme_bw()+ theme(legend.position="none") p2 = p + geom_text(aes(label=id), hjust=0, vjust=0) + ggtitle("Lí")
Biểu đồ 5: p = ggplot(data=hs, aes(x=Score, y=Math, col=factor(ID), group=factor(ID))) p = p + geom_line() + stat_smooth(aes(group = 1)) p1 = p + ggtitle("Toán") + theme_bw() + theme(legend.position="none") p = ggplot(data=hs, aes(x=Score, y=Physics, col=factor(ID), group=factor(ID))) p = p + geom_line() + stat_smooth(aes(group = 1)) p2 = p + ggtitle("Vật lí") + theme_bw() + theme(legend.position="none")