top of page

Giới thiệu sách về R

Nhiều bạn đọc hỏi tôi cuốn "Phân tích dữ liệu với R" và "Phân tích dữ liệu với R: Hỏi và Đáp" có gì khác nhau. Tôi xin trả lời ngay là rất khác nhau. Như tựa đề sách hàm ý, cuốn thứ hai được soạn theo thể 'vấn đáp', còn cuốn thứ nhất được soạn theo kiểu sách giáo khoa. Cả hai cuốn -- theo ý tôi -- đều có ích cho các bạn đang làm nghiên cứu khoa học và phân tích dữ liệu từ những nghiên cứu khoa học.

1.

Cuốn "Phân tích dữ liệu khoa học với R" được soạn từ những năm 2000; sau này được soạn lại và do Nhà xuất bản Tổng Hợp ấn hành vào năm 2014. ‘Lịch sử’ cuốn sách đó khởi đầu từ một chương trình workshop ở Khoa Hoá, Đại học Bách Khoa SG với Nguyễn Hoàng Dũng (bây giờ chắc là giáo sư rồi) từ những năm cuối thể kỉ 20 (nói vậy cho … xưa). Sau vài workshop như vậy, tôi tự hỏi sao mình không soạn một cuốn sách để nhiều nguời có dịp tiếp xúc và học R. Thế là ngồi xuống viết. Thoạt đầu do Nhà xuất bản gì đó ngoài Bắc ấn hành, nhưng họ không quảng bá và cũng chẳng mặn mà gì, nên ít ai biết đến.

Sau này, tôi soạn hoàn toàn mới, với nội dung nhiều hơn và ví dụ nhiều hơn bản trước. Thật ra, tôi soạn cuốn đó trong những ngày ... dưỡng bệnh ở nhà. Tôi giao cho Nhà xuất bản Tổng Hợp TPHCM ấn hành. Phải nói là tôi đã may mắn chọn đúng nhà xuất bản; dù là của Nhà nước, nhưng các bạn ở đây làm việc rất ư là ‘thị trường’ và đúng cách dân Sài Gòn.

Cuốn sách đó gồm 21 chương (hơn 500 trang), được chia thành 4 phần:

  • Phần đầu giới thiệu về R, cách đọc và biên tập dữ liệu.

  • Phần II là các phương pháp phân tích mô tả, như t-test, Ki bình phương phân tích bằng biểu đồ, và ANOVA.

  • Phần III là các phương pháp trong nhóm 'hồi qui', như linear regression logistic regression, Cox's model, và mixed-effects model.

  • Phần IV là các phương pháp đa biến như factor analysis, principal component analysis, phân tích time series, bootstrap, và meta-analysis.

Mỗi chương có phần giới thiệu tổng quan về lí thuyết, và sau đó là những ví dụ cụ thể để thực hiện các phân tích bằng R. Chẳng hạn như khi bàn về phân tích tổng hợp (meta-analysis), tôi viết đôi ba dòng về lịch sử, và ý tưởng của mô hình phân tích (xem hình) và cách thực hiện bằng R. Ngoài ra, tôi thêm phần phụ lục bao gồm những câu lệnh (R gọi là ‘function’) để các bạn tham khảo. Tôi biết lần đầu học R, chúng ta rất dễ quên lệnh, nên phần phụ lục có thể giúp chúng ta tìm các lệnh một cách nhanh chóng.

Từ những ngày ‘khai phá’ đầu thế kỉ đến nay, Việt Nam đã có một (hay nhiều) cộng đồng sử dụng R. Hình như ngoài Bắc phát triển hơn trong Nam. Nhiều đại học và viện nghiên cứu cũng dùng R để giảng dạy cho sinh viên hay cho nghiên cứu khoa học. Đó là một xu hướng đúng, vì R đã trở thành một loại ngôn ngữ chuẩn trong khoa học thống kê. Có kĩ năng R giúp các bạn tìm việc dễ dàng hơn, và qua đó nâng cao năng lực ‘data analytics’ cho nước nhà.

Tôi nghĩ, cho đến nay, cuốn sách cung cấp tương đối đầy đủ các phương pháp phân tích thống kê cho nghiên cứu khoa học. Rất nhiều bạn đọc trong và ngoài nước cho biết cuốn sách đã giúp họ trong việc học hành và nghiên cứu. Cho đến nay, sách đã được tái bản và in lại 5 lần.

2.

Cuốn "Phân tích dữ liệu với R: Hỏi và Đáp" được soạn từ năm 2016 và xuất bản vào năm 2017. Ý tưởng cho cuốn sách này cũng xuất phát từ những chương trình tập huấn (workshops) về phân tích dữ liệu, mà theo đó, tôi thấy nhiều bạn không có thì giờ để tìm hiểu kĩ và học về R, nhưng họ có nhu cầu giải quyết những vấn đề rất thực tế và phải giải quyết nhanh (không cần học lí thuyết). Chẳng hạn như sau khi làm xong nghiên cứu, bạn muốn biết có mối liên quan giữa biến insulin và biến BMI, và cách thể hiện mối liên quan bằng biểu đồ. Cuốn sách này sẽ giải quyết câu hỏi đó nhanh và gọn.

Do đó, sách được soạn theo hình thức câu hỏi và trả lời. Chẳng hạn như câu hỏi:

Hỏi: Tôi có một dữ liệu gọi là "bone". Tôi muốn thể hiện phân bố của mật độ xương fnbmd bằng biểu đồ hộp, phân chia theo giới tính (sex), nhưng thêm giá trị của mỗi đối tượng.

Đáp: Để giải đáp yêu cầu trên, chúng ta cần phải dùng package "ggplot2":

library(ggplot2)

p = ggplot(bone, aes(x=sex, y=fnbmd, fill=sex))

p = p + geom_boxplot(aes(fill=sex), alpha=1)

p = p + geom_jitter(aes(color=sex, outlier.colour="red"), size=1.5, alpha=0.5)

Có thể thay đổi giá trị alpha từ 0.1 đến 0.9 và kích thước size = 0.5 đến 1.5 chúng ta sẽ có biểu đồ khác.

Cuốn này bao gồm 18 chương (cũng hơn 500 trang) và cũng chia nội dung theo mô hình cuốn đầu tiên. Tuy nhiên, tôi có thêm 3 chương liên quan đến các phương pháp dịch tễ học, ước tính cỡ mẫu cho nghiên cứu khoa học, và những sai sót phổ biến trong phân tích dữ liệu. Cuốn này cũng đã in lại 3 lần.

Do đó, hai cuốn về R có nội dung rất khác nhau, dù tựa đề thì chỉ khác ở phần tiêu đề. Tôi tin rằng đối với các bạn cần học thống kê như là một môn học ứng dụng cho nghiên cứu khoa học, hai cuốn sách này khá đầy đủ cho nhu cầu căn bản của các bạn. Thật ra, một số chủ đề không hẳn là cơ bản, nhưng tôi cố gắng dùng ngôn ngữ dễ hiểu để các bạn cảm thấy thống kê học gần gũi, chứ không xa lạ như nhiều người nghĩa.

Ngoài ra, các bạn có thể tham khảo hơn 50 bài giảng tôi đã tải lên youtube để học kèm theo hai cuốn sách. Địa chỉ của các bài giảng là:

Featured Posts
Recent Posts
Archive
Search By Tags
Follow Us
  • Facebook Basic Square
  • Twitter Basic Square
  • Google+ Basic Square

Opinions expressed are my own and not the views of my employers

© 2018 Tuan V Nguyen

  • RG
  • Twitter Social Icon
  • LinkedIn Social Icon
bottom of page