Giới thiệu sách mới "Mô hình hồi qui và khám phá khoa học"
Tôi rất hân hạnh giới thiệu đến các bạn một cuốn sách mới có tựa đề là "Mô hình hồi qui và khám phá khoa học" (có thể dịch sang tiếng Anh là "Regression models for discoveries") do Nhà xuất bản TPHCM mới xuất bản. Tôi tin rằng các bạn sinh viên, nghiên cứu sinh, nhà nghiên cứu khoa học sẽ tìm thấy ở cuốn sách một số ý tưởng và phương pháp có ích cho việc làm phong phú và nâng cao chất lượng nghiên cứu của các bạn.
Đa số những ai làm nghiên cứu khoa học cũng đều biết đến hay nghe qua mô hình hồi qui tuyến tính. Đó là một mô hình rất phổ biến trong nghiên cứu khoa học, và ý tưởng bắt nguồn từ thế kỉ 19 khi nhà khoa học trứ danh Francis Galton muốn định lượng mối liên quan giữa chiều cao và yếu tố di truyền. Kể từ đó đến nay, mô hình hồi qui tuyến tính đã được phát triển và ứng dụng trong nhiều chuyên ngành khoa học. Trong cuốn sách này, bạn đọc không chỉ học về mô hình hồi qui tuyến tính, mà còn làm quen với những mô hình hồi qui ít được đề cập trong các sách giáo khoa căn bản như mô hình hồi qui logistic, hồi qui Cox, hồi qui nhị phân, hồi qui Poisson, v.v. Mỗi mô hình hồi qui thích hợp cho một tình huống cụ thể, và biết qua những ý tưởng đằng sau của mỗi mô hình giúp cho việc định lượng hoá những câu hỏi nghiên cứu tốt hơn.
Trong thời gian gần đây, những thuật ngữ mới như 'data science' (khoa học dữ liệu), 'machine learning' (máy hoá mô hình), 'artificial intelligence' (trí năng nhân tạo), v.v. xuất hiện ngày càng dày đặc trong thế giới khoa học. Nhưng ít ai biết hay ghi nhận rằng một phần lớn đằng sau các danh từ 'hào nhoáng' đó là các mô hình hồi qui, lí thuyết và phương pháp thống kê học. Tuy nhiên, những cách tiếp cận vừa kể làm cho ứng dụng của các mô hình hồi qui thêm phong phú. Trong sách này, một số mô hình hồi qui cũng được triển khai theo mô thức của machine learning, và bạn đọc sẽ hiểu hơn về các khái niệm như calibration và discrimination.
Cuốn sách bao gồm 23 chương được chia thành 3 phần. Phần 1 bao gồm những vấn đề cơ bản như qui luật xác suất, hiển thị dữ liệu (data visualization), kiểm định giả thuyết và ngôn ngữ R. Phần 2 bao gồm 11 chương liên quan đến mô hình hồi qui tuyến tính, từ ý tưởng, cách ước tính đến các mô hình hồi qui đa thức và hồi qui 'robust'. Phần 3 là những chương viết về các mô hình hồi qui logistic, Cox, Poission, và phân tích sống còn. Mỗi mô hình được minh hoạ bằng một dữ liệu nghiên cứu thực tế cùng các mã máy tính (dùng ngôn ngữ R) để bạn đọc có thể thực hành ngay. Một phần quan trọng trong mỗi chương là hướng dẫn cách diễn giải kết quả phân tích để bạn đọc cảm nhận được ý nghĩa đằng sau của mỗi phương pháp.
Tôi vẫn cho rằng mô hình là một cách suy nghĩ (mà có người gọi là 'tư duy') và đặt câu hỏi. Đó là những suy nghĩ về kiểm định giả thuyết, về lượng giá các mối tương quan, và về dự báo tương lai. Ở cấp độ định tính, chúng ta có thể suy nghĩ về câu hỏi có hay không có mối liên quan. Ở mức độ định lượng, chúng ta quan tâm đến mức độ liên quan là bao nhiêu. Ở mức độ chuyên sâu hơn, chúng ta hỏi mức độ liên quan có độc lập với các yếu tố khác trong qui luật tự nhiên. Các mô hình trình bày trong cuốn sách này giúp cho bạn đọc suy nghĩ và đặt câu hỏi chuyên sâu hơn cách suy nghĩ đơn giản.
Tiêu đề của cuốn sách là khám phá, và tôi nghĩ cần có đôi lời giải thích. Khám phá là niềm hân hoan của người làm khoa học. Thử tưởng tượng sau nhiều năm miệt mài nghiên cứu, bạn tạo ra được một bộ dữ liệu với hàng triệu biến thể gen, và phát hiện được biến thể nào có liên quan đến tuổi thọ phải nói là một khám phá có ý nghĩa. Để đi đến phát hiện đó, các mô hình hồi qui sẽ giúp cho bạn sàng lọc những tín hiệu từ dữ liệu lớn. Các mô hình hồi qui không chỉ là một phương tiện khám phá, mà còn một phương pháp dự báo rất hữu hiệu. Do đó, hiểu được những ý tưởng, và nắm vững những kĩ năng liên quan đến mô hình hồi qui là một nhu cầu không thể thiếu được trong nghiên cứu khoa học.
Tôi nghiệm ra rằng cách học phương pháp mới tốt nhứt là học từ các vấn đề thực tế qua những câu chuyện. Do đó, cuốn sách này được soạn thảo theo phong cách kể chuyện. Những câu chuyện được kể trong sách bao gồm câu chuyện về sự ra đời của ý tưởng tương quan (correlation) và mô hình hồi qui tuyến tính, những câu chuyện đằng sau các công trình nghiên cứu thú vị mà các mô hình hồi qui giúp giải đáp.
Đây là một cuốn sách tôi đã có ý soạn từ lâu, vì qua hàng trăm chương trình tập huấn ở Việt Nam trong thời gian 20 năm qua tôi nhận ra nhu cầu cho một cuốn sách thể loại này. Nhưng mãi đến khi đại dịch Covid-19 xảy ra, và tôi phải làm việc từ nhà, nên mới có thời gian viết cuốn sách. Nhân dịp này tôi trân trọng cảm ơn Tiến sĩ Trần Sơn Thạch (Viện nghiên cứu Garvan, Úc) và Tiến sĩ Hà Tấn Đức (Bệnh viện Đa khoa Trung ương Cần Thơ) đã giúp tôi thực hiện các chương trình tập huấn trong thời gian qua. Tiến sĩ Thạch đã đọc bản thảo đầu tiên và cho nhiều góp ý để cải tiến cuốn sách. Tôi cũng cảm ơn biên tập viên La Lan (Nhà xuất bản Tổng Hợp) đã chịu khó đọc, kiểm tra từng công thức và dàn trang cho cuốn sách. Tuy nhiên, nếu sách có sai sót, và tôi nghĩ chắc chắn có, thì trách nhiệm sau cùng là của tôi. Nếu tìm thấy sai sót, bạn đọc có thể viết email cho tôi để lần sau tái bản hoàn chỉnh hơn. Xin chân thành cám ơn các bạn trước.
Mỗi cuốn sách có thể ví von như là một người bạn thầm lặng. Tôi mong muốn cuốn sách "Mô hình hồi qui và khám phá khoa học" là một người bạn khoa học âm thầm bên cạnh bạn và các nghiên cứu của các bạn, hay nói theo Tiên điền tiên sinh, là mua vui cũng được một vài trống canh.
Có thể xem video giới thiệu tại:
Thông tin về sách:
Nhà xuất bản TPHCM
Số trang: 326 trang, khổ 18 x 25 cm
Giá bán: 150,000 đồng
Có thể mua tại nhiều nhà sách, kể cả trực tuyến và tại:
· Nhà sách Tổng Hợp, 62 Nguyễn Thị Minh Khai, Quận 1, SGN.
· Nhà sách Minh Khai, Quận 1, SGN: http://www.minhkhai.com.vn/store2/index.aspx
· Nhà sách Fahasa, 40 Nguyễn Huệ, Q1, SGN
· https://nxbhcm.com.vn/nha-sach-online
· tiki.vn
· v.v.
Các chủ đề được đề cập trong sách
· Mô hình hồi qui tuyến tính, logistic, binomial, Poission, và Cox
· Mô hình đa thức, spline, và robust regression
· Hồi qui hồi qui logistic đa thức (polytomous logistic regression)
· Hoán chuyển dữ liệu (data transformation)
· Phân chia dữ liệu (data splitting)
· Phương pháp tìm mô hình tối ưu
· Phương pháp calibration, discrimination
· Phương pháp bootstrap, k-fold cross-validation
· LASSO, Ridge, Bayesian Model Averaging
Dữ liệu thực hành có thể download từ trang web sau đây:
Commentaires