Workshop về "Applied Data Analytics" 23-29/12/2018
Xin thông báo đến các bạn quan tâm một lớp tập huấn (workshop) 7 ngày về "applied data analystics" sẽ được tổ chức tại Trường ĐH Tôn Đức Thắng từ 23/12 đến 29/12. Chương trình năm nay đặc biệt chú trọng đến phần 'predictive analytics' hay phân tích tiên lượng.
Do đó, phần data visualization (hiển thị dữ liệu) và predictive models (mô hình tiên lượng) sẽ được đặt nặng trong các bài giảng và thực hành. Phần bài giảng về biểu đồ có đến 7 bài giảng và rất chi tiết. Phần phát triển mô hình tiên lượng sẽ đi từ các mô hình đơn giản đến các mô hình đa biến. Học viên sẽ học cách diễn giải và đánh giá sự hữu ích của mô hình tiên lượng. Học viên cũng sẽ có dịp học và áp dụng vài mô hình đơn giản để phát hiện gian lận trong kết quả thi cử (như kì thi tốt nghiệp trung học phổ thông vừa qua), để nhận ra những trường hợp bất thường trong bảo hiểm xã hội, v.v.
Đây là lớp học nằm trong ngôn ngữ thời thượng ngày nay là "Data Science", nhưng chúng tôi không gọi bằng những danh từ đó. Một số các bạn trẻ có xu hướng chạy theo những chủ đề "thời thượng" mà không quan tâm đến những vấn đề và phương pháp căn bản. Ở Úc, rất nhiều postdoc sau khi ghi danh học các khoá học về data science và machine learning, nhưng khi về áp dụng thì chẳng đồng nghiệp nào chấp nhận (vì tính "black-box") và nhất là sau khi học xong, họ mới biết thực chất là họ thiếu kĩ năng và kiến thức về thống kê học. Lớp học này sẽ giúp cho học viên có kiến thức và kĩ năng căn bản về thống kê ứng dụng.
Chi tiết về khoá học như sau. Học viên sẽ được cấp chứng chỉ sau khi hoàn tất chương trình học.
====
Thông báo chiêu sinh khóa học chủ đề "Phân tích dữ liệu và ứng dụng"
Chúng tôi hân hạnh thông báo một khóa học 7 ngày với chủ đề "Phân tích dữ liệu và ứng dụng" (Data analytics and applications) do Trường đại học Tôn Đức Thắng tổ chức từ ngày 23/12/2018 đến 29/12/2018. Đây là một khoá học theo hình thức "workshop" được thiết kế nhằm nâng cao kĩ năng phân tích dữ liệu đồng thời giới thiệu những ứng dụng thực tế của việc phân tích dữ liệu cho các sinh viên sau đại học, nghiên cứu sinh và các nhà khoa học.
1. Mục tiêu
Mục tiêu chung của khoá học là tiếp cận các khái niệm, phương pháp phân tích dữ liệu ở trình độ nâng cao. Không chỉ giúp học viên làm quen với cách thu thập dữ liệu và các phương pháp thống kê cơ bản, chúng tôi còn nhấn mạnh đến việc ứng dụng các phương pháp mô hình hoá dữ liệu qua một số ca nghiên cứu cụ thể của chúng tôi và các đồng nghiệp khác. Chúng tôi kì vọng học viên sau khi xong lớp học sẽ:
• Hiểu và dùng ngôn ngữ R cho phân tích dữ liệu; • Hiểu và dùng graphics ở cả trình độ cơ bản và nâng cao; • Biết cách ứng dụng các mô hình thống kê, mô hình hồi qui tuyến tính, hồi qui logistic; • Biết cách đánh giá utility của một mô hình tiên lượng. • Biết về lĩnh vực mô hình tiên lượng.
2. Đối tượng
Lớp học được thiết kế dành cho các sinh viên sau đại học, nghiên cứu sinh, giảng viên, nhà khoa học có nhu cầu phân tích dữ liệu. Tuy nhiên, sinh viên đại học cũng có thể ghi danh để học. Học viên không cần có kiến thức cơ bản về thống kê học và phân tích dữ liệu.
Các bạn sắp làm luận án tiến sĩ, các bạn sắp đi học ở nước ngoài cần phải học về data analytics. Rất rất nhiều các bạn từ VN ra nước ngoài học thua kém người ta cũng chỉ vì không có kĩ năng và kiến thức về data analytics.
3. Địa điểm
Trường đại học Tôn Đức Thắng Số 19, Đường Nguyễn Hữu Thọ, Phường Tân Phong, Quận 7, TP. Hồ Chí Minh.
4. Giảng viên
Giảng viên phụ trách lớp học bao gồm các nhà khoa học thực nghiệm có kinh nghiệm lâu năm về nghiên cứu khoa học và công bố quốc tế: tôi, Ts Trần Sơn Thạch, Bs Hà Tấn Đức, và các bạn bên data science của TDTU. Ngoài ra, có thể có thêm chuyên gia về bioinformatics từ Garvan tham dự.
5. Thời gian
Khóa học sẽ kéo dài 7 ngày từ 23/12/2018 đến 29/12/2018. Vì là khóa học ngắn ngày nên chúng tôi không phân biệt ngày thường và ngày cuối tuần.
Giờ học: Buổi sáng từ 8 đến 11:30; buổi chiều từ 1:30 đến 4:30.
6. Chương trình dự kiến:
23/12/2018 - Chủ đề: Ôn tập về R: trong ngày này, học viên sẽ học/ôn tập về ngôn ngữ R, cú pháp, cách đọc dữ liệu từ đơn giản đến phức tạp.
Bài 1: Giới thiệu về R (Introduction to R language) Bài 2: Cú pháp, input và output (R input/output) Bài 3: Phân tích mô tả dùng R
Bài 4: Cách xử lý tập hợp dữ liệu lớn
24/12/2018 - Chủ đề: Phân tích biểu đồ: học viên sẽ học về package "ggplot2" rất nổi tiếng trên thế giới về cách soạn một biểu đồ thuộc loại "high quality". Đây là một package khó học, nhưng chúng tôi có cách giúp các bạn học nhanh và thiết thực. Chương trình là 4 bài giảng, nhưng trong thực tế là 7. Sợ để nhiều các bạn ngại. :)
Bài 5: Nguyên tắc soạn biểu đồ Bài 6: Phân tích biểu đồ đơn giản Bài 7: Giới thiệu ggplot2 Bài 8: Phân tích biểu đồ với ggplot2
25/12/2018 - Chủ đề: Dự báo bằng mô hình đa biến: ngày này tập trung vào 2 mô hình đa biến đơn giản nhất là discriminant analysis và cluster analysis, và xử lí dữ liệu trống (missing values). Ngoài ra, học viên sẽ học về principal component analysis.
Bài 9: Xử lí giá trị trống Bài 10: Mô hình phân tích phân định tuyến tính (linear discriminant analysis) Bài 11: Mô hình phân tích cụm/nhóm (cluster analysis)
26/12/2018 - Chủ đề: Dự báo bằng mô hình hồi qui tuyến tính: học viên sẽ học về mô hình hồi qui tuyến tính, từ cách xây dựng mô hình đến dự báo. Thường thì giới làm về kinh tế và khoa học xã hội hay quan tâm đến các mô hình này.
Bài 12: Giới thiệu mô hình hồi qui tuyến tính Bài 13: Diễn giải mô hình hồi qui tuyến tính Bài 14: Cách tìm mô hình “tối ưu” Bài 15 Tiên lượng qua mô hình hồi qui đa biến (Prediction in multiple linear regression)
27/12/2018 - Chủ đề: Dự báo bằng mô hình hồi qui logistic: chương trình sẽ tiếp tục với mô hình hồi qui logistic dành cho việc tiên lượng các biến cố / outcome nhị phân. Rất nhiều sách giáo khoa hướng dẫn mô hình này, nhưng không đầy đủ. Lớp học này sẽ giúp học viên cách xây dựng mô hình, đánh giá mô hình, cách tính AUC, so sánh AUC, v.v. Đừng quan tâm đến những chỉ số "accuracy" trong ML vì nó chẳng giúp gì trong thực tế cả.
Bài 16: Giới thiệu mô hình hồi qui logistic và Poisson Bài 17: Mô hình hồi qui logistic đa biến (Multiple logistic regression model) Bài 18: Phương pháp tìm mô hình tối ưu
28/12/2018 - Chủ đề: Dự báo bằng mô hình hồi qui logistic
Bài 19: Tiên lượng bằng mô hình hồi qui logistic Bài 20: Đo lường giá trị tiên lượng của mô hình hồi qui logistic Bài 21: Đánh giá khả năng tiên lượng của mô hình hồi qui logistic
29/12/2018 - Chủ đề: Machine Learning (ML): học viên sẽ làm quen với vài khái niệm và cách tiếp cận ML phổ biến.
Bài 22: Giới thiệu machine learning Bài 23: Mô hình ANN Bài 24: Mô hình SVM Bài 26: Mô hình Random Forest
7. Đăng kí và liên lạc
- Học viên sẽ đăng kí từ ngày ra thông báo đến hết ngày 18/12/2018.
- Lệ phí khóa học: 6 triệu đồng/học viên (bao gồm sách, tài liệu giảng dạy, và teabreak trong suốt 7 ngày học).
Mọi thông tin vui lòng liên hệ: Phòng quản lý phát triển khoa học và công nghệ, Phòng A303, số 19, Đường Nguyễn Hữu Thọ, P. Tân Phong, Q.7, TP. HCM; Điện thoại: (028) 37755 037; Email: demasted@tdtu.edu.vn.
Xin mời các bạn đến với TDTU. Nói ra thì có vẻ quảng cáo (và tôi không thích), nhưng sự thật là TDTU là trường có khuôn viên xanh nhất, sạch nhất, thân thiện với môi trường nhất, và đẹp nhất trong tất cả các đại học ở VN.
Mẫu form đăng kí:
Một con rạch, con kênh, dòng sông (whatever you want to call it) trong khuôn viên ĐH Tôn Đức Thắng. Ban giám đốc dám bỏ ra một mảnh đất trong khu đất vàng (kim cương?) để tạo nên con kênh này là một quyết định táo bạo và rất có ý nghĩa. Không có con kênh này thì ĐH Tôn Đức Thắng chỉ là một trường như mọi trường khác thôi. Con kênh này có thể xem là một signature của TDTU.
ĐH Tôn Đức Thắng, dĩ nhiên, không phải là nơi du lịch hay 'resort', nhưng khuôn viên ở đây còn rất xanh và thân thiện với môi trường. Có lẽ khuôn viên ĐH Tôn Đức Thắng là đẹp nhất và sạch nhất trong tất cả các đại học ở Việt Nam.