Mục lục bài viết
Việc học nghề data scientist đòi hỏi học viên phải biết cách học, và có định hướng đúng để phát triển chuyên môn. Dưới đây là 5 lời khuyên hữu ích dành cho người mới nhập môn khoa học dữ liệu.
1. Học hỏi từ các chuyên gia.
“Bạn sẽ không sống đủ lâu để tự mình có thể biết hết mọi thứ.” – Brian Tracy.
Có rất nhiều cách để học khoa học dữ liệu. Bạn có thể đọc các bài báo, xem video, đăng ký các khóa học trực tuyến, tham dự hội thảo, vv. Nhưng có một điều mà bạn khó có thể học được: đó là KINH NGHIỆM. Đây là thứ chỉ có thể có được trong suốt nhiều năm làm việc trong lĩnh vực này.
Có nhiều điều để học hỏi từ các chuyên gia khoa học dữ liệu, kinh nghiệm của họ trong việc quản lý các dự án Machine learning và deep learning, triết lý của họ khi xây dựng một nhóm khoa học dữ liệu từ đầu, và sự kiên trì và nghiêm túc của họ trong việc quản lý các dự án khó khăn và vượt qua các rào cản, vv. – tất cả những điều này không thể học được trong bất kỳ khóa học nào, chỉ có thể trải nghiệm mới có được.
2. Biết đặt câu hỏi đúng.
“Nếu tôi có một giờ để giải quyết vấn đề, tôi sẽ dành 55 phút để xác định các câu hỏi thích hợp, vì một khi tôi biết câu hỏi thích hợp, tôi có thể giải quyết vấn đề trong vòng chưa đầy 5 phút.” – Albert Einstein.

Các nhà khoa học dữ liệu phải đặt ra rất nhiều câu hỏi khác nhau để tạo ra một hiệu quả nào đó mà doanh nghiệp muốn. Và nó không chỉ là bất kỳ câu hỏi nào, chúng phải là những câu hỏi đúng. Mục tiêu chính của việc đặt câu hỏi là xác định chính xác vấn đề cần giải quyết.
Nói cách khác, xác định được yêu cầu là bước đầu tiên mà các nhà khoa học dữ liệu thực hiện khi giải quyết vấn đề. Khi bạn bắt đầu đặt câu hỏi, nó sẽ sớm trở thành thói quen và bạn sẽ khám phá ra giá trị của nó; bạn sẽ có thể tự hỏi mình những câu hỏi hay hơn khi có nhiều kinh nghiệm hơn.
3. Nắm vững nghệ thuật kể chuyện bằng dữ liệu.
“Kể chuyện là một nghệ thuật nguyên thủy lâu đời như sự khởi đầu của loài người. Mọi người đều muốn tiếp nhận thông tin dưới dạng một câu chuyện kể, chứ không chỉ đơn thuần là một sự kiện, một quan điểm, hay một bài phân tích.” – Lee Gutkind.
Một câu chuyện tuyệt vời có chi tiết rõ ràng và trực quan. Dữ liệu chỉ là một đống lộn xộn và không có cấu trúc cho đến khi chúng vào tay một nhà khoa học dữ liệu. Và cái nhìn sâu sắc được trích dẫn phải giải thích được những gì đã xảy ra, tại sao nó quan trọng, và làm thế nào những kiến thức này có thể được chuyển đổi thành thực tế.
“Trực quan hóa dữ liệu” có nghĩa là sử dụng dữ liệu, số liệu thống kê, và kỹ năng lập trình để đưa ra các mô hình, chứng minh lý thuyết, đưa ra kết luận, và cuối cùng là giúp đưa ra những quyết định đúng. Câu chuyện dựa trên dữ liệu có lợi đáng kể cho cả các bên liên quan cũng như khách hàng.
Hãy bắt đầu với câu hỏi: Tập dữ liệu nào là quan trọng nhất? Vì có vô số dữ liệu nên việc sàng lọc những dữ liệu quan trọng là vấn đề then chốt. Tiếp theo là đọc dữ liệu và tìm ra cách sử dụng nó để biết đâu là đối tượng của bạn. (xem thêm trên Forbes.com)
4. Học thống kê đúng cách.

Thống kê là nghệ thuật kết nối các con số với những câu hỏi để các câu trả lời tự hiện ra! Mục tiêu của thống kê là thiết lập các kết nối định lượng cho phần lớn các câu hỏi định tính. Người ta nói rằng: Nhà khoa học dữ liệu là một người biết nhiều số liệu thống kê hơn một lập trình viên, và lập trình nhiều hơn một nhà thống kê.
Thống kê không dễ và có thể khó nuốt đối với người mới bắt đầu. Do đó, cách đúng đắn để tìm hiểu số liệu thống kê sẽ là bắt đầu với cuốn sách ThinkStats, vì nên hiểu rằng số liệu thống kê là các tác phẩm nghệ thuật của những người làm sáng tỏ bí mật ẩn giấu trong bộ dữ liệu. Sau khi có khái niệm về số liệu thống kê là gì, hãy chuyển sang phần lập trình thống kê bằng Python.
5. Học Python.
Python được cho là ngôn ngữ lập trình phổ biến nhất trong thế giới khoa học dữ liệu đang bùng nổ. Tại sao? Vì Python là một ngôn ngữ lập trình dễ học với một cộng đồng tích cực. Nó cũng có vô số thư viện và tài nguyên khiến nó trở thành ngôn ngữ tinh túy cho người mới bắt đầu.
48% các nhà khoa học dữ liệu với năm năm kinh nghiệm hoặc ít hơn, đánh giá Python là ngôn ngữ lập trình ưa thích của họ. Để bắt đầu sử dụng Python đúng cách, hãy bắt đầu bằng cách học những điều cơ bản, sau đó chuyển sang trực quan hóa dữ liệu với Matplotlib, Pandas, thống kê và Scikit-learn – các thư viện Machine Learning phổ biến nhất trong Python.
Bạn có thể bắt đầu với khóa học chuyên môn Python cho mọi người tại Coursera. Khóa học này rất thích hợp cho người mới bắt đầu, và Charles Russell Severance là một giáo viên tuyệt vời.
Nếu bạn nghĩ mình đã chinh phục được những khái niệm cơ bản của Python, hãy chuyển sang Khoa học dữ liệu ứng dụng với Chuyên ngành Python, khoá học này hướng dẫn bạn cách áp dụng thống kê, machine learning, trực quan hóa thông tin, phân tích văn bản và kỹ thuật phân tích mạng xã hội thông qua các công cụ python phổ biến như như Pandas, Matplotlib, Scikit-learn, nltk và networkx để hiểu rõ hơn về dữ liệu.
(Theo Medium)