12 điều tôi ước tôi đã biết trước khi bắt đầu làm Nhà khoa học dữ liệu

Tôi đã là một nhà khoa học dữ liệu trong hơn ba năm. Tôi được yêu cầu tư vấn về lĩnh vực này từ các sinh viên, vì vậy đây là một vài suy nghĩ của tôi. Đầu tiên, tôi sẽ liệt kê một vài điều tôi ước tôi được biết khi tôi tham gia vào lĩnh vực này, và thứ hai, lời khuyên tiêu chuẩn của tôi dành cho sinh viên muốn trở thành nhà khoa học dữ liệu sau khi tốt nghiệp.

Điều tôi ước tôi đã biết về Khoa học dữ liệu

Quá nhiều công cụ để lo lắng, rất ít bạn thực sự sử dụng

Khoa học dữ liệu là một thuật ngữ mơ hồ, vì vậy hãy đối xử với nó một cách phù hợp

Khoa học dữ liệu có thể bao gồm hầu như bất kỳ công việc định lượng. Hai nhà khoa học dữ liệu tại các công ty khác nhau, hoặc thậm chí trong cùng một công ty, có thể thực hiện các loại công việc hoàn toàn khác nhau. Lĩnh vực này đã dần dần được chia thành các chức danh công việc cụ thể hơn, chẳng hạn như kỹ sư dữ liệu, phân tích dữ liệu, kỹ sư máy học, v.v. Quá trình chuyên môn hóa này chắc chắn sẽ tăng tốc trong tương lai. Do đó, khi bạn nói về khoa học dữ liệu hoặc áp dụng vào công việc, hãy cố gắng tìm hiểu định nghĩa cụ thể liên quan đến khoa học dữ liệu là gì cho tình huống đó và đảm bảo rằng nó phù hợp với bạn. Cụ thể, nó rất hữu ích để tìm hiểu những gì có thể cung cấp trong một vai trò khoa học dữ liệu cụ thể. Bạn sẽ cần phải viết mã sống trong một hệ thống sản xuất? Bạn sẽ cần phải tạo đường ống dữ liệu? Bạn sẽ tạo ra các phân tích dữ liệu ngoại tuyến, và nếu vậy, loại phân tích nào? Tìm hiểu những gì công việc mà bạn có thể chịu trách nhiệm thường tốt hơn là đọc các mô tả công việc thực tế, vì các mô tả công việc có xu hướng được viết để thu hút một loạt các ứng cử viên cho một vai trò thay vì thực sự chi tiết những gì công việc sẽ đòi hỏi.

Hội chứng kẻ mạo danh là một phần bình thường của công việc

Mỗi nhà khoa học dữ liệu trải qua hội chứng kẻ mạo danh. Tôi đã thấy rằng một phần có ý nghĩa của công việc là điều hướng nó. Luôn luôn có những điều bạn không biết. Như đã đề cập ở trên, lĩnh vực này được xác định kém, do đó, có một số lượng lớn các chủ đề có thể hình dung theo định nghĩa của "khoa học dữ liệu". Nếu bạn đọc blog hoặc Quora, nó có cảm giác như bạn cần phải là đẳng cấp thế giới ở mọi kỹ năng để trở thành một nhà khoa học dữ liệu: một nhà thống kê tiến sĩ Stanford, một kỹ sư tầm cỡ của Google và một chuyên gia kinh doanh cấp McKinsey, tất cả được gói gọn trong một. Thực tế là không ai hoàn hảo ở tất cả mọi thứ. Ngay cả khi bạn bằng cách nào đó hoàn hảo một cách kỳ diệu ở mọi kỹ năng, bạn sẽ chỉ sử dụng một tập hợp con các kỹ năng đó cho mỗi dự án và bạn đã mất tập luyện với những kỹ năng bạn đã sử dụng. Tất cả những gì bạn cần làm để trở thành một nhà khoa học dữ liệu giỏi là tìm cách sử dụng dữ liệu trở nên hữu ích. Có rất nhiều cách khác nhau để làm điều đó. Đôi khi nó cảm thấy tốt khi cảm thấy hội chứng kẻ mạo danh. Chỉ cần biết nó bình thường, và don Hãy để nó làm bạn thất vọng. Thay vào đó, hãy cố gắng nắm lấy những tình huống mà bạn có điều gì đó mới mẻ để học hỏi như những cơ hội phát triển thú vị, và hãy nhớ giữ cảm giác đó trong lần tới khi bạn gặp một người khác không biết bạn làm gì.

Bạn không bao giờ phải biết tất cả các công cụ

Hadoop, Spark, Sợi, Julia, Kafka, Airflow, Scalding, Redshift, Hive, TensorFlow, Kubernetes, có một số ngôn ngữ, khung và công cụ mã hóa khoa học dữ liệu dường như không có hồi kết. Khi bạn thiên đường làm việc tại một công việc khoa học dữ liệu trước đây, có cảm giác như bạn phải biết tất cả họ để trở thành một nhà khoa học dữ liệu thực sự. Mỗi lần tôi nghe ai đó nhắc đến một công cụ mà tôi không biết trong cuộc trò chuyện, tôi thường âm thầm phát cuồng trong nội bộ và ghi chú tinh thần để tìm một lớp Coursera về chủ đề tôi có thể làm nũng, stat. May mắn thay, bạn có thể yên tâm bỏ qua 99% các công cụ khoa học dữ liệu ngoài kia. Cuối cùng, công ty của bạn sẽ có bộ công cụ riêng. Mọi người trong công ty sẽ giỏi sử dụng những công cụ đó và hoàn toàn không biết gì về hầu hết những công cụ khác. Thêm vào đó, không có công ty tốt nào quan tâm nếu bạn đã sử dụng bộ công cụ cụ thể của họ trước đây. Trừ khi bạn có một vai trò thực sự chuyên biệt, họ sẽ mong bạn có thể học được công việc của họ trong công việc. Bạn chỉ cần biết đủ để vượt qua một cuộc phỏng vấn. Chọn một bộ công cụ nhỏ phù hợp với bạn. Hãy thoải mái với họ, và đừng lo lắng về việc phân nhánh quá nhiều cho đến khi bạn làm việc.

Tuy nhiên, học tốt các công cụ cơ bản của bạn

Bạn không cần phải biết mọi công cụ, nhưng bạn nên tìm hiểu sâu về các công cụ cơ bản bạn sử dụng hàng ngày. Bạn không bao giờ hối tiếc khi học các phần nhàm chán của bất kỳ phương ngữ SQL nào mà công ty bạn sử dụng, như cách viết một truy vấn được tối ưu hóa. Nếu bạn sử dụng R, hãy tìm hiểu các phần mở rộng của ggplot2 và dplyr. Nếu bạn sử dụng Python, hãy cố gắng thực sự hiểu gấu trúc, numpy và scipy. Tôi giả vờ biết git trong nhiều tháng, nhưng luôn bị trói buộc trong git-knots. Cuối cùng, tôi đã phá vỡ và đọc một hướng dẫn tuyệt vời về công cụ. Sau đó, tôi cảm thấy git-invincible. Nếu bạn thấy mình sử dụng một cái gì đó thường xuyên, hãy dành chút thời gian để đọc hướng dẫn sử dụng.

Bạn là một chuyên gia trong một lĩnh vực, không chỉ là phương pháp

Khoa học dữ liệu ra đời như một sự thỏa hiệp giữa vai trò khoa học nghiên cứu và vai trò phân tích kinh doanh. Cái trước sử dụng các phương thức mạnh mẽ nhưng chỉ ảnh hưởng gián tiếp đến các quyết định kinh doanh trong khi cái sau ảnh hưởng trực tiếp đến các chủ doanh nghiệp nhưng sử dụng các công cụ hạn chế để làm như vậy. Các nhà khoa học dữ liệu tạo ra tác động lớn nhất khi họ kết hợp cả hai mặt lại với nhau, pha trộn kiến ​​thức miền sâu với các công cụ thống kê và kỹ thuật phù hợp để đưa ra quyết định tốt hơn hoặc các sản phẩm dữ liệu hữu ích.

Theo kinh nghiệm của tôi, hầu hết các nhà khoa học dữ liệu nghiêng quá xa về hướng nhà khoa học nghiên cứu và không đủ xa để đi theo con đường phân tích kinh doanh. Họ thích sử dụng các kỹ thuật ưa thích, nhưng họ không đầu tư vào việc tìm hiểu về tên miền của họ. Họ đi đến các hội nghị học máy, nhưng hiếm khi tham dự các hội nghị về, nói, tiếp thị hoặc rủi ro. Nhiều nhà khoa học dữ liệu don lồng thậm chí nhận ra rằng họ có một miền. Bất kỳ nhóm nào có kiến ​​thức tích lũy về những gì hoạt động và không có kiến ​​thức về miền và bạn có thể tìm hiểu về nó từ các đối tác kinh doanh của mình hoặc bằng cách nói chuyện với các nhóm tương tự tại các công ty khác. Biết tên miền của bạn là một nửa trận chiến, vì vậy hãy đầu tư thời gian ở đó, giống như bạn làm cho kỹ năng cứng của mình.

Kỹ năng quan trọng nhất là tư duy phản biện

Một phần lớn của bất kỳ công việc kiến ​​thức nào là xác định những gì quan trọng và những gì không. Bạn có thể thực hiện phân tích hoàn hảo, nhưng nếu hóa ra bạn đang giải quyết vấn đề sai hoặc cái nhìn sâu sắc của bạn không thể hành động được, thì nó đã thắng vấn đề. Nó có giá trị tích cực dành thời gian suy nghĩ về bối cảnh rộng lớn hơn của công việc của bạn. Những thách thức quan trọng nhất trong nhóm của bạn là gì, và tại sao? Lộ trình hiện tại của bạn là cách tốt nhất để giúp nhóm của bạn, hay bạn nên thay đổi kế hoạch của mình? Các câu trả lời cho những câu hỏi này có thể thay đổi theo thời gian, vì vậy, điều quan trọng là phải kiểm tra thường xuyên. Tôi đã thấy rất nhiều nhà khoa học dữ liệu diễu hành trên một con đường quá lâu chỉ vì quán tính.

Làm gì khi là sinh viên để trở thành Nhà khoa học dữ liệu

Tham gia các lớp học liên quan - không chỉ các lớp kỹ thuật

Tất nhiên, các lớp thống kê và khoa học máy tính sẽ hữu ích trong công việc. Tuy nhiên, rất nhiều lớp học có thể hữu ích. Bất cứ điều gì khiến bạn thực hành suy nghĩ nghiêm túc và đưa ra các lập luận bằng văn bản, chẳng hạn như triết học, lịch sử hoặc tiếng Anh, đều có thể hữu ích, vì điều đó rất nhiều những gì bạn làm trong khoa học dữ liệu. Các môn khoa học xã hội như kinh tế học hoặc tâm lý học định lượng có thể là tuyệt vời để có được kinh nghiệm đưa ra những suy luận nguyên nhân. Một lớp học mà tôi nghĩ lại thường là lớp nói thuyết phục mà tôi đã tham gia, mà tôi thường xuyên gọi trong công việc của mình. Hãy chia sẻ công bằng các lớp học kỹ thuật, nhưng học rộng và làm theo sở thích của bạn. Chiến lược của tôi là luôn đi cùng với các giáo sư vĩ đại về giáo trình tuyệt vời. Tôi vẫn đề nghị rằng với bất kỳ sinh viên đại học, khoa học dữ liệu hay không.

Thực hành giao tiếp - bằng văn bản, bằng hình ảnh và bằng lời nói

Kỹ năng giao tiếp cực kỳ quan trọng và bị đánh giá thấp trong khoa học dữ liệu. Tác động của bạn chỉ có thể tốt như kỹ năng giao tiếp của bạn vì bạn cần thuyết phục người khác đưa ra quyết định hoặc giúp xây dựng sản phẩm dựa trên các phân tích của bạn. Do đó, rất nhiều nhà khoa học dữ liệu kỹ thuật rất cao Sự nghiệp bị giới hạn bởi vì họ có thể viết hoặc nói rõ ràng. Thực hành - trong cả ba hình thức, bằng văn bản, bằng hình ảnh và bằng lời nói - tạo nên sự khác biệt thực sự. Tham gia các lớp học với rất nhiều bài viết, đặc biệt nếu bạn cảm thấy bạn là một nhà văn yếu hoặc tiếng Anh không phải là ngôn ngữ đầu tiên của bạn. Rất nhiều trường có trung tâm viết bài để giúp bạn nhận phản hồi. Đó là một nguồn tài nguyên để tận dụng trong khi bạn có nó.

Làm việc trên các vấn đề dữ liệu thực

Kaggle là tuyệt vời cho việc học về mô hình. Tuy nhiên, với Kaggle, phần khó nhất đã được thực hiện cho bạn: thu thập, làm sạch và xác định vấn đề cần giải quyết với dữ liệu đó. Cách tốt nhất để chuẩn bị cho một công việc là một nhà khoa học dữ liệu là sử dụng dữ liệu thực để trả lời các câu hỏi thực sự. Lý do rất đơn giản: đó là cách gần nhất mà bạn có thể có với một công việc thực tế mà không thực sự có một công việc. Tìm thứ gì đó mà bạn quan tâm và lấy dữ liệu của riêng bạn. Việc loại bỏ dữ liệu khỏi Internet dễ dàng hơn nhiều so với hầu hết những người mới bắt đầu nhận ra với các gói như BeautifulSoup, Scrapy và rvest. Wikipedia và Reddit là những mục tiêu tốt nếu bạn cần nguồn cảm hứng, nhưng sự lựa chọn tốt nhất là thứ mà bạn thực sự hào hứng khám phá. Sau đó, hỏi một số câu hỏi mà bạn quan tâm và xem bạn có thể trả lời chúng tốt như thế nào. Làm sạch dữ liệu, tạo một số biểu đồ và mô hình, sau đó viết kết luận của bạn ở nơi nào đó công khai. Nó sẽ chậm đi ngay từ đầu, nhưng đó là vì bạn học. Nếu bạn có thể, hãy cố gắng giải quyết các vấn đề thực tế cho mọi người trong cộng đồng của bạn, chẳng hạn như làm công việc thống kê cho đội thể thao của trường hoặc phân tích bỏ phiếu cho tờ báo của trường, để thực hành với quản lý các bên liên quan.

Xuất bản công việc của bạn và nhận phản hồi tuy nhiên bạn có thể

Cách duy nhất để cải thiện mọi thứ là nhận phản hồi. Công việc dữ liệu cũng không ngoại lệ. Ngày nay, nó rất dễ dàng để đăng máy tính xách tay lên Github hoặc các trang web cá nhân. Nếu bạn viết về một chủ đề mà bạn bè của bạn quan tâm, bạn có thể học được rất nhiều từ cách họ trả lời. Điều gì đã thuyết phục về bài thuyết trình của bạn? Điều gì không rõ ràng? Bạn có thể thuyết phục họ về lập luận chính của bạn không? Có phải họ đã chán đọc và không đi đến cuối? Điều quan trọng, làm cho mã của bạn có sẵn và cố gắng nhận được đánh giá mã từ các sinh viên khác để bạn có thể làm cho nhau tốt hơn. Nếu bạn sử dụng một kỹ thuật từ một lớp học mà bạn đang tham gia, bạn thậm chí có thể chỉ cho giáo sư những gì bạn đã làm và nhận được một số phản hồi của chuyên gia trong khi thể hiện một số sáng kiến. Và, ai biết được, nếu một trong những phân tích của bạn lan truyền trên Internet, bạn thậm chí có thể kiếm được một công việc từ nó!

Đi đến các sự kiện - hackathons, hội nghị, gặp gỡ

Trong phạm vi địa lý và ngân sách của bạn cho phép, hãy thử tương tác với thế giới khoa học dữ liệu bên ngoài trong khi bạn là một sinh viên. Làm như vậy sẽ giúp bạn hiểu rõ hơn về thực tế của lĩnh vực này và giúp bạn bắt đầu kết nối mạng. Có những cuộc gặp gỡ khoa học dữ liệu và hackathons ở hầu hết các thành phố lớn, và theo kinh nghiệm của tôi, hầu hết mọi người đều rất thân thiện với sinh viên tại đó. Các hội nghị thường có vé giảm giá đáng kể cho sinh viên. Đi với bạn bè cũng có thể làm cho một chuyến đi thực tế vui vẻ cùng nhau!

Hãy linh hoạt với cách bạn tham gia vào lĩnh vực này

Khoa học dữ liệu là một lĩnh vực cạnh tranh. Có một số lượng hạn chế các công ty công nghệ với các thương hiệu khoa học dữ liệu lớn, và cuộc chiến thực tập mùa hè và vai trò cấp độ đầu vào của họ rất khốc liệt. Tuy nhiên, một khi bạn thậm chí có một lượng nhỏ kinh nghiệm làm việc về khoa học dữ liệu thực tế, thì việc kiếm một công việc thứ hai trong lĩnh vực này sẽ dễ dàng hơn nhiều. Các nhà khoa học dữ liệu với một vài năm làm việc, thậm chí từ các công ty ít được biết đến, thường gặp khó khăn khi được tuyển dụng tại các công ty hàng đầu. Do đó, nếu bạn muốn trở thành một nhà khoa học dữ liệu và bạn không nhận được lời đề nghị ngay lập tức từ một trong những công ty nổi tiếng, hãy xem xét mở rộng tìm kiếm việc làm của bạn. Có rất nhiều công ty với những vấn đề thú vị để giải quyết.

Cảm ơn vì đã đọc! Tôi thích nghe suy nghĩ của bạn - mỗi viên đạn phản hồi thu thập ở trên! - vì vậy hãy để lại bình luận bên dưới.