25 câu hỏi thú vị cho một cuộc phỏng vấn học máy

Các câu hỏi phỏng vấn học máy có thể hài hước và sâu sắc cùng một lúc?

Nguồn hình ảnh: https://xkcd.com/1838/

Nhiều nhà khoa học dữ liệu nghiên cứu về học máy (ML) chủ yếu theo quan điểm của người thực hành dữ liệu. Do đó, có thể chúng tôi tập trung vào việc tìm hiểu về càng nhiều gói, khung, kỹ thuật mới càng tốt và tập trung ít hơn vào việc kiểm tra sâu sắc các khía cạnh lý thuyết cốt lõi. Và, ở đây định nghĩa của tôi về học máy bao gồm tất cả các học thống kê tiêu chuẩn (nghĩa là nó không chỉ cấu thành học sâu).

Tuy nhiên, thăm dò và suy ngẫm với một số nỗ lực, người ta có thể đưa ra rất nhiều câu hỏi ML tuyệt vời, khi được trả lời và phân tích, có thể tiết lộ những khía cạnh sâu sắc hơn rất đẹp. Về cơ bản, những câu hỏi này có thể giúp chúng ta thoát khỏi đống này được hiển thị ở trên. Chúng tôi chỉ không muốn khuấy động một bộ dữ liệu suốt cả ngày, chúng tôi muốn đi sâu vào các tính chất, sự kỳ quặc và sự phức tạp của các kỹ thuật học máy và nắm lấy chúng

Rốt cuộc, có rất nhiều bài viết trên internet về các câu hỏi phỏng vấn tiêu chuẩn trên máy tính cho học máy. Chúng ta có thể làm ít khác nhau và thú vị?

Tuyên bố miễn trừ trách nhiệm: Tôi chỉ đăng các câu hỏi để suy nghĩ và kích thích thảo luận. Không có câu trả lời làm sẵn được đưa ra. Một số câu hỏi có một gợi ý nhưng thực sự chúng là để thảo luận nhiều hơn là một câu trả lời dứt khoát. Mỗi câu hỏi là giá trị thảo luận chi tiết hơn. Không có câu trả lời được thiết lập. Một số câu hỏi được đặt ra, một số chỉ để cho vui. Chỉ cần tận hưởng :-) Để khởi động, tôi có một meme hài hước được chèn sau mỗi câu hỏi thứ 5

Câu hỏi thú vị

  • Tôi đã xây dựng một mô hình hồi quy tuyến tính cho thấy khoảng tin cậy 95%. Điều đó có nghĩa là có 95% khả năng các hệ số mô hình của tôi là ước tính thực sự của hàm tôi đang cố gắng xấp xỉ? (Gợi ý: Nó thực sự có nghĩa là 95% thời gian)
  • Điểm giống nhau giữa hệ thống tệp Hadoop và thuật toán lân cận k-gần nhất là gì? (Gợi ý: ‘lười biếng)
  • Cấu trúc nào mạnh hơn về mặt biểu cảm (nghĩa là nó có thể biểu diễn một hàm Boolean cụ thể) - một perceptionron một lớp hoặc cây quyết định 2 lớp? (Gợi ý: XOR)
  • Và, cái nào mạnh hơn - cây quyết định 2 lớp hay mạng nơ ron 2 lớp mà không có chức năng kích hoạt? (Gợi ý: phi tuyến tính?)
  • Một mạng lưới thần kinh có thể được sử dụng như một công cụ để giảm kích thước không? Giải thích như thế nào.
  • Mọi người đều ác ý và coi thường thuật ngữ chặn trong mô hình hồi quy tuyến tính. Hãy cho tôi biết một trong những tiện ích của nó. (Gợi ý: tiếng ồn / bộ thu gom rác)
  • Chính quy hóa LASSO làm giảm hệ số về 0 chính xác. Hồi quy sườn giảm chúng xuống giá trị rất nhỏ nhưng khác không. Bạn có thể giải thích sự khác biệt bằng trực giác từ các ô của hai hàm đơn giản | x | và x²? (Gợi ý: Những góc nhọn trong cốt truyện | x |)
  • Hãy để nói rằng bạn không biết bất cứ điều gì về phân phối mà từ đó một bộ dữ liệu (số có giá trị liên tục) xuất hiện và bạn bị cấm cho rằng đó là Gaussian bình thường. Hiển thị bằng các đối số đơn giản nhất có thể là cho dù phân phối thực sự là gì, bạn có thể đảm bảo rằng ~ 89% dữ liệu sẽ nằm trong khoảng +/- 3 độ lệch chuẩn so với giá trị trung bình (Gợi ý: Cố vấn của Markov tựa Ph.D.)
  • Phần lớn các thuật toán học máy liên quan đến một số loại thao tác ma trận như nhân hoặc đảo ngược. Đưa ra một lập luận toán học đơn giản tại sao một phiên bản lô nhỏ của thuật toán ML như vậy có thể tính toán hiệu quả hơn so với đào tạo với tập dữ liệu đầy đủ. (Gợi ý: Độ phức tạp thời gian của phép nhân ma trận)
  • Bạn có nghĩ rằng một chuỗi thời gian là một vấn đề hồi quy tuyến tính thực sự đơn giản chỉ với một biến trả lời và một yếu tố dự báo duy nhất - thời gian? Điều gì có vấn đề với một hồi quy tuyến tính phù hợp (không nhất thiết phải với một thuật ngữ tuyến tính duy nhất mà ngay cả với các thuật ngữ mức độ đa thức) trong trường hợp dữ liệu chuỗi thời gian? (Gợi ý: Quá khứ là một chỉ số của tương lai)
  • Hiển thị bằng lập luận toán học đơn giản rằng việc tìm các cây quyết định tối ưu cho một vấn đề phân loại trong số tất cả các cấu trúc cây có thể, có thể là một vấn đề khó theo cấp số nhân (Gợi ý: Dù sao trong rừng có bao nhiêu cây?)
  • Cả hai cây quyết định và mạng nơ ron sâu đều là phân loại phi tuyến tính, tức là chúng phân tách không gian bằng ranh giới quyết định phức tạp. Tại sao, sau đó, chúng ta dễ dàng hơn nhiều khi trực giác đi theo mô hình cây quyết định so với mạng lưới thần kinh sâu?
  • Tuyên truyền ngược là công việc của học tập sâu. Kể tên một vài kỹ thuật thay thế có thể để huấn luyện một mạng lưới thần kinh mà không cần sử dụng phương pháp truyền ngược. (Gợi ý: Tìm kiếm ngẫu nhiên trên mạng)
  • Hãy nói rằng bạn có hai vấn đề - hồi quy tuyến tính và hồi quy logistic (phân loại). Cái nào trong số chúng có nhiều khả năng được hưởng lợi từ thuật toán nhân ma trận lớn siêu nhanh mới được phát hiện? Tại sao? (Gợi ý: Cái nào có nhiều khả năng sử dụng thao tác ma trận?)
  • Tác động của mối tương quan giữa các yếu tố dự đoán đến phân tích thành phần chính là gì? Làm thế nào bạn có thể giải quyết nó?
  • Bạn được yêu cầu xây dựng một mô hình phân loại về tác động của thiên thạch với Trái đất (dự án quan trọng cho nền văn minh của loài người). Sau khi phân tích sơ bộ, bạn có được độ chính xác 99%. Bạn có nên hạnh phúc? Tại sao không? Bạn có thể làm gì về nó? (Gợi ý: Rare event)
  • Có thể nắm bắt được mối tương quan giữa biến liên tục và biến phân loại? Nếu có, làm thế nào?
  • Nếu bạn đang làm việc với dữ liệu biểu hiện gen, thường có hàng triệu biến dự đoán và chỉ hàng trăm mẫu. Đưa ra lập luận toán học đơn giản tại sao bình phương nhỏ nhất không phải là một lựa chọn tốt cho tình huống như vậy nếu bạn xây dựng mô hình hồi quy. (Gợi ý: Một số đại số ma trận Học)
  • Giải thích tại sao xác thực chéo k-gấp không hoạt động tốt với mô hình chuỗi thời gian. Bạn có thể làm gì về nó? (Gợi ý: Quá khứ ngay lập tức là một chỉ báo gần gũi về tương lai)
  • Lấy mẫu ngẫu nhiên đơn giản của dữ liệu huấn luyện thành tập huấn luyện và xác nhận hoạt động tốt cho bài toán hồi quy. Nhưng điều gì có thể đi sai với phương pháp này cho một vấn đề phân loại? Có thể làm gì về nó? (Gợi ý: Có phải tất cả các lớp phổ biến ở cùng một mức độ?)
  • Cái nào quan trọng hơn với bạn - độ chính xác của mô hình, hay hiệu suất của mô hình?
  • Nếu bạn có thể tận dụng nhiều lõi CPU, bạn có thích thuật toán cây tăng cường hơn một khu rừng ngẫu nhiên không? Tại sao? (Gợi ý: nếu bạn có 10 tay để thực hiện một nhiệm vụ, bạn hãy tận dụng nó)
  • Hãy tưởng tượng tập dữ liệu của bạn được biết là có thể phân tách tuyến tính và bạn phải đảm bảo sự hội tụ và số lần lặp / bước tối đa của thuật toán của bạn (vì lý do tài nguyên tính toán). Bạn sẽ chọn độ dốc gốc trong trường hợp này? Bạn có thể chọn gì? (Gợi ý: Thuật toán đơn giản nào cung cấp đảm bảo cho việc tìm giải pháp?)
  • Hãy để nói rằng bạn có một bộ nhớ / lưu trữ cực kỳ nhỏ. Loại thuật toán nào bạn thích - hồi quy logistic hoặc hàng xóm gần nhất k? Tại sao? (Gợi ý: Độ phức tạp của không gian)
  • Để xây dựng mô hình học máy ban đầu, bạn có 100 điểm dữ liệu và 5 tính năng. Để giảm độ lệch, bạn đã nhân đôi các tính năng để bao gồm thêm 5 biến và thu thập thêm 100 điểm dữ liệu. Giải thích nếu đây là một cách tiếp cận đúng? (Gợi ý: Có một lời nguyền về học máy. Bạn đã nghe về nó chưa?)

Nếu bạn có bất kỳ câu hỏi hoặc ý tưởng ML thú vị nào khác để chia sẻ, vui lòng liên hệ với tác giả ở đây. Những câu hỏi hay rất khó để tạo ra và chúng làm nảy sinh sự tò mò và buộc người ta phải suy nghĩ sâu sắc. Bằng cách đặt câu hỏi hài hước và thú vị, bạn làm cho trải nghiệm học tập trở nên thú vị và phong phú cùng một lúc. Hy vọng bạn thích nỗ lực này để làm điều đó.