Một cái nhìn kỹ thuật về cách bọn tội phạm sử dụng AI

Học máy là một trong những tính năng mới thú vị nhất được sử dụng trong công nghệ hiện nay. Tuy nhiên, nó chắc chắn cũng gây tranh cãi. Hiện tại, cuộc tranh cãi này không thực sự đến từ viễn cảnh robot siêu thông minh chiếm lĩnh đáng kể loài người; thay vào đó, nó bởi vì công nghệ mạnh mẽ như thế này có thể được sử dụng một cách tiêu cực bởi bọn tội phạm, vì nó có thể được sử dụng tích cực bởi những người có ý định tốt. Trong phần này, tôi muốn khám phá mặt tối hơn: cách bọn tội phạm sử dụng AI bất hợp pháp.

Trước khi máy tính có khả năng giải quyết các vấn đề heuristic, nhiều hệ thống bảo mật đã được thiết kế với nguyên tắc điều này sẽ thay đổi. Ý tưởng rằng một máy tính có thể đoán mật khẩu, đọc Captcha đồ ​​họa hoặc tìm hiểu cách hành xử giao thông thực sự đơn giản không được xem xét. Bây giờ, chúng ta bị bao vây bởi bảo mật đã bị AI đẩy ra khỏi ngày.

Captchas và phân loại hình ảnh

Có rất nhiều, rất nhiều lần một hệ thống sẽ cần xác nhận rằng người dùng thực sự là một con người. Điều này là do tất cả các chức năng mà một máy tính cung cấp cho con người cũng có thể được sử dụng hoặc mô phỏng bởi một chương trình máy tính. Nếu bạn cố đăng nhập vào Facebook hơn ba lần, bạn sẽ nhận thấy Facebook yêu cầu xác nhận bạn là con người chứ không phải chương trình máy tính cố gắng nhập hàng triệu mật khẩu mỗi giây. Cách Facebook và nhiều dịch vụ thực hiện việc này là thông qua phương thức captcha:

Trong nhiều năm, các chương trình này tách thành công khỏi con người, cho đến khi AI xuất hiện. Bây giờ, các mạng nơ ron tích chập cơ bản có thể được sử dụng, trong đó một bộ dữ liệu hình ảnh captcha khổng lồ được sử dụng. Mỗi captcha có một mục tiêu được chỉ định và sau khi huấn luyện một mạng lưới, họ có thể tìm ra các captcha được đề xuất trong tương lai. Đây là một ví dụ tầm thường hơn, trong đó các nguyên tắc cơ bản của mạng lưới thần kinh là tất cả những gì mà LỚN yêu cầu. Bây giờ captcha có thể được bỏ qua, các cuộc tấn công vũ phu là có thể hơn nhiều. Bạn cũng có thể bắt gặp trên mạng, chọn tất cả các hình ảnh có chứa một loại hình xác thực bus bus, điều này cũng dễ dàng để AI vượt qua. Chúng ta đều biết khả năng phát hiện đối tượng tuyệt vời như thế nào - Google ngay cả khi nó tích hợp vào công cụ tìm kiếm của họ như một tính năng rất cơ bản và thành công.

Mật khẩu với các mạng đối nghịch chung

Rất ít người trong chúng ta có mật khẩu giống như thế này: 5f2 # V0 'P? Oz3

Nhiều người trong chúng ta có mật khẩu trông như thế này: Kronenbourg1664

Và phần còn lại của chúng tôi thậm chí có mật khẩu trông như thế này: mật khẩu

Đây vẫn là trường hợp những người theo dõi ví dụ đầu tiên của tôi rất an toàn trước những mật khẩu được đoán, bởi GPU của con người hoặc GPU GTX 1080. Tuy nhiên, mọi người khác đều dễ bị tổn thương. Vì vậy, làm thế nào những mật khẩu có thể được đoán? Đơn giản nhất, chúng ta có thể sử dụng một từ điển và áp dụng từng từ cho một mật khẩu nhập. Chúng tôi có thể thành công với một tỷ lệ rất nhỏ trong những nỗ lực của chúng tôi - vì những người theo gương cuối cùng của tôi. Nếu bạn là một trong những người đó, tôi hoàn toàn tin tưởng bạn sẽ thay đổi mật khẩu vào cuối bài viết này.

Bây giờ, hãy để Lôi nhìn vào cách tiếp cận hiện đại hơn và thậm chí độc ác hơn (sử dụng AI, rõ ràng). Thay vì sử dụng từ điển, các mạng thần kinh được sử dụng để tạo ra một danh sách lớn các mật khẩu có khả năng. Đây là danh sách mà sử dụng để áp dụng cho một hình thức xác thực. Lấy từ PassGAN: Cách tiếp cận học tập sâu để đoán mật khẩu, đây là cách danh sách đó có thể được tạo ra:

Nếu bạn quen thuộc với các mạng thần kinh (mà tôi nên đề cập đến, khá quan trọng đối với một vài đoạn sau), điều này vẫn có thể trông bất thường. Thay vì chỉ dự đoán một mục dựa trên đầu vào, chúng tôi đang học từ dữ liệu và sau đó dạy một trình tạo để tạo ra một số ví dụ khác. Điều này được gọi là một mạng đối nghịch thế hệ, trong đó hai mạng thần kinh được sử dụng; một để phân biệt các đầu vào đúng và không chính xác, và sau đó một đầu vào học từ đó để tạo ra dữ liệu chính xác mới thông qua nhiễu ngẫu nhiên.

Đầu tiên, chúng tôi sử dụng một bộ dữ liệu hiện có chứa mật khẩu thật của con người, có lẽ từ vụ rò rỉ mật khẩu lịch sử đã được cung cấp. Chúng sẽ cùng nhau chứng minh mật khẩu của con người trông như thế nào (một vài chữ in hoa, ngày tháng, số ngẫu nhiên, tên, v.v.).

Thứ hai, chúng tôi sử dụng một bộ tạo tiếng ồn (G) mà (lúc đầu) sẽ xuất dữ liệu ngẫu nhiên. Hai đầu vào có thể này (mật khẩu giả và mật khẩu thật), là đầu vào của mạng thần kinh (hoặc Discriminator D). Các mục tiêu được thiết kế như đầu ra nhị phân đơn giản. Điều này có nghĩa là trong quá trình đào tạo, mạng lưới thần kinh được thông báo liệu mật khẩu được nhập là giả hay thật. Trên mỗi lần chuyển tiếp, giá trị đầu ra được tạo ra sau đó được so sánh với giá trị đích (sự thật) và sau đó được truyền lại để điều chỉnh giá trị trọng số dựa trên biên sai số. Trình tạo cũng bị ảnh hưởng bởi điều này, vì tiếng ồn đầu vào ngẫu nhiên của nó sẽ bắt đầu tối ưu hóa gần hơn với đầu ra mật khẩu.

Khi Trình tạo được thay đổi, bất kỳ tiếng ồn nào nữa được đưa vào mạng sẽ dẫn đến các chuỗi trông giống như mật khẩu. Vì vậy, nếu chúng ta để nó chạy trong vài giờ, chúng ta có thể biên dịch một danh sách lớn các mật khẩu được biên dịch thông minh.

Lừa đảo

Lừa đảo là một hình thức hack rất phổ biến. Bạn đã bao giờ nhận được một email không giống như vậy, nhưng tuyên bố đó là ngân hàng, dịch vụ điện thoại hoặc nền tảng truyền thông xã hội của bạn? Bất kỳ lập trình viên mới làm quen, biết một chút HTML kết hợp với chỉ một cú chạm mã phụ trợ như PHP có thể loại bỏ mã này. Nó liên quan đến việc gửi một email được thiết kế trực quan để trông giống như Facebook, và sử dụng ngôn ngữ chính thức tương tự. Nó sẽ yêu cầu bạn cần cập nhật, xem hoặc thay đổi một cái gì đó và yêu cầu chi tiết đăng nhập của bạn để làm như vậy. Bất cứ thứ gì bạn gõ vào sẽ được gửi đến máy chủ hình sự. Dù sao, làm thế nào AI đi vào điều này?

Học máy có thể cải thiện việc lừa đảo, bằng cách thu thập dữ liệu bất kỳ nền tảng nào, học cách chúng nhìn và giao tiếp ngôn ngữ, sau đó tạo ra hàng loạt email giả dựa trên các quan sát nhất định được gửi tự động trên quy mô lớn. Tuy nhiên, đây không phải là cách duy nhất. Tin tặc cũng có thể sử dụng cùng một hiệu trưởng được mô tả trước đó để đoán mật khẩu, để đoán địa chỉ email. Hàng triệu địa chỉ email có thể được tạo ra, điều này làm tăng cơ hội tìm thấy những người cả tin về mặt kỹ thuật.

Nhiều dịch vụ email, cụ thể là Gmail, có các hệ thống tiên tiến để phát hiện email lừa đảo, tuy nhiên, học máy có thể được sử dụng để tạo email không bị các hệ thống này phát hiện. Tập huấn luyện sẽ là một tập hợp các email, một số trong đó không đến được với người dùng do phát hiện lừa đảo và những người khác đã thành công. một mạng lưới thần kinh có thể tìm hiểu cách phát hiện lừa đảo, bằng cách hiểu cái nào bị bắt và cái nào không. Trong tương lai, email có thể được tạo dựa trên các quy tắc không bị phát hiện bởi phát hiện lừa đảo, xem tại đây để tham khảo.

Phần kết luận

Thứ nhất, đây chỉ là ba trường hợp. Đáng lo ngại, có rất nhiều trong các lĩnh vực khác như quảng cáo lừa đảo, mô phỏng lưu lượng giả, và nhiều hơn nữa. Tuy nhiên, tôi thích nghĩ rằng việc sử dụng AI trong thế giới pháp lý rất nhiều so với thế giới tội phạm. Trớ trêu thay, AI đang được sử dụng để phát hiện hoạt động tội phạm theo nhiều cách đáng kinh ngạc từ chính sách đường phố, đến lừa đảo trực tuyến. Để kết luận, vui lòng thay đổi mật khẩu của bạn nếu một mạng đối nghịch chung có thể đoán được nó; vui lòng không theo bất kỳ liên kết nào được gửi cho bạn trừ khi bạn đã kiểm tra lại nhận dạng người gửi; và cuối cùng, đừng tự mình sử dụng bất kỳ kỹ thuật nào trong số này để vi phạm pháp luật!

- - - - - - - - - - - - - - - - - -

Đọc thêm các bài báo khoa học dữ liệu trên OpenDataScience.com, bao gồm các hướng dẫn và hướng dẫn từ cấp độ sơ cấp đến nâng cao! Theo dõi bản tin hàng tuần của chúng tôi ở đây và nhận tin tức mới nhất mỗi thứ Năm.