6 lĩnh vực AI và học máy để theo dõi chặt chẽ

Để biết thêm tin tức và phân tích AI, đăng ký nhận bản tin của tôi ở đây.

Chắt lọc một định nghĩa được chấp nhận chung về những gì đủ điều kiện là trí tuệ nhân tạo (AI) đã trở thành một chủ đề tranh luận hồi sinh trong thời gian gần đây. Một số người đã đổi thương hiệu AI thành máy tính nhận thức của người Hồi giáo, hay máy tính thông minh, và trong khi những người khác trao đổi không chính xác AI với máy học cách học. Điều này một phần vì AI không phải là một công nghệ. Trên thực tế, đây là một lĩnh vực rộng lớn bao gồm nhiều ngành, từ robot đến học máy. Mục tiêu cuối cùng của AI, hầu hết chúng ta đều khẳng định, là chế tạo những cỗ máy có khả năng thực hiện các nhiệm vụ và chức năng nhận thức mà chỉ khác trong phạm vi trí tuệ của con người. Để đạt được điều đó, các máy phải có khả năng tự động học các khả năng này thay vì phải có từng chương trình được lập trình rõ ràng từ đầu đến cuối.

Thật tuyệt vời khi lĩnh vực AI đã đạt được nhiều tiến bộ trong 10 năm qua, từ những chiếc xe tự lái đến nhận dạng và tổng hợp giọng nói. Trong bối cảnh đó, AI đã trở thành một chủ đề trò chuyện trong ngày càng nhiều công ty và hộ gia đình đến xem AI như một công nghệ cách đây 20 năm, nhưng như một thứ gì đó đang ảnh hưởng đến cuộc sống của họ ngày nay. Thật vậy, báo chí nổi tiếng đưa tin về AI gần như hàng ngày và những người khổng lồ công nghệ, từng người một, nói rõ các chiến lược AI dài hạn đáng kể của họ. Trong khi một số nhà đầu tư và đương nhiệm đang mong muốn hiểu làm thế nào để nắm bắt giá trị trong thế giới mới này, thì phần lớn vẫn đang gãi đầu để tìm hiểu xem điều này có nghĩa là gì. Trong khi đó, các chính phủ đang vật lộn với những hệ lụy của tự động hóa trong xã hội (xem địa chỉ chia tay Obama).

Cho rằng AI sẽ tác động đến toàn bộ nền kinh tế, các tác nhân trong các cuộc trò chuyện này đại diện cho toàn bộ phân phối ý định, mức độ hiểu biết và mức độ kinh nghiệm với việc xây dựng hoặc sử dụng các hệ thống AI. Do đó, nó rất quan trọng cho một cuộc thảo luận về AI - bao gồm các câu hỏi, kết luận và khuyến nghị bắt nguồn từ đó - để có căn cứ về dữ liệu và thực tế, chứ không phải phỏng đoán. Nó rất dễ dàng (và đôi khi thú vị!) Để cực kỳ ngoại suy ý nghĩa của kết quả từ các thông báo báo chí nghiên cứu hoặc công nghệ, bình luận đầu cơ và thí nghiệm suy nghĩ.

Dưới đây là sáu lĩnh vực của AI đặc biệt đáng chú ý về khả năng tác động đến tương lai của các sản phẩm và dịch vụ kỹ thuật số. Tôi mô tả chúng là gì, tại sao chúng quan trọng, làm thế nào chúng được sử dụng ngày nay và bao gồm một danh sách (không có nghĩa là toàn diện) của các công ty và nhà nghiên cứu làm việc trên các công nghệ này.

Đăng ký tại đây để nó rơi thẳng vào hộp thư đến của bạn.

1. Học tăng cường (RL)

RL là một mô hình cho việc học bằng cách thử và sai được lấy cảm hứng từ cách con người học các nhiệm vụ mới. Trong một thiết lập RL điển hình, một tác nhân được giao nhiệm vụ quan sát trạng thái hiện tại của nó trong môi trường kỹ thuật số và thực hiện các hành động tối đa hóa tích lũy của phần thưởng dài hạn mà nó đã được đặt. Tác nhân nhận được phản hồi từ môi trường là kết quả của mỗi hành động để nó biết liệu hành động đó được thúc đẩy hay cản trở tiến trình của nó. Do đó, một tác nhân RL phải cân bằng việc thăm dò môi trường của nó để tìm ra các chiến lược tích lũy phần thưởng tối ưu với việc khai thác chiến lược tốt nhất mà nó đã tìm thấy để đạt được mục tiêu mong muốn. Cách tiếp cận này đã được Google DeepMind phổ biến trong công việc của họ trên các trò chơi Atari và Go. Một ví dụ về RL hoạt động trong thế giới thực là nhiệm vụ tối ưu hóa hiệu quả năng lượng để làm mát các trung tâm dữ liệu của Google. Tại đây, một hệ thống RL đã giảm được 40% chi phí làm mát. Một lợi thế quan trọng của việc sử dụng các tác nhân RL trong các môi trường có thể được mô phỏng (ví dụ: trò chơi video) là dữ liệu đào tạo có thể được tạo trong các lò và với chi phí rất thấp. Điều này trái ngược hoàn toàn với các nhiệm vụ học tập sâu được giám sát, thường yêu cầu dữ liệu đào tạo tốn kém và khó mua từ thế giới thực.

  • Ứng dụng: Nhiều tác nhân học tập trong môi trường của riêng họ với một mô hình được chia sẻ hoặc bằng cách tương tác và học hỏi lẫn nhau trong cùng một môi trường, học cách điều hướng các môi trường 3D như mê cung hoặc đường thành phố để lái xe tự chủ, học ngược lại để học lại các hành vi được quan sát bằng cách học mục tiêu của một nhiệm vụ (ví dụ: học lái xe hoặc ban cho các nhân vật trò chơi video không phải người chơi có hành vi giống con người).
  • Các nhà nghiên cứu chính: Pieter Abbeel (OpenAI), David Silver, Nando de Freitas, Raia Hadsell, Marc Bellemare (Google DeepMind), Carl Rasmussen (Cambridge), Rich Sutton (Alberta), John Shawe-Taylor (UCL) và những người khác.
  • Các công ty: Google DeepMind, Prowler.io, Osaro, MicroPSI, Maluuba / Microsoft, NVIDIA, Mobileye, OpenAI.

2. Mô hình sáng tạo

Trái ngược với các mô hình phân biệt được sử dụng cho các nhiệm vụ phân loại hoặc hồi quy, các mô hình thế hệ học phân phối xác suất qua các ví dụ đào tạo. Bằng cách lấy mẫu từ phân phối chiều cao này, các mô hình thế hệ đưa ra các ví dụ mới tương tự như dữ liệu đào tạo. Điều này có nghĩa là, ví dụ, một mô hình thế hệ được đào tạo trên hình ảnh thực của khuôn mặt có thể tạo ra hình ảnh tổng hợp mới của khuôn mặt tương tự. Để biết thêm chi tiết về cách thức hoạt động của các mô hình này, hãy xem hướng dẫn viết bài Ian Nf 2016 tuyệt vời của Ian Goodfellow. Kiến trúc mà ông giới thiệu, các mạng đối nghịch thế hệ (GANs), hiện đang đặc biệt nóng trong thế giới nghiên cứu vì chúng đưa ra một con đường hướng tới việc học tập không giám sát. Với GAN, có hai mạng thần kinh: máy phát, lấy nhiễu ngẫu nhiên làm đầu vào và được giao nhiệm vụ tổng hợp nội dung (ví dụ: hình ảnh) và phân biệt đối xử, đã tìm hiểu hình ảnh thực trông như thế nào và được giao nhiệm vụ xác định xem hình ảnh có được tạo không bởi máy phát điện là thật hay giả. Huấn luyện nghịch cảnh có thể được coi là một trò chơi trong đó người tạo phải lặp đi lặp lại cách tạo ra hình ảnh từ nhiễu sao cho người phân biệt đối xử không còn có thể phân biệt hình ảnh được tạo với hình ảnh thật. Khung này đang được mở rộng cho nhiều phương thức và nhiệm vụ dữ liệu.

  • Ứng dụng: Mô phỏng tương lai có thể có của một chuỗi thời gian (ví dụ: để lập kế hoạch cho các nhiệm vụ trong học tập củng cố); siêu phân giải hình ảnh; phục hồi cấu trúc 3D từ hình ảnh 2D; khái quát từ các bộ dữ liệu nhỏ được dán nhãn; các tác vụ trong đó một đầu vào có thể mang lại nhiều đầu ra chính xác (ví dụ: dự đoán khung tiếp theo trong vide0; tạo ngôn ngữ tự nhiên trong giao diện đàm thoại (ví dụ bot), mật mã học, học bán giám sát khi không có sẵn tất cả các nhãn; chuyển kiểu nghệ thuật, tổng hợp âm nhạc và giọng nói, hình ảnh trong tranh.
  • Các công ty: Twitter Cortex, Adobe, Apple, Prisma, Jukedeck *, Creative.ai, Gluru *, Mapillary *, Unbabel.
  • Các nhà nghiên cứu chính: Ian Goodfellow (OpenAI), Yann LeCun và Soumith Chintala (Nghiên cứu AI của Facebook), Shakir Mohamed và Aäron van den Oord (Google DeepMind), Alyosha Efros (Berkeley) và nhiều người khác.

3. Mạng có bộ nhớ

Để các hệ thống AI có thể khái quát hóa trong các môi trường thế giới thực khác nhau giống như chúng ta, chúng phải có khả năng liên tục học các nhiệm vụ mới và ghi nhớ cách thực hiện tất cả chúng trong tương lai. Tuy nhiên, các mạng lưới thần kinh truyền thống thường không có khả năng học tập nhiệm vụ tuần tự như vậy mà không quên. Thiếu sót này được gọi là quên lãng thảm khốc. Nó xảy ra bởi vì các trọng số trong một mạng quan trọng để giải quyết cho nhiệm vụ A bị thay đổi khi mạng sau đó được đào tạo để giải quyết cho nhiệm vụ B.

Tuy nhiên, có một số kiến ​​trúc mạnh mẽ có thể ban cho các mạng thần kinh với các mức độ khác nhau của bộ nhớ. Chúng bao gồm các mạng bộ nhớ ngắn hạn (một biến thể mạng thần kinh tái phát) có khả năng xử lý và dự đoán chuỗi thời gian, máy tính thần kinh khác biệt của DeepMind kết hợp các mạng thần kinh và hệ thống bộ nhớ để tự học và điều hướng các cấu trúc dữ liệu phức tạp, thuật toán hợp nhất trọng lượng đàn hồi làm chậm việc học ở các trọng số nhất định tùy thuộc vào mức độ quan trọng của chúng đối với các nhiệm vụ được xem trước đó và các mạng thần kinh tiến bộ tìm hiểu các kết nối bên giữa các mô hình cụ thể để trích xuất các tính năng hữu ích từ các mạng đã học trước đó cho một nhiệm vụ mới.

  • Ứng dụng: Các tác nhân học tập có thể khái quát đến các môi trường mới; nhiệm vụ điều khiển cánh tay robot; xe tự hành; dự đoán chuỗi thời gian (ví dụ: thị trường tài chính, video, IoT); hiểu ngôn ngữ tự nhiên và dự đoán từ tiếp theo.
  • Các công ty: Google DeepMind, NNaisense (?), Nghiên cứu SwiftKey / Microsoft, Nghiên cứu AI của Facebook.
  • Các nhà nghiên cứu chính: Alex Graves, Raia Hadsell, Koray Kavukcuoglu (Google DeepMind), Jürgen Schmidhuber (IDSIA), Geoffrey Hinton (Google Brain / Toronto), James Weston, Sumit Chopra, Antoine Bordes (FAIR).

4. Học hỏi từ ít dữ liệu hơn và xây dựng các mô hình nhỏ hơn

Các mô hình học tập sâu là đáng chú ý vì yêu cầu số lượng lớn dữ liệu đào tạo để đạt được hiệu suất hiện đại. Ví dụ: Thử thách nhận dạng hình ảnh quy mô lớn ImageNet mà các đội thách thức các mô hình nhận dạng hình ảnh của họ, chứa 1,2 triệu hình ảnh đào tạo được dán nhãn bằng tay với 1000 danh mục đối tượng. Nếu không có dữ liệu đào tạo quy mô lớn, các mô hình học sâu đã giành được hội tụ trên các cài đặt tối ưu của họ và won đã thực hiện tốt các nhiệm vụ phức tạp như nhận dạng giọng nói hoặc dịch máy. Yêu cầu dữ liệu này chỉ phát triển khi một mạng thần kinh duy nhất được sử dụng để giải quyết vấn đề từ đầu đến cuối; nghĩa là, lấy bản ghi âm thô của lời nói làm đầu vào và xuất ra các bản sao văn bản của bài phát biểu. Điều này trái ngược với việc sử dụng nhiều mạng, mỗi mạng cung cấp các biểu diễn trung gian (ví dụ: đầu vào âm thanh giọng nói thô → âm vị → từ → đầu ra bản ghi văn bản; hoặc pixel thô từ máy ảnh được ánh xạ trực tiếp tới các lệnh lái). Nếu chúng ta muốn các hệ thống AI giải quyết các nhiệm vụ trong đó dữ liệu đào tạo đặc biệt khó khăn, tốn kém, nhạy cảm hoặc tốn thời gian để mua, thì điều quan trọng là phải phát triển các mô hình có thể học các giải pháp tối ưu từ các ví dụ ít hơn (ví dụ: học một hoặc không bắn). Khi đào tạo về các tập dữ liệu nhỏ, các thách thức bao gồm quá mức, khó khăn trong việc xử lý các ngoại lệ, sự khác biệt trong phân phối dữ liệu giữa đào tạo và kiểm tra. Một cách tiếp cận khác là cải thiện việc học một nhiệm vụ mới bằng cách chuyển giao kiến ​​thức một mô hình học máy có được từ một nhiệm vụ trước đó bằng cách sử dụng các quá trình gọi chung là học chuyển giao.

Một vấn đề liên quan là xây dựng các kiến ​​trúc học sâu nhỏ hơn với hiệu suất hiện đại bằng cách sử dụng một số tương tự hoặc ít tham số hơn đáng kể. Ưu điểm sẽ bao gồm đào tạo phân tán hiệu quả hơn vì dữ liệu cần được truyền thông giữa các máy chủ, ít băng thông hơn để xuất một mô hình mới từ đám mây sang thiết bị cạnh và cải thiện tính khả thi khi triển khai vào phần cứng với bộ nhớ hạn chế.

  • Ứng dụng: Đào tạo các mạng nông bằng cách học bắt chước hiệu suất của các mạng sâu ban đầu được đào tạo trên dữ liệu đào tạo có nhãn lớn; Kiến trúc có ít tham số hơn nhưng hiệu suất tương đương với các mô hình sâu (ví dụ: SqueezeNet); dịch máy.
  • Các công ty: Trí thông minh hình học / Uber, DeepScale.ai, Microsoft Research, Công ty AI tò mò, Google, Bloomsbury AI.
  • Các nhà nghiên cứu chính: Zoubin Ghahramani (Cambridge), Yoshua Bengio (Montreal), Josh Tenenbaum (MIT), Brendan Lake (NYU), Oriol Vinyals (Google DeepMind), Sebastian Riedel (UCL).

5. Phần cứng cho đào tạo và suy luận

Một chất xúc tác chính cho sự tiến bộ trong AI là việc tái sử dụng các đơn vị xử lý đồ họa (GPU) để đào tạo các mô hình mạng thần kinh lớn. Không giống như đơn vị xử lý trung tâm (CPU) tính toán theo kiểu tuần tự, GPU cung cấp kiến ​​trúc song song ồ ạt, có thể xử lý đồng thời nhiều tác vụ. Do các mạng thần kinh phải xử lý số lượng khổng lồ (thường là dữ liệu chiều cao), việc đào tạo về GPU nhanh hơn nhiều so với CPU. Đây là lý do tại sao GPU thực sự trở thành máy xúc cho cơn sốt vàng kể từ khi xuất bản AlexNet vào năm 2012 - mạng lưới thần kinh đầu tiên được triển khai trên GPU. NVIDIA tiếp tục dẫn đầu năm 2017, trước Intel, Qualcomm, AMD và gần đây là Google.

Tuy nhiên, GPU không được xây dựng có mục đích để đào tạo hoặc suy luận; chúng được tạo ra để kết xuất đồ họa cho các trò chơi video. GPU có độ chính xác tính toán cao không phải lúc nào cũng cần thiết và chịu các vấn đề về băng thông bộ nhớ và thông lượng dữ liệu. Điều này đã mở ra sân chơi cho một loạt các công ty mới khởi nghiệp và dự án trong các công ty lớn như Google để thiết kế và sản xuất silicon đặc biệt cho các ứng dụng học máy chiều cao. Những cải tiến được hứa hẹn bởi các thiết kế chip mới bao gồm băng thông bộ nhớ lớn hơn, tính toán trên đồ thị thay vì vectơ (GPU) hoặc vô hướng (CPU), mật độ tính toán cao hơn, hiệu suất và hiệu suất trên mỗi watt. Điều này rất thú vị vì lợi nhuận tăng tốc rõ ràng mà các hệ thống AI cung cấp cho chủ sở hữu và người dùng của họ: Đào tạo mô hình nhanh hơn và hiệu quả hơn → trải nghiệm người dùng tốt hơn → người dùng tham gia với sản phẩm nhiều hơn → tạo tập dữ liệu lớn hơn → cải thiện hiệu suất mô hình thông qua tối ưu hóa. Do đó, những người có khả năng đào tạo nhanh hơn và triển khai các mô hình AI có tính toán và tiết kiệm năng lượng là một lợi thế đáng kể.

  • Ứng dụng: Đào tạo mô hình nhanh hơn (đặc biệt là trên biểu đồ); năng lượng và hiệu quả dữ liệu khi đưa ra dự đoán; chạy các hệ thống AI ở rìa (thiết bị IoT); các thiết bị IoT luôn lắng nghe; cơ sở hạ tầng đám mây như một dịch vụ; xe tự hành, máy bay không người lái và robot.
  • Các công ty: Graphcore, Cerebras, Isocline Engineering, Google (TPU), NVIDIA (DGX-1), Nervana Systems (Intel), Movidius (Intel), Scortex
  • Các nhà nghiên cứu chính :?

6. Môi trường mô phỏng

Như đã thảo luận trước đó, việc tạo dữ liệu đào tạo cho các hệ thống AI thường là thách thức. Hơn thế nữa, AI Lừa phải khái quát cho nhiều tình huống nếu chúng có ích với chúng ta trong thế giới thực. Do đó, việc phát triển các môi trường kỹ thuật số mô phỏng vật lý và hành vi của thế giới thực sẽ cung cấp cho chúng ta các giường thử nghiệm để đo lường và rèn luyện trí thông minh chung AI AI. Các môi trường này trình bày các pixel thô cho AI, sau đó thực hiện các hành động để giải quyết các mục tiêu mà chúng đã được đặt (hoặc đã học). Đào tạo trong các môi trường mô phỏng này có thể giúp chúng tôi hiểu cách các hệ thống AI học, cách cải thiện chúng, nhưng cũng cung cấp cho chúng tôi các mô hình có khả năng chuyển sang các ứng dụng trong thế giới thực.

  • Ứng dụng: Học lái xe; chế tạo; kiểu dáng công nghiệp; sự phát triển trò chơi; Những thành phố thông minh.
  • Các công ty: Betterbable, Unity 3D, Microsoft (Minecraft), Google DeepMind / Blizzard, OpenAI, Comma.ai, Unreal Engine, Amazon Lumberyard
  • Các nhà nghiên cứu: Andrea Vedaldi (Oxford)

Đăng ký nhận bản tin của tôi về tin tức và phân tích AI từ thế giới công nghệ, phòng thí nghiệm nghiên cứu và thị trường công ty tư nhân / công cộng.

Hãy ghé qua cuộc họp London.AI tiếp theo của chúng tôi vào ngày 3 tháng 3 để nghe về những chủ đề này! Cảm ơn Alexandre Flamant đã chứng minh việc đọc tác phẩm này.

Tôi thích nghe suy nghĩ của bạn *. Nhận xét bên dưới hoặc ping tôi trên Twitter (@nathanbenaich).