Lịch sử dịch máy từ thời Chiến tranh Lạnh sang học sâu

Ảnh của Ant Rozetsky trên Bapt

Tôi mở Google Dịch gấp đôi so với Facebook và bản dịch ngay lập tức các thẻ giá không còn là một trò chơi điện tử đối với tôi nữa. Đó là những gì chúng ta gọi là thực tế. Thật khó để tưởng tượng rằng đây là kết quả của một cuộc chiến kéo dài hàng năm để xây dựng các thuật toán dịch máy và rằng không có thành công rõ ràng nào trong suốt nửa thời gian đó.

Những phát triển chính xác mà tôi sẽ thảo luận trong bài viết này đặt nền tảng cho tất cả các hệ thống xử lý ngôn ngữ hiện đại - từ công cụ tìm kiếm đến lò vi sóng điều khiển bằng giọng nói. Tôi nói về sự phát triển và cấu trúc của dịch thuật trực tuyến ngày nay.

Máy dịch của P. P. Troyanskii (Minh họa được làm từ mô tả. Thật không may, không có hình ảnh.)

Ở thời điểm bắt đầu

Câu chuyện bắt đầu vào năm 1933. Nhà khoa học Liên Xô Peter Troyanskii đã giới thiệu máy cho việc lựa chọn và in các từ khi dịch từ ngôn ngữ này sang ngôn ngữ khác đến Viện hàn lâm Khoa học Liên Xô. Phát minh này rất đơn giản - nó có thẻ bằng bốn ngôn ngữ khác nhau, máy đánh chữ và máy quay phim trường học cũ.

Nhà điều hành đã lấy từ đầu tiên từ văn bản, tìm thấy một thẻ tương ứng, chụp ảnh và gõ các đặc điểm hình thái của nó (danh từ, số nhiều, kiểu gen) trên máy đánh chữ. Các phím đánh máy chữ cái được mã hóa một trong các tính năng. Băng và phim máy ảnh được sử dụng đồng thời, tạo thành một bộ khung với các từ và hình thái của chúng.

Bất chấp tất cả những điều này, như thường xảy ra ở Liên Xô, phát minh này được coi là vô dụng. Troyanskii chết vì Stenocardia sau khi cố gắng hoàn thành phát minh của mình trong 20 năm. Không ai trên thế giới biết về máy cho đến khi hai nhà khoa học Liên Xô tìm thấy bằng sáng chế của ông vào năm 1956.

Đó là vào đầu Chiến tranh Lạnh. Vào ngày 7 tháng 1 năm 1954, tại trụ sở của IBM ở New York, thí nghiệm IBM Georgetown Georgetown bắt đầu. Máy tính IBM 701 tự động dịch 60 câu tiếng Nga sang tiếng Anh lần đầu tiên trong lịch sử.

Một cô gái đã không hiểu một ngôn ngữ của Liên Xô đã dập tắt các thông điệp tiếng Nga trên thẻ IBM. Bộ não của người Hồi giáo đã thực hiện các bản dịch tiếng Anh của mình trên một máy in tự động với tốc độ chóng mặt là hai dòng rưỡi mỗi giây, '- báo cáo thông cáo báo chí của IBM.
IBM 701

Tuy nhiên, các tiêu đề chiến thắng ẩn giấu một chi tiết nhỏ. Không ai đề cập đến các ví dụ được dịch đã được lựa chọn và kiểm tra cẩn thận để loại trừ bất kỳ sự mơ hồ nào. Đối với việc sử dụng hàng ngày, hệ thống đó không tốt hơn một cuốn sách bỏ túi. Tuy nhiên, cuộc chạy đua vũ trang này đã khởi động: Canada, Đức, Pháp và đặc biệt là Nhật Bản, tất cả đều tham gia cuộc đua dịch máy.

Cuộc đua dịch máy

Cuộc đấu tranh vô ích để cải thiện dịch máy kéo dài trong bốn mươi năm. Năm 1966, ủy ban ALPAC của Hoa Kỳ, trong báo cáo nổi tiếng của mình, đã gọi dịch máy đắt tiền, không chính xác và không hứa hẹn. Thay vào đó, họ đề nghị tập trung vào phát triển từ điển, loại bỏ các nhà nghiên cứu Mỹ khỏi cuộc đua trong gần một thập kỷ.

Mặc dù vậy, một cơ sở cho Xử lý ngôn ngữ tự nhiên hiện đại chỉ được tạo ra bởi các nhà khoa học và nỗ lực, nghiên cứu và phát triển của họ. Tất cả các công cụ tìm kiếm, bộ lọc thư rác và trợ lý cá nhân ngày nay đã xuất hiện nhờ một loạt các quốc gia do thám lẫn nhau.

Dịch máy dựa trên quy tắc (RBMT)

Những ý tưởng đầu tiên xung quanh dịch máy dựa trên quy tắc xuất hiện vào những năm 70. Các nhà khoa học quan sát công việc phiên dịch viên, cố gắng ép buộc các máy tính chậm chạp cực kỳ lặp lại những hành động đó. Các hệ thống này bao gồm:

  • Từ điển song ngữ (RU -> EN)
  • Một tập hợp các quy tắc ngôn ngữ cho mỗi ngôn ngữ (Ví dụ: các danh từ kết thúc bằng một số hậu tố nhất định như -heit, -keit, -ung là nữ tính)

Đó là nó. Nếu cần, các hệ thống có thể được bổ sung các bản hack, chẳng hạn như danh sách tên, sửa lỗi chính tả và trình dịch.

PROMPT và Systran là những ví dụ nổi tiếng nhất của các hệ thống RBMT. Chỉ cần xem trên Aliexpress để cảm nhận hơi thở mềm mại của thời hoàng kim này.

Nhưng thậm chí họ có một số sắc thái và phân loài.

Dịch máy trực tiếp

Đây là loại dịch máy đơn giản nhất. Nó phân chia văn bản thành các từ, dịch chúng, sửa một chút hình thái và hài hòa cú pháp để làm cho toàn bộ âm thanh đúng, ít nhiều. Khi mặt trời lặn, các nhà ngôn ngữ học được đào tạo viết các quy tắc cho mỗi từ.

Đầu ra trả về một số loại dịch. Thông thường, nó khá nhảm nhí. Có vẻ như các nhà ngôn ngữ học đã lãng phí thời gian của họ cho không có gì.

Các hệ thống hiện đại hoàn toàn không sử dụng phương pháp này và các nhà ngôn ngữ học hiện đại rất biết ơn.

Dịch máy dựa trên chuyển nhượng

Ngược lại với dịch trực tiếp, chúng tôi chuẩn bị trước bằng cách xác định cấu trúc ngữ pháp của câu, như chúng tôi được dạy ở trường. Sau đó, chúng tôi thao túng toàn bộ công trình, không phải từ, sau đó. Điều này giúp có được chuyển đổi khá tốt của trật tự từ trong bản dịch. Về lý thuyết.

Trong thực tế, nó vẫn dẫn đến dịch nguyên văn và các nhà ngôn ngữ học cạn kiệt. Một mặt, nó mang lại các quy tắc ngữ pháp chung đơn giản hóa. Nhưng mặt khác, nó trở nên phức tạp hơn do số lượng cấu trúc từ tăng lên so với các từ đơn lẻ.

Dịch máy xen kẽ

Trong phương pháp này, văn bản nguồn được chuyển thành biểu diễn trung gian và được thống nhất cho tất cả các ngôn ngữ thế giới (interlingua). Nó cùng một loại Descartes mơ ước: một ngôn ngữ meta, tuân theo các quy tắc phổ quát và biến bản dịch thành một nhiệm vụ đơn giản trở lại và trở lại. Tiếp theo, interlingua sẽ chuyển đổi sang bất kỳ ngôn ngữ đích nào, và đây là điểm kỳ dị!

Do chuyển đổi, Interlingua thường bị nhầm lẫn với các hệ thống dựa trên chuyển nhượng. Sự khác biệt là các quy tắc ngôn ngữ dành riêng cho mọi ngôn ngữ và interlingua, chứ không phải các cặp ngôn ngữ. Điều này có nghĩa, chúng ta có thể thêm ngôn ngữ thứ ba vào hệ thống interlingua và dịch giữa cả ba. Chúng tôi có thể làm điều này trong các hệ thống dựa trên chuyển nhượng.

Trông nó thật hoàn hảo, nhưng ngoài đời thì nó không. Thật khó để tạo ra interlingua phổ quát như vậy - rất nhiều nhà khoa học đã làm việc trên toàn bộ cuộc sống của họ. Họ đã không thành công, nhưng nhờ có chúng, giờ đây chúng ta có các mức độ đại diện về hình thái, cú pháp và thậm chí là ngữ nghĩa. Nhưng lý thuyết văn bản Ý nghĩa duy nhất có giá rất cao!

Ý tưởng về ngôn ngữ trung gian sẽ trở lại. Hãy để chờ đợi một lúc.

Như bạn có thể thấy, tất cả RBMT đều câm và đáng sợ, và đó là lý do chúng hiếm khi được sử dụng trừ khi đối với các trường hợp cụ thể (như bản dịch báo cáo thời tiết, v.v.). Trong số các ưu điểm của RBMT, thường được đề cập là độ chính xác hình thái của nó (nó không gây nhầm lẫn giữa các từ), độ tái lập của kết quả (tất cả các dịch giả đều có cùng kết quả) và khả năng điều chỉnh nó theo lĩnh vực chủ đề (để dạy các nhà kinh tế hoặc thuật ngữ cụ thể cho các lập trình viên, ví dụ).

Ngay cả khi bất kỳ ai thành công trong việc tạo ra một RBMT lý tưởng và các nhà ngôn ngữ học đã nâng cao nó bằng tất cả các quy tắc chính tả, sẽ luôn có một số ngoại lệ: tất cả các động từ bất quy tắc trong tiếng Anh, tiền tố tách rời trong tiếng Đức, hậu tố bằng tiếng Nga và các tình huống khi mọi người chỉ nói nói khác đi Bất kỳ nỗ lực nào để tính đến tất cả các sắc thái sẽ lãng phí hàng triệu giờ đàn ông.

Và donet quên về từ đồng âm. Cùng một từ có thể có một ý nghĩa khác nhau trong một bối cảnh khác nhau, dẫn đến một loạt các bản dịch. Có bao nhiêu ý nghĩa bạn có thể bắt gặp ở đây: Tôi thấy một người đàn ông trên một ngọn đồi với kính viễn vọng?

Ngôn ngữ không phát triển dựa trên một bộ quy tắc cố định - một thực tế mà các nhà ngôn ngữ học yêu thích. Họ bị ảnh hưởng nhiều hơn bởi lịch sử của các cuộc xâm lược trong ba trăm năm qua. Làm thế nào bạn có thể giải thích điều đó với một máy?

Bốn mươi năm Chiến tranh Lạnh đã giúp ích trong việc tìm kiếm bất kỳ giải pháp khác biệt nào. RBMT đã chết.

Dịch máy dựa trên ví dụ (EBMT)

Nhật Bản đặc biệt quan tâm đến việc đấu tranh cho dịch máy. Không có Chiến tranh Lạnh, nhưng có những lý do: rất ít người trong nước biết tiếng Anh. Nó hứa hẹn sẽ là một vấn đề tại bữa tiệc toàn cầu hóa sắp tới. Vì vậy, người Nhật đã vô cùng có động lực để tìm ra một phương pháp làm việc về dịch máy.

Dịch thuật tiếng Anh-Nhật dựa trên quy tắc là vô cùng phức tạp. Cấu trúc ngôn ngữ là hoàn toàn khác nhau, và hầu như tất cả các từ phải được sắp xếp lại và những từ mới được thêm vào. Năm 1984, Makoto Nagao từ Đại học Kyoto đã nảy ra ý tưởng sử dụng các cụm từ làm sẵn thay vì dịch lặp đi lặp lại.

Hãy tưởng tượng rằng chúng ta phải dịch một câu đơn giản - Tôi đang đi đến rạp chiếu phim. Hãy nói rằng chúng ta đã dịch một câu tương tự - Tôi đang đi đến rạp hát - và chúng ta có thể tìm thấy từ đó rạp chiếu phim trong từ điển.

Tất cả những gì chúng ta cần là tìm ra sự khác biệt giữa hai câu, dịch từ còn thiếu và sau đó không làm hỏng nó. Chúng ta càng có nhiều ví dụ, bản dịch càng tốt.

Tôi xây dựng các cụm từ trong các ngôn ngữ xa lạ chính xác theo cùng một cách!

EBMT đã cho thấy ánh sáng ban ngày đối với các nhà khoa học từ khắp nơi trên thế giới: hóa ra, bạn chỉ có thể cung cấp cho máy với các bản dịch hiện có và không mất nhiều năm để hình thành các quy tắc và ngoại lệ. Không phải là một cuộc cách mạng, nhưng rõ ràng là bước đầu tiên đối với nó. Các phát minh mang tính cách mạng của dịch thuật thống kê sẽ xảy ra chỉ trong năm năm.

Dịch máy thống kê (SMT)

Đầu năm 1990, tại Trung tâm nghiên cứu IBM, một hệ thống dịch máy lần đầu tiên được trình bày mà không biết gì về các quy tắc và ngôn ngữ học nói chung. Nó đã phân tích các văn bản tương tự trong hai ngôn ngữ và cố gắng hiểu các mẫu.

Ý tưởng thật đơn giản nhưng đẹp. Một câu giống hệt nhau trong hai ngôn ngữ được chia thành các từ, được kết hợp sau đó. Thao tác này lặp đi lặp lại khoảng 500 triệu lần để tính, ví dụ, bao nhiêu lần từ từ "Đây là một ngôi nhà"

Nếu hầu hết thời gian, từ nguồn được dịch là Nhà nhà, thì máy đã sử dụng từ này. Lưu ý rằng chúng tôi không đặt bất kỳ quy tắc nào cũng như không sử dụng bất kỳ từ điển nào - tất cả các kết luận đều được thực hiện bằng máy, được hướng dẫn bởi các số liệu thống kê và logic mà nếu mọi người dịch theo cách đó, thì tôi cũng vậy.

Phương pháp này hiệu quả và chính xác hơn nhiều so với tất cả các phương pháp trước đó. Và không cần nhà ngôn ngữ học. Chúng tôi càng sử dụng nhiều văn bản, chúng tôi càng nhận được bản dịch tốt hơn.

Google dịch thuật thống kê từ bên trong. Nó cho thấy không chỉ xác suất mà còn đếm số liệu thống kê ngược.

Vẫn còn một câu hỏi nữa: làm thế nào mà cỗ máy này có thể tương quan với từ "Das Das," và từ ngữ xây dựng - và làm thế nào để chúng ta biết đây là những bản dịch đúng?

Câu trả lời là chúng tôi sẽ biết. Khi bắt đầu, cỗ máy cho rằng từ "Das Das Haus tương quan tương đương với bất kỳ từ nào trong câu dịch. Tiếp theo, khi xuất hiện trong các câu khác, số lượng các mối tương quan với nhà của nhà vua sẽ tăng lên. Đó là thuật toán căn chỉnh từ tiếng Nhật, một nhiệm vụ điển hình cho việc học máy ở cấp đại học.

Máy cần hàng triệu và hàng triệu câu trong hai ngôn ngữ để thu thập số liệu thống kê có liên quan cho mỗi từ. Làm thế nào chúng ta có được chúng? Chà, chúng tôi quyết định lấy bản tóm tắt của các cuộc họp của Nghị viện Châu Âu và Hội đồng Bảo an Liên Hợp Quốc - chúng có sẵn bằng ngôn ngữ của tất cả các quốc gia thành viên và hiện đã có sẵn để tải xuống tại UN Corpora và Europarl Corpora.

Từ dựa trên SMT

Ban đầu, các hệ thống dịch thống kê đầu tiên hoạt động bằng cách chia câu thành các từ, vì cách tiếp cận này đơn giản và hợp lý. Mô hình dịch thuật thống kê đầu tiên của IBM được gọi là Mô hình một. Khá thanh lịch, phải không? Đoán xem họ gọi cái thứ hai là gì?

Mẫu 1: Túi đựng chữ

Mô hình một đã sử dụng một cách tiếp cận cổ điển - để chia thành các từ và đếm số liệu thống kê. Thứ tự từ đã được đưa vào tài khoản. Bí quyết duy nhất là dịch một từ thành nhiều từ. Chẳng hạn, thì Der Der Staubauger có thể biến thành Máy hút bụi, nhưng điều đó không có nghĩa là nó sẽ biến thành ngược lại.

Đây là một số triển khai đơn giản trong Python: shawa / IBM-Model-1.

Mô hình 2: xem xét thứ tự từ trong câu

Việc thiếu kiến ​​thức về ngôn ngữ Thứ tự từ ngữ đã trở thành một vấn đề đối với Mô hình 1, và nó rất quan trọng trong một số trường hợp.

Mô hình 2 xử lý vấn đề đó: nó ghi nhớ vị trí thông thường mà từ đó lấy ở câu đầu ra và xáo trộn các từ cho âm thanh tự nhiên hơn ở bước trung gian. Mọi thứ trở nên tốt hơn, nhưng chúng vẫn là một thứ nhảm nhí.

Mô hình 3: khả năng sinh sản thêm

Các từ mới xuất hiện trong bản dịch khá thường xuyên, chẳng hạn như các bài viết bằng tiếng Đức hoặc sử dụng mật ngữ do âm khi phủ định bằng tiếng Anh. Sau đó, Ich Ich sẽ keine Persimonen → Tôi không muốn Persimmons. Để đối phó với nó, hai bước nữa đã được thêm vào Mô hình 3.

  • Việc chèn mã thông báo NULL, nếu máy xem xét sự cần thiết của một từ mới
  • Chọn hạt hoặc ngữ pháp đúng cho từng liên kết mã thông báo

Mô hình 4: căn chỉnh từ

Mô hình 2 đã xem xét sự liên kết từ, nhưng không biết gì về sắp xếp lại. Ví dụ, tính từ thường sẽ thay đổi vị trí với danh từ và cho dù thứ tự được ghi nhớ tốt đến đâu, nó sẽ làm cho đầu ra tốt hơn. Do đó, Mô hình 4 đã tính đến cái gọi là thứ tự tương đối của bộ phận - mô hình đã học nếu hai từ luôn chuyển vị trí.

Mô hình 5: sửa lỗi

Không có gì mới ở đây. Mô hình 5 có thêm một số tham số cho việc học và khắc phục sự cố với các vị trí từ xung đột.

Mặc dù bản chất cách mạng của họ, các hệ thống dựa trên từ vẫn không giải quyết được các trường hợp, giới tính và đồng âm. Mỗi từ được dịch theo một cách duy nhất, theo máy. Các hệ thống như vậy không được sử dụng nữa, vì chúng đã được thay thế bằng các phương pháp dựa trên cụm từ tiên tiến hơn.

SMT dựa trên cụm từ

Phương pháp này dựa trên tất cả các nguyên tắc dịch dựa trên từ: thống kê, sắp xếp lại và hack từ vựng. Mặc dù, đối với việc học, nó chia văn bản không chỉ thành từ mà còn cả cụm từ. Chính xác thì đây là n-gram, là một chuỗi liên tiếp của n từ liên tiếp.

Do đó, máy học cách dịch các tổ hợp từ ổn định, giúp cải thiện độ chính xác rõ rệt.

Thủ thuật là, các cụm từ không phải lúc nào cũng là các cấu trúc cú pháp đơn giản và chất lượng bản dịch giảm đáng kể nếu bất kỳ ai biết về ngôn ngữ học và các câu cấu trúc Câu bị can thiệp. Frederick Jelinek, người tiên phong của ngôn ngữ học máy tính, đã nói đùa về nó một lần: mỗi khi tôi sa thải một nhà ngôn ngữ học, hiệu suất của trình nhận dạng giọng nói tăng lên.

Bên cạnh việc cải thiện độ chính xác, bản dịch dựa trên cụm từ cung cấp nhiều tùy chọn hơn trong việc lựa chọn các văn bản song ngữ để học. Đối với bản dịch dựa trên từ, sự trùng khớp chính xác của các nguồn là rất quan trọng, loại trừ bất kỳ bản dịch văn học hoặc tự do nào. Bản dịch dựa trên cụm từ không có vấn đề học hỏi từ họ. Để cải thiện bản dịch, các nhà nghiên cứu thậm chí bắt đầu phân tích các trang web tin tức bằng các ngôn ngữ khác nhau cho mục đích đó.

Bắt đầu từ năm 2006, mọi người bắt đầu sử dụng phương pháp này. Google Dịch, Yandex, Bing và các dịch giả trực tuyến cao cấp khác đã làm việc dựa trên cụm từ cho đến năm 2016. Mỗi người trong số bạn có thể nhớ lại những khoảnh khắc khi Google dịch câu hoàn hảo hoặc dẫn đến hoàn toàn vô nghĩa, phải không? Sự vô nghĩa đến từ các tính năng dựa trên cụm từ.

Cách tiếp cận dựa trên quy tắc cũ tốt luôn cung cấp một kết quả có thể dự đoán được mặc dù khủng khiếp. Các phương pháp thống kê là đáng ngạc nhiên và khó hiểu. Google Dịch biến số ba trăm của Google thành Số 300 mà không phải đắn đo. Điều đó được gọi là bất thường thống kê.

Dịch thuật dựa trên cụm từ đã trở nên rất phổ biến, đến nỗi khi bạn nghe bản dịch máy thống kê của Cameron thì đó là những gì thực sự có nghĩa. Cho đến năm 2016, tất cả các nghiên cứu đều ca ngợi dịch thuật dựa trên cụm từ là công nghệ tiên tiến nhất. Trước đó, thậm chí không ai nghĩ rằng Google đã dập tắt đám cháy của mình, sẵn sàng thay đổi toàn bộ hình ảnh dịch máy của chúng tôi.

Cú pháp dựa trên cú pháp

Phương pháp này cũng nên được đề cập, ngắn gọn. Nhiều năm trước khi xuất hiện mạng lưới thần kinh, dịch thuật dựa trên cú pháp đã được coi là tương lai hay dịch thuật, nhưng ý tưởng không thành công.

Những người đề xuất dịch thuật dựa trên cú pháp tin rằng có thể hợp nhất nó với phương pháp dựa trên quy tắc. Nó cần thiết để thực hiện một phân tích cú pháp chính xác của câu - để xác định chủ ngữ, vị ngữ và các phần khác của câu, sau đó xây dựng một cây câu. Sử dụng nó, máy học cách chuyển đổi các đơn vị cú pháp giữa các ngôn ngữ và dịch phần còn lại bằng các từ hoặc cụm từ. Điều đó sẽ giải quyết vấn đề căn chỉnh từ một lần và mãi mãi.

Ví dụ lấy từ Yamada và Knight [2001] và trình chiếu tuyệt vời này.

Vấn đề là, phân tích cú pháp hoạt động khủng khiếp, mặc dù thực tế là chúng tôi xem xét nó đã được giải quyết cách đây một thời gian (vì chúng tôi có các thư viện làm sẵn cho nhiều ngôn ngữ). Tôi đã cố gắng sử dụng cây cú pháp cho các nhiệm vụ phức tạp hơn một chút so với phân tích chủ đề và vị ngữ. Và mỗi lần tôi từ bỏ và sử dụng một phương pháp khác.

Hãy cho tôi biết trong các ý kiến ​​nếu bạn thành công sử dụng nó ít nhất một lần.

Dịch máy thần kinh (NMT)

Một bài báo khá thú vị về việc sử dụng các mạng thần kinh trong dịch máy đã được xuất bản vào năm 2014. Internet đã không chú ý đến nó, ngoại trừ Google - họ đã lấy xẻng của họ ra và bắt đầu đào. Hai năm sau, vào tháng 11 năm 2016, Google đã đưa ra thông báo thay đổi trò chơi.

Ý tưởng đã gần với việc chuyển phong cách giữa các bức ảnh. Bạn có nhớ các ứng dụng như Prisma, hình ảnh nâng cao theo phong cách nghệ sĩ nổi tiếng nào đó không? Không có phép thuật. Mạng lưới thần kinh được dạy để nhận ra các bức tranh của họa sĩ. Tiếp theo, các lớp cuối cùng chứa quyết định của mạng đã bị xóa. Hình ảnh cách điệu thu được chỉ là hình ảnh trung gian mà mạng có được. Đó là một mạng lưới tưởng tượng, và chúng tôi cho rằng nó rất đẹp.

Nếu chúng ta có thể chuyển kiểu cho ảnh, điều gì sẽ xảy ra nếu chúng ta cố gắng áp đặt ngôn ngữ khác cho văn bản nguồn? Văn bản sẽ là phong cách nghệ sĩ chính xác của người Viking, phong cách của người Viking và chúng tôi sẽ cố gắng chuyển nó trong khi vẫn giữ nguyên bản chất của hình ảnh (nói cách khác, bản chất của văn bản).

Hãy tưởng tượng tôi đang cố gắng mô tả con chó của tôi - kích thước trung bình, mũi nhọn, đuôi ngắn, luôn sủa. Nếu tôi đưa cho bạn bộ tính năng Dog dog này và nếu mô tả chính xác, bạn có thể vẽ nó, mặc dù bạn chưa bao giờ nhìn thấy nó.

Bây giờ, hãy tưởng tượng văn bản nguồn là tập hợp các tính năng cụ thể. Về cơ bản, điều đó có nghĩa là bạn mã hóa nó và để cho mạng thần kinh khác giải mã nó trở lại văn bản, nhưng, bằng ngôn ngữ khác. Bộ giải mã chỉ biết ngôn ngữ của nó. Nó không có ý tưởng về các tính năng nguồn gốc, nhưng nó có thể thể hiện chúng bằng tiếng Tây Ban Nha. Tiếp tục sự tương tự, nó không quan trọng bằng cách bạn vẽ con chó - bằng bút màu, màu nước hoặc ngón tay của bạn. Bạn vẽ nó như bạn có thể.

Một lần nữa - một mạng thần kinh chỉ có thể mã hóa câu thành tập hợp các tính năng cụ thể và một mạng khác chỉ có thể giải mã chúng trở lại văn bản. Cả hai đều không biết gì về nhau và mỗi người trong số họ chỉ biết ngôn ngữ riêng của mình. Nhớ lại điều gì? Interlingua đã trở lại. Ta-da.

Câu hỏi là, làm thế nào để chúng ta tìm thấy những tính năng đó? Nó rõ ràng khi chúng tôi nói về con chó, nhưng làm thế nào để đối phó với văn bản? Ba mươi năm trước, các nhà khoa học đã cố gắng tạo ra mã ngôn ngữ phổ quát, và nó đã kết thúc trong một thất bại hoàn toàn.

Tuy nhiên, bây giờ chúng ta đã học sâu. Và đó là nhiệm vụ thiết yếu của nó! Sự khác biệt chính giữa mạng lưới học tập sâu và mạng nơ ron cổ điển nằm chính xác ở khả năng tìm kiếm các tính năng cụ thể đó mà không có bất kỳ ý tưởng nào về bản chất của chúng. Nếu mạng lưới thần kinh đủ lớn và có sẵn một vài ngàn thẻ video, thì bạn cũng có thể tìm thấy các tính năng đó trong văn bản.

Về mặt lý thuyết, chúng ta có thể chuyển các tính năng nhận được từ các mạng thần kinh cho các nhà ngôn ngữ học, để họ có thể mở ra những chân trời mới dũng cảm cho chính họ.

Câu hỏi là, loại mạng thần kinh nào nên được sử dụng để mã hóa và giải mã? Mạng thần kinh chuyển đổi (CNN) phù hợp hoàn hảo cho hình ảnh vì chúng hoạt động với các khối pixel độc lập.

Nhưng không có khối độc lập trong văn bản - mỗi từ phụ thuộc vào môi trường xung quanh. Văn bản, lời nói và âm nhạc luôn nhất quán. Vì vậy, các mạng thần kinh tái phát (RNN) sẽ là lựa chọn tốt nhất để xử lý chúng, vì chúng nhớ kết quả trước đó - từ trước đó, trong trường hợp của chúng tôi.

Bây giờ RNN được sử dụng ở mọi nơi - Nhận dạng giọng nói Siri (nó phân tích chuỗi âm thanh, trong đó âm thanh tiếp theo phụ thuộc vào trước đó), mẹo bàn phím (ghi nhớ trước, đoán tiếp theo), tạo nhạc và thậm chí cả chatbot.

Đối với những người mọt sách như tôi: trên thực tế, các dịch giả thần kinh Kiến trúc khác nhau rất khác nhau. RNN thông thường được sử dụng ngay từ đầu, sau đó được nâng cấp thành hai chiều, trong đó người dịch không chỉ xem xét các từ trước từ nguồn, mà còn là từ tiếp theo. Điều đó đã hiệu quả hơn nhiều. Sau đó, nó tiếp theo với RNN đa lớp cứng với các đơn vị LSTM để lưu trữ lâu dài bối cảnh dịch thuật.

Trong hai năm, mạng lưới thần kinh đã vượt qua mọi thứ xuất hiện trong 20 năm dịch thuật vừa qua. Bản dịch thần kinh chứa ít hơn 50% lỗi từ, ít hơn 17% lỗi từ vựng và ít hơn 19% lỗi ngữ pháp. Các mạng lưới thần kinh thậm chí đã học cách hài hòa giới tính và trường hợp trong các ngôn ngữ khác nhau. Và không ai dạy họ làm như vậy.

Những cải tiến đáng chú ý nhất xảy ra trong các lĩnh vực mà dịch thuật trực tiếp không bao giờ được sử dụng. Phương pháp dịch máy thống kê luôn hoạt động bằng cách sử dụng tiếng Anh làm nguồn chính. Do đó, nếu bạn dịch từ tiếng Nga sang tiếng Đức, trước tiên máy sẽ dịch văn bản sang tiếng Anh và sau đó từ tiếng Anh sang tiếng Đức, dẫn đến mất gấp đôi.

Bản dịch thần kinh không cần điều đó - chỉ cần một bộ giải mã để nó có thể hoạt động. Đó là lần đầu tiên dịch trực tiếp giữa các ngôn ngữ không có từ điển không phổ biến.

Google Dịch (từ năm 2016)

Năm 2016, Google đã bật dịch thuật thần kinh cho chín ngôn ngữ. Họ đã phát triển hệ thống của mình có tên Google Neural Machine Translator (GNMT). Nó bao gồm 8 lớp mã hóa và 8 lớp giải mã RNN, cũng như các kết nối chú ý từ mạng giải mã.

Họ không chỉ chia câu, mà còn từ. Đó là cách họ xử lý một trong những vấn đề lớn của NMT - những từ hiếm gặp. NMT bất lực khi từ này không nằm trong từ vựng của họ. Hãy nói, nói về Vas Vaskk. Tôi nghi ngờ bất cứ ai đã dạy mạng lưới thần kinh để dịch biệt danh của tôi. Trong trường hợp đó, GMNT cố gắng chia các từ thành các từ và khôi phục bản dịch của chúng. Thông minh.

Gợi ý: Google Dịch được sử dụng để dịch trang web trong trình duyệt vẫn sử dụng thuật toán dựa trên cụm từ cũ. Bằng cách nào đó, Google đã nâng cấp nó và sự khác biệt khá đáng chú ý so với phiên bản trực tuyến.

Google sử dụng cơ chế cung cấp dịch vụ cộng đồng trong phiên bản trực tuyến. Mọi người có thể chọn phiên bản mà họ cho là chính xác nhất và nếu nhiều người dùng thích nó, Google sẽ luôn dịch cụm từ này theo cách đó và đánh dấu nó bằng một huy hiệu đặc biệt. Điều này hoạt động rất tuyệt vời đối với các cụm từ ngắn hàng ngày như, Let Let đi đến rạp chiếu phim, hay hoặc, tôi đang chờ bạn. Google Google biết tiếng Anh giao tiếp tốt hơn tôi :(

Microsoft Bing Bing hoạt động chính xác như Google Dịch. Nhưng Yandex thì khác.

Yandex Dịch (từ năm 2017)

Yandex đã ra mắt hệ thống dịch thuật thần kinh vào năm 2017. Tính năng chính của nó, như đã tuyên bố, là tính lai. Yandex kết hợp các cách tiếp cận thần kinh và thống kê để dịch câu, và sau đó nó chọn cách tốt nhất với thuật toán CatBoost yêu thích của mình.

Vấn đề là, dịch thuật thần kinh thường thất bại khi dịch các cụm từ ngắn, vì nó sử dụng ngữ cảnh để chọn từ đúng. Sẽ rất khó nếu từ đó xuất hiện rất ít lần trong dữ liệu huấn luyện. Trong những trường hợp như vậy, một bản dịch thống kê đơn giản tìm thấy từ đúng một cách nhanh chóng và đơn giản.

Yandex không chia sẻ chi tiết. Nó chống đỡ chúng tôi với các thông cáo báo chí tiếp thị. ĐƯỢC CHỨ.

Có vẻ như Google sử dụng SMT để dịch từ và cụm từ ngắn. Họ không đề cập đến điều đó trong bất kỳ bài viết nào, nhưng nó khá đáng chú ý nếu bạn nhìn vào sự khác biệt giữa bản dịch của các biểu thức ngắn và dài. Bên cạnh đó, SMT được sử dụng để hiển thị các số liệu thống kê từ.

Kết luận và tương lai

Mọi người vẫn hào hứng với ý tưởng về cá Bab Babel - dịch bài phát biểu tức thì. Google đã thực hiện các bước hướng tới nó với Pixel Buds, nhưng trên thực tế, nó vẫn không phải là điều chúng ta mơ ước. Bản dịch lời nói tức thì khác với bản dịch thông thường. Bạn cần biết khi nào nên bắt đầu dịch và khi nào nên im lặng và lắng nghe. Tôi đã thấy cách tiếp cận phù hợp để giải quyết vấn đề này. Trừ khi, có thể, Skype

Và ở đây, một khu vực trống khác: tất cả việc học được giới hạn trong tập hợp các khối văn bản song song. Các mạng lưới thần kinh sâu nhất vẫn học tại các văn bản song song. Chúng tôi có thể dạy mạng nơ-ron mà không cần cung cấp nguồn. Thay vào đó, mọi người có thể bổ sung từ vựng của họ bằng cách đọc sách hoặc bài báo, ngay cả khi không dịch chúng sang ngôn ngữ bản địa của họ.

Nếu mọi người có thể làm điều đó, theo lý thuyết, mạng lưới thần kinh cũng có thể làm điều đó. Tôi chỉ tìm thấy một nguyên mẫu cố gắng kích động mạng, biết một ngôn ngữ, để đọc các văn bản bằng ngôn ngữ khác để có được kinh nghiệm. Tôi tự thử nó, nhưng tôi ngu ngốc. Ok, đó là nó.

Câu chuyện này ban đầu được viết bằng tiếng Nga và sau đó được dịch sang tiếng Anh trên Vas3k.com bởi Vasily Zubarev. Anh ấy là bạn bút của tôi và tôi rất chắc chắn rằng blog của anh ấy sẽ được lan truyền.

Liên kết hữu ích

  • Philipp Koehn: Dịch máy thống kê. Bộ sưu tập đầy đủ nhất của các phương pháp tôi tìm thấy.
  • Moses - thư viện phổ biến để tạo các bản dịch thống kê riêng
  • OpenNMT - thêm một thư viện, nhưng dành cho các dịch giả thần kinh
  • Bài viết từ một trong những blogger yêu thích của tôi giải thích về RNN và LSTM
  • Một video về Làm thế nào để làm cho một dịch giả ngôn ngữ Vẫn không đủ.
  • Hướng dẫn văn bản từ TensorFlow về việc tạo ra trình dịch thần kinh của riêng bạn, cho những ai muốn có thêm ví dụ và thử mã.

Các bài viết khác từ Vas3k.com

Một điều cuối cùng…

Nếu bạn thích bài viết này, nhấp vào bên dưới và chia sẻ nó với những người khác để họ cũng có thể thưởng thức nó.