
Google đã giới thiệu tính năng dịch giọng nói cho nền tảng hội nghị truyền hình Meet.
Công cụ này, được trình diễn tại sự kiện I/O, sử dụng công nghệ AI Gemini của công ty để dịch ngôn ngữ nói sang ngôn ngữ mà đối tác trò chuyện ưa thích.
Tính năng dịch giữ nguyên giọng nói, ngữ điệu và biểu cảm của người nói.
Hiện tại ứng dụng này hỗ trợ tiếng Anh và tiếng Tây Ban Nha.
Chúng tôi đang có kế hoạch bổ sung tiếng Ý, tiếng Đức và tiếng Bồ Đào Nha vào những tuần tới.
Bảy thập kỷ công nghệ giọng nói và dịch thuật đạt đến đỉnh cao trong các công cụ trò chuyện thời gian thực
Tính năng dịch mới của Google Meet đại diện cho sự hội tụ của hai hành trình công nghệ bắt đầu từ những năm 1950 với các hệ thống thô sơ.
Nhận dạng giọng nói bắt đầu với “Audrey” của Bell Labs vào năm 1952, chỉ có thể nhận dạng các chữ số, trong khi dịch máy xuất hiện vào năm 1954 với thí nghiệm Georgetown-IBM dịch 49 câu tiếng Nga sang tiếng Anh.
Cả hai công nghệ đều phải đối mặt với giai đoạn hoài nghi và cắt giảm tài trợ, đặc biệt là sau khi báo cáo ALPAC năm 1966 tuyên bố dịch máy “không hữu ích”, dẫn đến cái được gọi là mùa đông AI đầu tiên.
Bước đột phá về công nghệ đến từ các phương pháp thống kê vào những năm 1990 và mạng nơ-ron vào những năm 2010, giúp cải thiện đáng kể độ chính xác và khả năng hiểu ngữ cảnh. Google tuyên bố tỷ lệ lỗi từ là 4,9% vào năm 2017, vượt trội hơn nhiều so với các hệ thống trước đó.
Bản dịch thời gian thực trong hội nghị truyền hình ngày nay đại diện cho sự hoàn thành những gì Warren Weaver hình dung trong bản ghi nhớ quan trọng năm 1949 của ông đã khởi động nghiên cứu dịch máy: công nghệ có thể phá vỡ rào cản ngôn ngữ trong cuộc trò chuyện tự nhiên.
Tính năng dịch thuật nổi lên như một chiến trường cạnh tranh trong hội nghị truyền hình
Thời điểm công bố của Google trùng khớp với tính năng dịch AI tương tự của Microsoft Teams được ra mắt vào đầu năm nay, cho thấy dịch thuật đã trở thành yếu tố khác biệt quan trọng trên thị trường hội nghị truyền hình.
Mẫu cạnh tranh tính năng này giữa các nền tảng mở rộng ra ngoài phạm vi dịch thuật. Teams hiện cung cấp dịch thuật bằng 35 ngôn ngữ trong khi Meet hỗ trợ 11 ngôn ngữ, cho thấy cả hai công ty đang chạy đua để mở rộng khả năng.
Tầm quan trọng chiến lược của các tính năng này được nhấn mạnh bởi các dự báo thị trường cho thấy dịch thuật AI sẽ tăng trưởng từ thị trường 1,5 tỷ đô la vào năm 2020 lên hơn 13 tỷ đô la vào năm 2027, thể hiện cơ hội kinh doanh.
Các nền tảng hội nghị truyền hình ngày càng tập trung vào việc phá vỡ rào cản giao tiếp khi làm việc từ xa và cộng tác toàn cầu trở thành tiêu chuẩn, với các tính năng giữ nguyên tông giọng và biểu cảm, giải quyết những hạn chế trước đây của dịch thuật dựa trên văn bản.
Cuộc cạnh tranh mở rộng sang việc áp dụng cho doanh nghiệp, với thông báo của Google đề cập cụ thể đến kế hoạch đưa tính năng này đến với khách hàng doanh nghiệp vào cuối năm nay, nhắm vào phân khúc mà Microsoft vẫn giữ được lợi thế truyền thống.
Phiên dịch giữ nguyên giọng nói là bước tiến quan trọng hướng tới giao tiếp toàn cầu tự nhiên
Việc Google nhấn mạnh vào việc giữ nguyên giọng nói, ngữ điệu và biểu cảm của người nói đã giải quyết được hạn chế cơ bản của các công cụ dịch thuật truyền thống vốn loại bỏ các yếu tố giao tiếp của con người.
Cách tiếp cận này phản ánh những cải tiến tương tự như công nghệ AI Video Translate của D-ID, công nghệ này sao chép giọng nói của người nói và điều chỉnh chuyển động môi để tạo ra những video được dịch tự nhiên hơn—thể hiện xu hướng chung của ngành hướng tới các tương tác đa ngôn ngữ tự nhiên hơn.
Nghiên cứu cho thấy các doanh nghiệp áp dụng công cụ dịch thuật AI báo cáo rằng sự tương tác của khách hàng được cải thiện và doanh số tăng lên do sự rõ ràng trong giao tiếp được cải thiện, cho thấy những lợi ích kinh doanh hữu hình vượt xa sự tiện lợi đơn thuần.
Đối với các doanh nghiệp toàn cầu, tác động kinh tế là rất đáng kể. Dịch thuật AI đẩy nhanh quá trình thâm nhập thị trường, giảm chi phí liên quan đến dịch thuật của con người và cho phép thích ứng nhanh hơn với thị trường địa phương trên nhiều kênh.
Công nghệ này đại diện cho sự tiến bộ hướng tới cái mà các nhà ngôn ngữ học gọi là “tương đương thực dụng”—bản dịch không chỉ bảo toàn từ ngữ mà còn cả ý định giao tiếp, vốn trước đây là một thách thức đáng kể đối với các hệ thống dịch máy.