MỚI NHẤT
CƠ QUAN CỦA TỔNG LIÊN ĐOÀN LAO ĐỘNG VIỆT NAM
Các AI thính giác mới nhất của Meta hứa hẹn cho trải nghiệm AR/VR nhập vai hơn. Ảnh chụp màn hình.

Meta xây dựng các mô hình AI cung cấp âm thanh chân thật cho VR

Khánh Ly LDO | 28/06/2022 15:55

Meta đã xây dựng ba mô hình trí tuệ nhân tạo (AI) mới để làm cho âm thanh nghe thật hơn trong trải nghiệm thực tế ảo.

Các nhà nghiên cứu AI và các chuyên gia âm thanh từ nhóm Reality Labs của Meta cho biết: “Âm học đóng một vai trò quan trọng trong việc trải nghiệm âm thanh trong metaverse và chúng tôi tin rằng AI sẽ là cốt lõi để mang lại chất lượng âm thanh một cách chân thật nhất”.

“Nhận thức đúng âm thanh trong không gian là chìa khóa để mang lại cảm giác thực tế trong metaverse, nếu bạn đang ở một buổi hòa nhạc hoặc chỉ nói chuyện với bạn bè xung quanh, thì có âm thanh sẽ khiến bạn cảm thấy như mình đang thực sự ở đó” - Zuckerberg (nhà sáng lập Facebook) viết trên blog.

Hiển nhiên, buổi hòa nhạc đó sẽ nghe rất khác nếu được biểu diễn trong một phòng hòa nhạc quy mô lớn hơn là trong một khán phòng của trường trung học cơ sở do sự khác biệt giữa không gian vật lý và âm thanh của chúng.

Do đó, phòng thí nghiệm thực tế và AI của Meta (MAIR, trước đây là FAIR) đang hợp tác với các nhà nghiên cứu từ UT Austin để phát triển bộ ba AI hiểu được âm thanh mã nguồn mở, giúp các nhà phát triển xây dựng trải nghiệm AR và VR nhập vai hơn với âm thanh sống động như thật.

Đầu tiên là mô hình đối sánh âm thanh trực quan của MAIR, có thể điều chỉnh clip âm thanh mẫu cho bất kỳ môi trường nhất định nào chỉ bằng cách sử dụng hình ảnh của không gian. 

Mô hình này được gọi là AViTAR, có chức năng “học đối sánh âm thanh từ các video trên web, dù chúng có thiếu hay không khớp về âm thanh và dữ liệu chưa được gắn nhãn”.

Ngoài ra, chế độ không âm vang (VIDA) của MAIR sẽ loại bỏ hiệu ứng dội âm khi chơi một nhạc cụ trong một không gian rộng.

Cụ thể, nó sẽ “học cách loại bỏ tiếng vang dựa trên cả âm thanh quan sát được và luồng hình ảnh”. Công nghệ này có thể được sử dụng để tách giọng nói và khẩu lệnh một cách hiệu quả hơn, giúp cả con người và máy móc đều hiểu được âm thanh dễ dàng hơn.

Mô hình thứ ba mang tên Visual Voice, hoạt động tương tự như VIDA nhưng đối với giọng nói.

Nó sử dụng cả tín hiệu hình ảnh và âm thanh để học cách tách giọng nói khỏi tiếng ồn xung quanh trong các buổi đào tạo tự giám sát của nó. Meta dự đoán mô hình này sẽ phải làm nhiều việc trong các ứng dụng hiểu máy và cải thiện khả năng tiếp cận.

Mark Zuckerberg bày tỏ: “Chúng tôi hình dung ra một tương lai nơi mọi người có thể đeo kính AR và tưởng tượng không gian ba chiều từ đồ họa và âm thanh khi họ chơi trò chơi trong một thế giới ảo”.

Tuy nhiên, AViTAR và VIDA chỉ có thể áp dụng các nhiệm vụ của họ cho những hình ảnh mà nó đã được lập trình trước, và sẽ cần cải thiện và phát triển thêm trước khi phát hành ra công chúng. “Những mô hình này đang đến gần hơn với những trải nghiệm đa phương thức, phong phú mà chúng tôi muốn xây dựng trong tương lai”.

Tin mới nhất

Gợi ý dành cho bạn