MỚI NHẤT
CƠ QUAN CỦA TỔNG LIÊN ĐOÀN LAO ĐỘNG VIỆT NAM
Hình mẫu 3D do trí tuệ nhân tạo mới xây dựng. Ảnh: OpenAI

Trí tuệ nhân tạo chuyển văn bản thành hình khối 3D

Anh Vũ LDO | 21/12/2022 20:00
Không dừng lại ở vẽ tranh từ văn bản, OpenAI vừa tung ra một trí tuệ nhân tạo (AI) với khả năng chuyển văn bản thành hình khối 3D.

OpenAI, công ty khởi nghiệp về trí tuệ nhân tạo do Elon Musk sáng lập, đã công bố về việc phát hành trình tạo hình ảnh theo yêu cầu mới nhất mang tên POINT-E. Sản phẩm mới của công ty thể tạo ra các hình ảnh 3D trực tiếp từ văn bản.

Đây cũng là công ty đứng sau trình chuyển văn bản thành hình ảnh DALL-E phổ biến thế giới trong thời gian qua. Trong khi các hệ thống tương tự hiện có như DreamFusion của Google thường yêu cầu máy mạnh và thời gian dài để tạo hình ảnh, thì Point-E chỉ cần một hoặc hai phút với các máy tính phổ thông, theo Engadget.

Các hệ thống chuyển văn bản thành hình ảnh như DALL-E 2 và Craiyon, DeepAI, Lensa hoặc Stable Diffusion đã nhanh chóng trở nên phổ biến, thu về cả những lời khen và tai tiếng trong những năm gần đây và Text-to-3D (tạo hình ảnh 3D từ văn bản chỉ dẫn) là một nhánh của nghiên cứu đó.

DALL-E là một sản phẩm nổi tiếng của OpenAI, công ty khởi nghiệp do Elon Musk đồng sáng lập. Ảnh: AFP

Point-E, không giống như các hệ thống tương tự, đã "tận dụng một khối lượng lớn các cặp văn bản và hình ảnh, cho phép nó tuân theo các yêu cầu đa dạng và phức tạp, trong khi mô hình chuyển đổi hình ảnh thành 3D của chúng tôi được đào tạo trên một tập dữ liệu nhỏ hơn", nhóm nghiên cứu OpenAI do Alex Nichol đứng đầu đã viết trong báo cáo “Point-E: Hệ thống tạo các đám mây 3D từ các gợi ý phức tạp”, được xuất bản vào tuần trước. 

"Để tạo đối tượng 3D từ lời nhắc văn bản, trước tiên chúng tôi lấy mẫu hình ảnh bằng cách sử dụng mô hình chuyển văn bản thành hình ảnh, sau đó lấy mẫu đối tượng 3D dựa trên hình ảnh được lấy mẫu. Cả hai bước này có thể được thực hiện trong vài giây, và không yêu cầu các thủ tục tối ưu hóa đắt tiền”, ông cho biết thêm.

Nếu người dùng nhập một lời nhắc văn bản, chẳng hạn như "Một con mèo đang ăn bánh", trước tiên, Point-E sẽ tạo một kết xuất 3D (bản render 3D - Hình ảnh mẫu dưới dạng 3D) của con mèo đang ăn bánh. Sau đó, nó sẽ chạy hình ảnh được tạo đó thông qua một loạt mô hình khuếch tán để dựng hình khối 3D của hình ảnh ban đầu”.

Mô hình 3D hiện đang được sử dụng trong nhiều ngành công nghiệp và ứng dụng khác nhau. Hiệu ứng CGI của các bộ phim bom tấn hiện đại, trò chơi điện tử, VR và AR, nhiệm vụ lập bản đồ miệng núi lửa trên mặt trăng của NASA, các dự án bảo tồn di sản của Google và tầm nhìn của Meta cho Metaverse đều xoay quanh khả năng tạo mô hình 3D. Tuy nhiên, việc tạo hình ảnh 3D chân thực vẫn là một quá trình tốn tài nguyên và thời gian, mặc dù NVIDIA đã nỗ lực tự động hóa rất nhiều.

Tin mới nhất

Gợi ý dành cho bạn