SORA LÀ GÌ?
Sora là gì? Hãy cùng tìm hiểu về hô hình AI mới này có gì đặc biệt nhé
OpenAI (công ty phát hành ra Chatgpt) hôm nay giới thiệu Sora, một mô hình chuyển văn bản thành video. Mô hình tạo các video clip ngắn dựa trên lời nhắc của người dùng và cũng có thể mở rộng các video ngắn hiện có. Sora được phát hành công khai cho người dùng ChatGPT Plus và ChatGPT Pro vào tháng 12 năm 2024
Lịch sử hình thành
Một số mô hình tạo văn bản thành video khác đã được tạo trước Sora, bao gồm Make-A-Video của Meta, Gen-2 của Runway và Lumiere của Google, mô hình cuối cùng trong số đó, tính đến tháng 2 năm 2024, vẫn đang trong giai đoạn nghiên cứu. OpenAI, công ty đứng sau Sora, đã phát hành DALL•E 3, mẫu thứ ba trong số các mẫu chuyển văn bản thành hình ảnh DALL-E, vào tháng 9 năm 2023
Nhóm phát triển Sora đã đặt tên nó theo từ tiếng Nhật có nghĩa là bầu trời để biểu thị "tiềm năng sáng tạo vô hạn" của nó. Vào ngày 15 tháng 2 năm 2024, OpenAI lần đầu tiên xem trước Sora bằng cách phát hành nhiều clip video độ phân giải cao mà nó tạo ra, bao gồm một chiếc SUV lái xe xuống đường núi, hoạt hình về một "con quái vật lông ngắn" bên cạnh một ngọn nến, hai người đang đi qua Tokyo trong tuyết và cảnh quay lịch sử giả mạo về cơn sốt vàng ở California, đồng thời tuyên bố rằng họ có thể tạo video dài tối đa một phút. Sau đó, công ty đã chia sẻ một báo cáo kỹ thuật, trong đó nêu bật các phương pháp được sử dụng để đào tạo mô hình. Giám đốc điều hành OpenAI Sam Altman cũng đăng một loạt tweet, phản hồi lời nhắc của người dùng Twitter bằng các video về lời nhắc do Sora tạo.
OpenAI đã tuyên bố rằng họ có kế hoạch cung cấp Sora cho công chúng nhưng điều đó sẽ không sớm; nó chưa xác định khi nào. Công ty đã cung cấp quyền truy cập hạn chế cho một "đội đỏ" nhỏ, bao gồm các chuyên gia về thông tin sai lệch và thành kiến, để thực hiện thử nghiệm đối nghịch trên mô hình.[3] Công ty cũng chia sẻ Sora với một nhóm nhỏ các chuyên gia sáng tạo, bao gồm các nhà sản xuất video và nghệ sĩ, để tìm kiếm phản hồi về tính hữu ích của nó trong các lĩnh vực sáng tạo
Vào ngày 24 tháng 11 năm 2024, một khóa API để truy cập Sora đã bị rò rỉ bởi một nhóm người thử nghiệm trên Hugging Face. Họ đã đăng một tuyên ngôn cho biết họ phản đối việc Sora được sử dụng để "rửa tác phẩm nghệ thuật". OpenAI đã thu hồi quyền truy cập ba giờ sau khi vụ rò rỉ được công khai và đưa ra tuyên bố rằng "hàng trăm nghệ sĩ" đã định hình sự phát triển và "sự tham gia là tự nguyện.
Khả năng và hạn chế
Công nghệ đằng sau Sora là sự chuyển thể từ công nghệ đằng sau DALL-E 3. Theo OpenAI, Sora là một máy biến áp khuếch tán – một mô hình khuếch tán tiềm ẩn khử nhiễu với một Máy biến áp làm bộ khử nhiễu. Một video được tạo trong không gian tiềm ẩn bằng cách khử nhiễu các "bản vá" 3D, sau đó được chuyển đổi sang không gian tiêu chuẩn bằng bộ giải nén video. Phụ đề lại được sử dụng để tăng cường dữ liệu đào tạo bằng cách sử dụng mô hình chuyển video thành văn bản để tạo phụ đề chi tiết trên video.
OpenAI đã đào tạo mô hình bằng cách sử dụng các video có sẵn công khai cũng như các video có bản quyền được cấp phép cho mục đích này nhưng không tiết lộ số lượng hoặc nguồn chính xác của video. Sau khi phát hành, OpenAI đã thừa nhận một số thiếu sót của Sora, bao gồm cả việc gặp khó khăn trong việc mô phỏng vật lý phức tạp, hiểu được quan hệ nhân quả và phân biệt trái với phải Một ví dụ cho thấy một nhóm sói con dường như đang nhân lên và hội tụ, tạo ra một kịch bản khó theo dõi. OpenAI cũng tuyên bố rằng, để tuân thủ các biện pháp an toàn hiện có của công ty, Sora sẽ hạn chế lời nhắc bằng văn bản về hình ảnh tình dục, bạo lực, thù hận hoặc người nổi tiếng, cũng như nội dung có tài sản trí tuệ đã có từ trước.
Tim Brooks, một nhà nghiên cứu về Sora, tuyên bố rằng mô hình này đã tìm ra cách tạo đồ họa 3D chỉ từ tập dữ liệu của nó, trong khi Bill Peebles, cũng là một nhà nghiên cứu của Sora, nói rằng mô hình này tự động tạo các góc video khác nhau mà không cần được nhắc. Theo OpenAI, các video do Sora tạo ra được gắn thẻ siêu dữ liệu C2PA để cho biết rằng chúng do AI tạo ra.
Thu nhận
Will Douglas Heaven của MIT Technology Review gọi các video trình diễn là "ấn tượng", nhưng lưu ý rằng chúng hẳn đã được chọn lọc kỹ càng và có thể không đại diện cho sản phẩm điển hình của Sora. Học giả người Mỹ Oren Etzioni bày tỏ lo ngại về khả năng công nghệ này tạo ra thông tin sai lệch trực tuyến cho các chiến dịch chính trị. Đối với Wired, Steven Levy cũng viết tương tự rằng nó có khả năng trở thành "một vụ đắm tàu thông tin sai lệch" và cho rằng các đoạn xem trước của nó là "ấn tượng" nhưng "không hoàn hảo" và nó "cho thấy [ed] khả năng nắm bắt mới nổi về ngữ pháp điện ảnh" do sự thay đổi cú đánh không được báo trước của nó. Levy nói thêm, "[tôi] sẽ còn rất lâu nữa, nếu có, trước khi tính năng chuyển văn bản thành video đe dọa việc làm phim thực sự. Lisa Lacy của CNET gọi các video mẫu của mình là "rất thực tế - có lẽ ngoại trừ khi khuôn mặt con người xuất hiện ở cự ly gần hoặc khi sinh vật biển đang bơi".
Nhà làm phim Tyler Perry tuyên bố ông sẽ tạm dừng kế hoạch mở rộng xưởng phim Atlanta trị giá 800 triệu đô la theo kế hoạch, bày tỏ lo ngại về tác động tiềm tàng của Sora đối với ngành công nghiệp điện ảnh.
Mộ số sản phẩm được tạo bởi Sora
Xem thêm