Nari Labs trình làng mô hình AI tạo giọng nói podcast cực chất từ NotebookLM

Trong một thị trường đang bão hòa bởi những cái tên như ElevenLabs hay PlayAI, sự xuất hiện của Dia giống như một luồng gió mới, đầy táo bạo và mang tinh thần “tự làm, tự sở hữu”.

Sự khởi đầu từ giới hạn và bước tiến nhờ tốc độ

Chỉ ba tháng trước, nhóm sáng lập Nari Labs vẫn còn là những cái tên vô danh trong bản đồ AI toàn cầu. Nhưng trong một thế giới nơi tốc độ là lợi thế cạnh tranh mạnh nhất, họ không chọn cách "xây để chờ", mà tập trung vào tính linh hoạt, thứ mà người dùng chuyên nghiệp ngày càng khát khao.

Lấy cảm hứng từ Google’s NotebookLM nhưng đi theo hướng mở hơn, Dia không chỉ là AI đọc kịch bản mà là bạn diễn số có thể cảm xúc hóa, nhấn nhá và… biết cười đúng lúc. Chính điều này đã làm nên sự khác biệt trong thị trường ngày càng đông đúc của các công cụ chuyển văn bản thành giọng nói.

Nari Labs ra mắt AI tạo giọng nói podcast tương tự NotebookLM

Mô hình Dia sở hữu 1.6 tỷ tham số, một con số không quá lớn so với các LLM hiện tại, nhưng được tối ưu để thực hiện một nhiệm vụ duy nhất: tái tạo giọng nói tự nhiên với chiều sâu cảm xúc. Khả năng điều chỉnh tone, lồng tiếng ho, cười, ngập ngừng… mang lại trải nghiệm nghe giống như trò chuyện với một người thật, chứ không phải một máy phát âm thanh.

Điểm đặc biệt là Dia có thể nhân bản giọng nói chính xác, phục vụ cho các nhu cầu chính đáng như sản xuất podcast, nội dung giáo dục, hoặc khôi phục giọng nói cho người mất khả năng phát âm. Mọi thứ đều được tối ưu để chạy tốt trên thiết bị phổ thông, không yêu cầu GPU cao cấp, mở rộng khả năng tiếp cận của người dùng trên diện rộng.

TechCrunch, một trong những tạp chí công nghệ khó tính đã có những trải nghiệm thực tế với Dia và dành lời khen về chất lượng giọng nói, độ mượt và dễ dùng. Với khả năng trò chuyện hai chiều không vấp và tính năng nhân giọng chỉ qua vài đoạn thu mẫu, Dia đã vượt xa kỳ vọng của một sản phẩm đến từ một đội ngũ non trẻ.

Điều này cho thấy “deep tech” không còn là sân chơi riêng của các ông lớn, mà những đội ngũ nhỏ, linh hoạt, biết lắng nghe cộng đồng hoàn toàn có thể tạo ra sản phẩm chất lượng, nhanh hơn, nhẹ hơn và… gần người dùng hơn.

Tuy ấn tượng, Dia cũng phải đối mặt với bài toán khó muôn thuở của công nghệ AI: đạo đức và kiểm soát. Khả năng nhân giọng, nếu rơi vào tay kẻ xấu, hoàn toàn có thể biến Dia thành công cụ cho deepfake, giả mạo danh tính hoặc lừa đảo. Trên trang chủ, Nari Labs đã đưa ra cảnh báo sử dụng và tuyên bố miễn trách nhiệm, một bước đi cần thiết, nhưng chưa đủ để giải tỏa mọi lo ngại.

Vấn đề đặt ra không còn là “AI có thể làm gì” mà là “chúng ta cho phép AI được làm đến đâu”, đặc biệt khi những công cụ như Dia ngày càng dễ tiếp cận.

Nari Labs không giấu tham vọng khi họ đang lên kế hoạch mở rộng Dia thành một nền tảng tích hợp, nơi người dùng có thể chia sẻ giọng, xây dựng nhân vật, hoặc thậm chí hợp tác để tạo kịch bản tương tác, gần như một mạng xã hội dành cho sáng tạo âm thanh.

Việc công bố báo cáo kỹ thuật chi tiết và hỗ trợ đa ngôn ngữ cho thấy Nari Labs không chỉ muốn “nói tiếng Anh tốt” mà muốn “nói được mọi ngôn ngữ của thế giới”. Đây là yếu tố then chốt nếu họ muốn mở rộng ra thị trường toàn cầu, đặc biệt là ở châu Á, châu Phi, nơi các sản phẩm AI hiện nay vẫn còn thiếu bản địa hóa.

Xem thêm:

Nari Labs trình làng mô hình AI tạo giọng nói podcast cực chất từ NotebookLM

Nguồn: TechCrunch

Nari Labs ra mắt AI tạo giọng nói podcast tương tự NotebookLM

Sự khởi đầu từ giới hạn và bước tiến nhờ tốc độ