OpenAI Nâng Cấp Mô Hình AI Với Tính Năng Giọng Nói và Thị Giác Tiên Tiến

OpenAI đã giới thiệu những cập nhật quan trọng cho các mô hình AI của mình, nâng cao khả năng tương tác giọng nói theo thời gian thực và nhận diện hình ảnh.

OpenAI đã bắt đầu tháng Mười với một loạt cập nhật cho các mô hình AI của mình, tập trung vào việc cải thiện khả năng giao tiếp và nâng cao khả năng nhận diện hình ảnh.

Vào ngày 1 tháng 10, OpenAI đã công bố bốn cập nhật mới bao gồm các công cụ được thiết kế để đơn giản hóa quá trình phát triển trên các nền tảng của họ.

Tăng Cường Tương Tác Giọng Nói

Một cập nhật quan trọng là sự ra mắt của Realtime API, cho phép các nhà phát triển xây dựng các ứng dụng giọng nói do AI điều khiển bằng cách sử dụng một lời nhắc duy nhất.

Công cụ này, hiện đang trong giai đoạn thử nghiệm, hỗ trợ trải nghiệm đa phương tiện với độ trễ thấp thông qua việc phát trực tiếp các đầu vào và đầu ra âm thanh, mô phỏng dòng chảy tự nhiên của cuộc trò chuyện như trong Chế độ Giọng Nói Nâng Cao của ChatGPT.

Trước đây, việc tạo ra các ứng dụng giọng nói theo thời gian thực yêu cầu các nhà phát triển phải kết hợp nhiều mô hình, điều này làm tăng độ trễ vì các đầu vào âm thanh cần được xử lý hoàn toàn trước khi có thể tạo ra phản hồi.

Với tính năng phát trực tiếp của Realtime API, các nhà phát triển hiện có thể tạo ra các ứng dụng hỗ trợ tương tác tức thì, tự nhiên, tương tự như trợ lý giọng nói. API này hoạt động trên mô hình GPT-4, được ra mắt vào tháng 5 năm 2024, có khả năng xử lý âm thanh, thị giác và văn bản theo thời gian thực.

Nâng Cao Nhận Diện Thị Giác

Một cập nhật khác giới thiệu công cụ điều chỉnh tinh chỉnh cho các nhà phát triển, nhằm cải thiện phản hồi của AI dựa trên đầu vào hình ảnh và văn bản.

Công cụ tinh chỉnh dựa trên hình ảnh cải thiện khả năng của AI trong việc giải thích hình ảnh, từ đó nâng cao khả năng tìm kiếm thị giác và phát hiện đối tượng. Quá trình này liên quan đến phản hồi từ con người, nơi các ví dụ về phản hồi đúng và sai được cung cấp.

Ngoài những cải tiến về giọng nói và thị giác này, OpenAI đã triển khai 'chưng cất mô hình' và 'lưu trữ lời nhắc', cho phép các mô hình nhỏ học hỏi từ các mô hình lớn hơn và giảm cả chi phí phát triển và thời gian bằng cách tái sử dụng văn bản đã được xử lý.

Các tính năng tiên tiến của các mô hình của OpenAI là rất quan trọng vì chúng thúc đẩy doanh thu đáng kể từ các doanh nghiệp phát triển ứng dụng sử dụng công nghệ của OpenAI.

OpenAI dự đoán doanh thu của họ sẽ tăng lên 11,6 tỷ đô la vào năm tới, từ mức ước tính 3,7 tỷ đô la trong năm 2024.

Theo Cointelegraph

Tin khác

Trí tuệ nhân tạo phi tập trung: Chìa khóa bảo vệ tương lai của nhân loại

02/10/2024

Chính sách tiết lộ IP của Telegram đã được áp dụng từ năm 2018, CEO làm rõ

02/10/2024

Quỹ ETF Ethereum của Fidelity ghi nhận dòng vốn rút lớn nhất hàng ngày kể từ khi ra mắt

02/10/2024

Chiến lược AI của Apple và Google để duy trì sự thống trị ngành: Những hiểu biết từ ARK Invest

02/10/2024

Cảnh sát Liên bang Úc Giải Mã Cụm Từ Khóa để Chiếm Đoạt 6,4 Triệu Đô La Crypto

02/10/2024