ĐỜI SỐNG

AI Gemini của Google vượt trội về đa phương thức, thông minh hơn GPT-4

Thiện Thuật • 16-12-2023 • Lượt xem: 1405
AI Gemini của Google vượt trội về đa phương thức, thông minh hơn GPT-4

Google vừa công bố chính thức mô hình trí tuệ nhân tạo Gemini được đánh giá là một trong những mô hình tiên tiến và tổng quát nhất của công ty đến thời điểm hiện tại. Được thiết kế để cạnh tranh với GPT-4 của OpenAI, Gemini đánh dấu một bước tiến quan trọng trong lĩnh vực trí tuệ nhân tạo, được đánh giá cao về khả năng tổng hợp thông tin và sử dụng đa phương thức.

Mô hình AI đa phương thức đầu tiên của Google

Gemini, mô hình đầu tiên được công bố sau Hội nghị thượng đỉnh về an toàn AI toàn cầu, đánh dấu một bước quan trọng trong hợp tác giữa các công ty công nghệ và chính phủ để kiểm nghiệm thử hệ thống tiên tiến trước và sau khi chúng được triển khai.

Demis Hassabis, giám đốc điều hành của DeepMind, đơn vị nằm trong Google tại London mô tả Gemini là dự án phức tạp và lớn nhất mà họ từng thực hiện. Ông cho biết: “Đây là mô hình phức tạp và đa phương thức có khả năng hiểu và xử lý văn bản, âm thanh, hình ảnh, video và mã máy tính đồng thời”.

Không giống những mô hình ngôn ngữ lớn phổ biến gần đây, Gemini được xây dựng theo hướng đa phương thức, có khả năng tổng hợp, xử lý và hiểu thông tin trên nhiều định dạng khác nhau, bao gồm văn bản, mã nguồn, âm thanh, hình ảnh và video.

Để đáp ứng nhu cầu sử dụng linh hoạt từ các trung tâm dữ liệu đến thiết bị di động, Google thông báo rằng Gemini 1.0 sẽ được cung cấp dưới ba biến thể kích thước khác nhau: Gemini Ultra, Gemini Pro và Gemini Nano. Trong số này, Gemini Ultra đại diện cho mô hình kích thước lớn nhất và mạnh mẽ nhất trong loạt sản phẩm này.

AI đầu tiên vượt qua con người ở cấp độ chuyên gia

Trong các video quảng cáo, mô hình Gemini Ultra thể hiện khả năng hiểu và phân tích câu trả lời về bài tập vật lý viết tay của học sinh, cung cấp mẹo chi tiết và hiển thị phương trình. Phiên bản Pro của Gemini cũng được mô tả phân tích và xác định hình vẽ của một con vịt cũng như trả lời chính xác về một đoạn phim được diễn viên nghiệp dư thực hiện trên điện thoại thông minh.

Kết quả thử nghiệm được Google công bố cho biết, Gemini Ultra đã đạt được 90% trong bài kiểm tra khả năng hiểu ngôn ngữ đa nhiệm lớn (MMLU). Mô hình này sử dụng một tổ hợp gồm 57 môn học như toán, vật lý, lịch sử, luật, y học và đạo đức để kiểm tra kiến thức về thế giới và khả năng giải quyết vấn đề, đồng thời sử dụng khả năng của mình để nghĩ kỹ hơn trước khi trả lời những câu hỏi khó.

Với kết quả này, Gemini là AI đầu tiên vượt qua con người ở cấp độ chuyên gia, với điểm số 89,8% trong bài kiểm tra tương tự. Trong khi đó, kết quả của GPT-4 là 87%, LLAMA-2 đạt 68%, và Claude 2 của Anthropic đạt 78,5%.

Ngoài ra, phiên bản mạnh nhất của Gemini cũng vượt qua 30 trong số 32 tiêu chuẩn trong nghiên cứu và phát triển mô hình ngôn ngữ lớn, đạt điểm 59,4% về khả năng hiểu biết lớn về đa phương thức trên đa ngành (MMMU), bao gồm các tác vụ đa phương thức trải rộng trên các lĩnh vực khác nhau đòi hỏi suy luận có chủ ý.

Gemini vượt trội về đa phương thức, nhưng GPT-4 mạnh hơn trong suy luận logic

Theo Google, mô hình GPT-4 vượt trội so với Gemini Ultra một số điểm phần trăm trong khả năng suy luận logic thông thường dành cho các công việc hàng ngày. Tuy nhiên, Google nhấn mạnh một ưu điểm của Gemini là tính đa phương thức, tức là nó được xây dựng từ đầu để xử lý nhiều loại dữ liệu khác nhau, bao gồm văn bản, âm thanh, mã, hình ảnh và video.

Oriol Vinyals, Phó chủ tịch Nghiên cứu của Google DeepMind, mô tả rằng các mô hình đa phương thức khác thường được tạo ra bằng cách ghép nối những mô hình chỉ có thể xử lý văn bản, chỉ có thể xử lý hình ảnh hoặc chỉ có thể xử lý âm thanh theo một cách tối ưu. Do đó, Google cho rằng thiết kế của Gemini giúp nó hiểu đầu vào tốt hơn so với các mô hình đa phương thức khác.

Các nhà nghiên cứu tại blog công nghệ SemiAnalysis cũng chỉ ra rằng Gemini có khả năng vượt qua GPT-4 về sức mạnh tính toán tuyệt đối. Mặc dù bản Ultra của Gemini được kỳ vọng cao, nhưng sẽ còn phải chờ xem làm thế nào bộ ba mô hình Gemini của Google sẽ so sánh với OpenAI, đặc biệt là khi OpenAI đã có lợi thế trong cộng đồng người dùng.

AI của tương lai, nhưng vẫn còn những thách thức

Mặc dù đã đầu tư nhiều nỗ lực vào AI Gemini, nhưng Google cũng thừa nhận vấn đề ảo giác là hiện tượng mà hệ thống tự tạo ra câu trả lời không đúng, một vấn đề phổ biến trên hầu hết các mô hình AI. Ông Eli Collins, người đứng đầu sản phẩm tại Google DeepMind, cho biết: “Tôi có thể khẳng định rằng đây vẫn là một vấn đề nghiên cứu chưa được giải quyết”.

Ông Demis Hassabis chia sẻ rằng dữ liệu được sử dụng để đào tạo Gemini được lấy từ nhiều nguồn khác nhau, bao gồm cả trang web công cộng. Sự sáng tạo và xuất bản ngành công nghiệp đã phản đối việc sử dụng nội dung có bản quyền trực tuyến để xây dựng mô hình AI.

Mặc dù tất cả các phiên bản của Gemini đều có khả năng đa phương thức và có thể hiểu theo nhiều loại lời nhắc, nhưng hiện tại, các phiên bản Pro và Nano, được phát hành công khai trong tháng này, chỉ có thể cung cấp phản hồi dưới dạng văn bản hoặc mã.