Hiệp 1 của Sam Altman vs Sundar Pichai: 1-0

Các tính năng mới của ChatGPT cũng khiến một triệu người theo dõi Livestream ngày hôm qua hào hứng.

Rạng sáng hôm qua theo giờ Việt Nam, OpenAI đã công bố cập nhật sản phẩm (OpenAI Spring Update) trong đó giới thiệu mô hình mới GPT-4o (omni). Không có GPT-5, không có Search như thông tin rò rỉ từ Jimmy Apples.

Tuy nhiên, các tính năng mới của ChatGPT cũng khiến một triệu người theo dõi Livestream ngày hôm qua hào hứng. Đặc biệt là tính năng tương tác thời gian thực qua giọng nói khiến ta có cảm tưởng như đang nói chuyện với một "loài số" (digital species), một Samantha không chỉ là một trợ lý ảo thông minh mà còn có khả năng cảm nhận và học hỏi từ môi trường xung quanh như trong phim bộ phim (Her) khoa học viễn tưởng lãng mạn năm 2013 do Spike Jonze viết kịch bản và đạo diễn.

Các tính năng các bạn có thể xem tóm tắt ở bảng sau. Tuy nhiên, sau đây là những đánh giá sơ bộ về kỹ thuật.

442475950-10225723298970099-4062083359353598446-n-1715655337.jpg

Trong thử nghiệm của Langchain, cho thấy GPT-4o:

+ Cải thiện khiêm tốn (~2%) về độ chính xác của RAG

+ Cải thiện đáng chú ý (~29%) về độ trễ p50

+ Chi phí được báo cáo là giảm ~50%.

Kết quả đánh giá từ AbacusAI (CEO Bindu reddy) về khả năng lập luận và coding:

GPT-4o:

+Nhiệm vụ thành công lập luận- 79/96

+Nhiệm vụ thành công về coding - 52 / 65

GPT-4

+Nhiệm vụ thành công lập luận - 90/96

+Nhiệm vụ thành công về coding- 60/65

Như vậy, theo đánh giá ban đầu 4o có kẻ kém GPT-4 ở tác vụ khó khăn về mặt thông minh của LLM (lập luận và coding). Tuy nhiên, phiên bản im-also-a-good-gpt2-chatbot (phiên bản giấu mặt của GPT-4o) đat điểm ELO 1310 so với điểm ELO 1253 của GPT-4, đứng thứ 2 trong bản xếp hạng của LMSYS.

Tất cả chỉ mới ở giai đoạn đầu của 4o, cộng đồng mạng sẽ test kỹ hơn mô hình mới này.

Có vẻ như Microsoft và OpenAI đang dẫn trước Google ở hiệp đầu. Đêm nay, Sundar Pichai sẽ ra đòn thế nào?