Cuối tuần qua các pháp sư Trung Hoa lại làm thế giới sửng sốt khi tuyên bố ra mắt AI Agent tự chủ hoàn toàn (General AI Agent) đầu tiên trên thế giới. Một cách chơi chữ khi cố tình gọi tên na ná chữ AGI (Artificial General Intelligence) Trí thông minh nhân tạo tổng quát - mục tiêu tiến hoá của AI mà các nhà khoa học trên thế giới đang đua nhau đạt được.
Vậy bản chất của Manus AI Agent là gì ? có chứa gì đột phá công nghệ hay không ?
Về khía cạnh sản phẩm thì AI Agent của Manus AI không phải là điều mới mẻ gì, các AI Agent dạng này đã được cung cấp bởi Conductify AI từ 2023. Tuy nhiên các AI Agent trước đây tập trung cho môi trường doanh nghiệp, nên công chúng ít được biết đến. Mình đính kèm video của một AI Agent mà cty đối tác triển khai AI tại VN đã làm cho khách hàng tại VN xài hơn một năm rồi

Thứ khác biệt về sản phẩm của Manus AI so với các bên đã cung cấp AI Agent khác là họ nhắm tới việc cung cấp AI Agent cho người dùng cá nhân thay vì doanh nghiệp
[ Tuy Manus AI không chứa các đột phá về công nghệ, nhưng Manus AI lại chứa đột phá về ý tưởng tạo AI Agent ]
Mấy anh pháp sư Trung Hoa khiến mọi người sửng sốt khi giới thiệu con AI Agent này được huấn luyện sẵn kiến thức để thực hiện 50 quy trình công việc khác nhau bao trùm từ phân tích chứng khoán, phân tích số liệu, làm slides thuyết trình dạng web, đặt phòng khách sạn, lên kế hoạch tour du lịch... . Rất nhiều use case và vô cùng đa dạng, đây là điều thực sự rất ấn tượng, vì để thực hiện một AI Agent theo cách thức cũ thì dù nhanh cũng phải mất vài ngày cho một con AI Agent. Vậy mấy anh pháp sư đã có ý tưởng gì đột phá mà làm nhanh vậy ?
Mấy ảnh pháp sư đã nghĩ out-of-the-box, thay vì họ huấn luyện AI Agent làm theo một quy trình được thiết lập sẵn từng bước cho từng use case - đây là một cách tiếp cận rất truyền thống gọi là Transfer Learning (học bằng chuyển giao kiến thức) vì AI không có khả năng suy nghĩ như con người, điều mà tới tháng 8 năm 2024 con người mới giải được khi các mô hình Reasoning ra đời, để AI biết cách làm thì chỉ có cách dạy nó làm theo từng bước mà không cần suy nghĩ. Điều tuyệt vời là mấy anh pháp sư Trung Hoa tận dụng mọi tiến bộ AI gần đây để làm nên phương pháp “tổng quát hơn” (general) là mấy ảnh train cho con AI Agent một bộ skill-set gồm 6 skills quan trọng, mà con AI Agent có thể phối hợp các skill này để thực hiện vô hạn số lượng use case “giống như cách mà một nhân viên con người làm việc”
1. Skill Thinking (suy nghĩ): bao gồm Planning (lập kế hoạch) và Tracking (theo dõi kế hoạch), Recovering (tự suy nghĩ và thực hiện tiếp kế hoạch khi gặp lỗi). Skill này chính là skill cốt lõi khiến cho ý tưởng General AI Agent thành hiện thực được. AI mà không thể tự suy nghĩ thì nó sẽ phần lớn là làm sai và không thể lên một kế hoạch thực sự mà phần lớn chỉ là sao chép cái plan đâu đó từ internet về. Năng lực thinking của Manus đến từ mô hình AI Reasoning của Anthropic Claude và Alibaba Qwen QwQ, 1 của phương tây 1 của phương đông, một sự kết hợp khá tếu :))))))
2. Skill Knowledge Query: Truy vấn kiến thức từ kho kiến thức mà user chủ động upload các files lên Manus
3. Skill Search: dùng mấy công cụ tìm kiếm web để tìm kiếm trên nhiều trang search engine
4. Skill Browser use: Sử dụng trình duyệt web để truy cập một website cụ thể, nhìn và thực hiện các thao tác trên website như click, cuộn, trích xuất dữ liệu chữ, chụp màn hình trang web
5. Skill File Manage: Tạo và chỉnh sửa các file text. Tạo và chỉnh sửa file text chứa code: Python (chủ yếu là python), Javascript, HTML, CSS.
6. Skill Computer Use:
+ Cung cấp một máy tính ảo “có kết nối internet” chạy HDH Linux Ubuntu với giao diện dòng lệnh Terminal cho AI Agent sử dụng. Họ gọi nó là Manus’s Computer :)))
+ AI Agent sử dụng terminal dòng lệnh hệ điều hành Linux (Ubuntu) để thao tác với các files (tạo, xoá, sửa files), chạy file code, và chạy một số chương trình ở môi trường dòng lệnh.
+ Skill này là skill chiến nhất trong bộ skill-set. Mấy anh pháp sư Trung Hoa rất thông minh khi không chọn việc dạy AI Agent sử dụng máy tính bằng Giao Diện Phần Mềm Đồ Hoạ (Graphic User Interface) mà dạy AI Agent sử dụng Giao Diện Phần Mềm chỉ có Chữ (Text-based User Interface).
+ Là một người làm nghiên cứu Khoa học Ứng Dụng AI, khi nhận ra điều này thực sự mình bị mind-blow, đáng nhẽ mình phải nhận thức được điều này từ lâu mới phải chứ. AI gặp khó khăn trong việc nhìn cái giao diện màn hình đồ hoạ như con người hay dùng vì nó khá là khó để hiểu các khái niệm biểu tượng (icons) - trừu tượng (symbolic) mà con người dùng trên các giao diện GUI; trong khi giao diện dòng lệnh chỉ toàn chữ là thứ native AI hiểu :)))) do chúng nó là Large Language Model mà :))))))
Sau khi train ra con AI Agent có 6 cái skills quan trọng trên - Ah mà phải correct chỗ này một chút, không phải là 1 con AI Agent có 6 skills nhé mà thực ra là có tới 6 con hoặc hơn, mỗi con giữ 1 skill, chúng nó phối hợp với nhau theo hình thức Multi-Agent, mình gọi là con AI Agent cho nó đỡ rối cho bạn đọc thôi - Con AI Agent sau khi có 6 skills thì có thể trộn các skill lại với nhau để thực hiện vô hạn các use case chỉ bằng những thao tác dùng phần mềm như sau:
+ Nhận yêu cầu từ user
+ Thinking phân tích yêu cầu, và hỏi lại khi cần.
+ Dùng terminal để tạo một thư mục trong máy ảo mang tên nhiệm vụ nó phải làm, đây là nơi Manus chứa tất cả các file text ghi chú tạm công việc mà nó làm, rồi nó sẽ tạo một file text tên Todo.md để lưu tạm cái kế hoạch thực hiện công việc, cũng như dùng file này để theo dõi tiến độ thực hiện công việc. Đây chính là cái tác vụ giống y như một nhân viên khi bắt đầu làm việc đây :))) tạo một cái notes để ghi chú những việc phải làm và theo dõi coi đã làm tới đâu, kết quả ra sao.
+ Thực hiện từng task trong file Todo, tạo ra các file text ghi chú lại kết quả làm được ở từng task, chụp màn hình (của trình duyệt web) nếu cần.
+ Viết đủ loại code Python để làm tất cả các công việc liên quan tới xử lý dữ liệu hay cào dữ liệu từ internet.
+ Chạy code và fix lỗi nếu có.
+ Viết code HTML/CSS/JS để tạo các trang web report trình bày kết quả như dashboard, slide present … etc.
+ Chạy lệnh Zip mấy cái file report rồi Upload cái lên Web Server public nếu được yêu cầu và sự cho phép từ User.
Vậy đó với các bước thực hiện rất “tổng quát” (general) như trên, AI Agent có thể làm vô hạn số lượng use cases vì nó y chang như một nhân viên văn phòng được cấp cho một cái máy tính và có internet :)))))) Đặc biệt là người dùng AI thực sự không cần phải làm gì ngoài việc đưa ra yêu cầu, phần còn lại là AI nó tự làm hết Bạn-không-phải-động-não-hay-động-tay-gì-hết !
Năng lực của AI Agent rõ ràng là chỉ còn giới hạn ở sự tưởng tượng của con người thôi :)))) nghĩ được là sai AI Agent làm được :)))))
Dĩ nhiên cuộc đời chắc chắn không chỉ màu hồng. Độ chính xác của AI Agent Manus là có giới hạn, nó vẫn gặp tình trạng “nghĩ sai và làm sai” cần con người ngồi canh và hỗ trợ chỉ dẫn cho nó khi cần. Nên việc Monica ca ngợi đây là AI Agent tự chủ hoàn toàn (General AI Agent) thì có phần hơi cường điệu, độ chính xác vẫn còn xa lắm mới tới mức an toàn để phục vụ cho môi trường doanh nghiệp (có lẽ do vậy Manus AI chủ yếu hướng tới người dùng Cá Nhân trong phần demo hiện nay, có sai sót thì nghe chửi chứ không phải đền tiền). Do đó phương pháp làm AI Agent theo phương thức đào tạo từng bước quy trình cho AI vẫn sẽ là phương thức chủ đạo trong ngắn hạn để làm AI Agent cho doanh nghiệp, cho tới khi các phương pháp gia tăng độ chính xác của các mô hình AI LLM hiệu quả hơn hiện nay.
Mình thực sự có phần rất nể và cám ơn các pháp sư Trung Hoa của công ty Monica AI về ý tưởng General AI Agent đột phá của họ. Các phù thuỷ Mỹ của Cty Conductify AI đã bắt đầu bắt tay vào làm ngay ý tưởng Genenal AI Agent có 6 general skills này rồi. Chúng tôi sẽ sớm cung cấp cho các khách hàng năng lực AI Agent tương tự Manus nhưng dùng các công nghệ gia tăng độ chính xác của AI lên đạt chuẩn phục vụ doanh nghiệp - công nghệ độc quyền của Conductify AI - trong vài tuần tới.
--
Đây là một bài thuộc bản tin FukAI News 04 tuần này còn nhiều bài hay nữa đã được gửi qua Newsletter
Nếu bạn thấy hay thì like và SHARE giúp mình để cứu reach trời ơi bài chia sẻ kiến thức của mình toàn bị Meta AI nó bóp reach cho flop không ah
-----------
Nguồn: Hong Phuc Nguyen
https://www.facebook.com/xnohat/posts/pfbid0zB9QzSucJSzLXK7uoC3LaQWHKxzULzfnfvcfXhiZYd7Z5pavBsHNoDQ2pK2W4e6Kl