您现在的位置是:Ngoại Hạng Anh >>正文
Câu chuyện đằng sau mô hình ngôn ngữ lớn của Zalo
Ngoại Hạng Anh8人已围观
简介Tuy nhiên,âuchuyệnđằngsaumôhìnhngônngữlớncủlịch thi đấu giải quốc gia ý trái ngược với những nhận đị...
Tuy nhiên,âuchuyệnđằngsaumôhìnhngônngữlớncủlịch thi đấu giải quốc gia ý trái ngược với những nhận định “bóng bẩy” thường thấy về các cột mốc thành công, anh Nguyễn Bá Đạt - Giám đốc nhóm Sản phẩm AI của Zalo, cho rằng: “Nhóm phát triển vẫn cần phải nỗ lực hơn nữa, vì việc phát triển AI cho Việt Nam là một hành trình nhiều thử thách”.

Nhiệm vụ tưởng chừng bất khả thi
Làn sóng AI tạo sinh (GenAI) đã mang lại nhiều kỳ vọng về sự phát triển mạnh mẽ của ngành công nghệ Việt Nam. Trong thời gian qua, các đơn vị nghiên cứu AI trong nước đã nhanh chóng đầu tư nghiên cứu GenAI. Chỉ 1 năm sau khi OpenAI ra mắt ChatGPT, Việt Nam cũng đã huấn luyện được mô hình ngôn ngữ lớn của riêng mình. Tuy nhiên, với xuất phát điểm muộn hơn và thiếu kinh nghiệm, hành trình này đòi hỏi nỗ lực gấp nhiều lần.
Dự án phát triển mô hình ngôn ngữ lớn của Zalo có tốc độ ấn tượng. Chỉ trong vòng 6 tháng, Zalo đã thần tốc triển khai hạ tầng tính toán, và thành công xây dựng mô hình ngôn ngữ lớn với 7 tỷ tham số tập trung vào tiếng Việt. Đến cuối năm 2023, LLM của Zalo đã đạt 150% năng lực so với GPT-3.5 của OpenAI trên bộ tiêu chuẩn đánh giá năng lực tiêu chuẩn VMLU (Vietnamese Multitask Language Understanding Benchmark Suite), gồm hơn 10.000 câu hỏi thuộc hơn 50 lĩnh vực khác nhau về khoa học tự nhiên, xã hội, STEM...

Nhìn lại hành trình phát triển LLM, anh Đạt nhận định đó là quá trình “lửa thử vàng, gian nan thử sức”. Anh nhấn mạnh rằng nếu không có niềm đam mê lớn, sẽ rất khó để có thể kiên trì theo đuổi đến cùng.
“3 cái thiếu” mà kĩ sư Zalo đã phải vượt qua
Chia sẻ cụ thể hơn về những khó khăn mà các kĩ sư gặp phải khi huấn luyện LLM tiếng Việt, anh Đạt đúc kết thành “3 cái thiếu”: thiếu hạ tầng tính toán, thiếu dữ liệu, và thiếu nguồn lực.
Về hạ tầng tính toán, các kĩ sư Việt Nam phải đối mặt với một “cuộc đua” không cân sức. Trong khi các công ty lớn trên thế giới như OpenAI hay Meta sở hữu hàng nghìn GPU mới nhất từ Nvidia. Thì tại Việt Nam, vào thời điểm bắt đầu huấn luyện LLM, các kĩ sư vẫn chưa được trang bị đầy đủ hạ tầng máy chủ cần thiết.
Về “cái thiếu” thứ hai, anh Đạt chia sẻ rằng tiếng Việt thiệt thòi hơn so với các ngôn ngữ khác như tiếng Anh hay tiếng Trung, vốn có nguồn dữ liệu số hóa phong phú. Tiếng Việt được xếp vào nhóm “low-resource”, với tài nguyên dữ liệu nghèo nàn hơn hàng chục lần. Ngoài ra, khi so với các quốc gia phát triển, Việt Nam còn hạn chế về cả nguồn lực con người lẫn kinh nghiệm trong việc huấn luyện LLM.
Để vượt qua những khó khăn này, đội ngũ kĩ sư đã làm việc nghiêm túc và quyết tâm cao độ. Trước hết, là phải quyết tâm xây dựng hạ tầng tính toán đủ mạnh. Với nỗ lực tối đa, chỉ trong nửa cuối năm 2023 Zalo đã thành công trong việc xây dựng hệ thống gồm 8 máy chủ DGX H100, dòng GPU mới nhất và khan hiếm nhất của Nvidia.
Thậm chí, ngay cả khi chưa mua được GPU từ Nvidia, các kĩ sư Zalo đã tận dụng các GPU dân dụng nhỏ có sẵn để thực hiện một loạt các nghiên cứu trong khả năng của mình. Nhờ vậy, khi có hạ tầng tính toán lớn, đội ngũ kĩ sư đã sẵn sàng về kiến thức và năng lực để tiến hành huấn luyện LLM ngay.

Ngoài ra, theo anh Đạt, kết quả của dự án không chỉ đến từ sự nghiêm túc chuẩn bị, và sự nhiệt huyết của từng thành viên trong đội ngũ phát triển LLM, mà còn đến từ sự đúng đắn trong chiến lược đầu tư làm dữ liệu huấn luyện chất lượng “instructions” để bù đắp điểm yếu "low-resource" đối với dữ liệu tiếng Việt. Những kinh nghiệm quý giá này được tham khảo sau nhiều buổi trao đổi, tham vấn các nhà nghiên cứu, kĩ sư tại nhiều viện nghiên cứu hàng đầu trên thế giới.
Cơ hội lẫn thách thức đang chờ đón
Anh Đạt chia sẻ rằng việc huấn luyện mô hình LLM chỉ là bước đầu tiên trong một chặng đường dài theo đuổi AI của Zalo. Ngoài việc tiếp tục nghiên cứu, huấn luyện ra những mô hình lớn hơn về lượng, tốt hơn về chất, ứng dụng LLM để tạo giá trị cho người người dùng mới là đích đến sau cùng của đội ngũ phát triển. Ứng dụng đó có thể là những "chatbot thông minh" hỗ trợ chăm sóc khách hàng, hoặc những công cụ giúp mọi người nâng cao hiệu suất công việc, sáng tạo nội dung...
Vừa qua, Zalo cũng đã thử nghiệm ứng dụng Kiki Giao Thông, tích hợp dưới dạng Official Account ngay trên nền tảng Zalo. Ứng dụng được cộng đồng người dùng đánh giá cao nhờ khả năng hỗ trợ hỏi đáp các tình huống lỗi vi phạm luật giao thông Việt Nam, với độ chính xác vượt trội.
“Với đội ngũ kĩ sư AI của Zalo, thách thức không phải là khó khăn, mà là cơ hội để thực hiện những điều lớn lao và có ý nghĩa. Nó không chỉ thúc đẩy sự phát triển, mà còn mang lại niềm vui và động lực làm việc mỗi ngày”. Với niềm đam mê và tinh thần không ngại khó, anh Đạt tin rằng đội ngũ kĩ sư Zalo sẽ tiếp tục tạo ra nhiều sản phẩm AI đẳng cấp thế giới và hữu ích hơn nữa.
Việt Nam hiện đang xếp hạng 59/193 quốc gia trên Báo cáo "Chỉ số sẵn sàng AI của chính phủ" (Government AI Readiness Index) do Oxford Insights (Vương quốc Anh) thực hiện, vượt mức trung bình của thế giới. Tại ASEAN, trong năm 2023 Việt Nam tăng 1 bậc, xếp vị trí số 5/10 quốc gia trong khu vực. Zalo là đơn vị đi đầu trong lĩnh vực AI tại Việt Nam, từ năm 2017. Hiện tại Zalo sở hữu 4 trung tâm nghiên cứu AI Lab, với hơn 80 nhà nghiên cứu và hạ tầng mạnh mẽ, trong đó có hệ thống máy chủ gồm 8 DGX H100 có năng lực xử lý hàng đầu Việt Nam với hiệu suất lên đến 256 petaFLOPS (FLoating-point Operations Per Second). Các sản phẩm AI nổi bật của Zalo có thể kể đến: trợ lý giọng nói Kiki, công nghệ nhận dạng tiếng nói (dictation và voice-to-text), công nghệ tổng hợp tiếng nói (text-to-speech), công nghệ nhận dạng khuôn mặt (FaceID), công nghệ định danh điện tử (eKYC), công nghệ AI tạo sinh (AI Avatar, AI Sticker),... |
Đậu Linh
Tags:
相关文章
Nhận định, soi kèo Rotherham vs Wycombe, 2h45 ngày 19/3: Kẻ ngáng đường
Ngoại Hạng AnhPhạm Xuân Hải - 18/03/2025 05:25 Nhận định bó ...
阅读更多Siêu máy tính dự đoán Rangers vs Fenerbahce, 3h00 ngày 14/3
Ngoại Hạng AnhPhạm Xuân Hải - 13/03/2025 06:54 Máy tính dự ...
阅读更多Nhận định, soi kèo Avispa Fukuoka vs FC Tokyo, 12h00 ngày 15/3: Tiếp tục chiến thắng
Ngoại Hạng AnhHồng Quân - 14/03/2025 16:07 Nhật Bản ...
阅读更多
热门文章
- Nhận định, soi kèo Hà Lan vs Tây Ban Nha, 2h45 ngày 21/3: Đâu dễ cho Bò tót
- Siêu máy tính dự đoán St. Pauli vs Hoffenheim, 02h30 ngày 15/3
- Nhận định, soi kèo Guangdong Shudihong vs Guizhou Zhucheng, 19h00 ngày 14/3: Nỗi buồn kéo dài
- Soi kèo góc AC Milan vs Como, 0h00 ngày 16/3
- Nhận định, soi kèo New Caledonia vs Tahiti, 09h10 ngày 21/3: Vé cho Tahiti
- Soi kèo góc AC Milan vs Como, 0h00 ngày 16/3
最新文章
-
Nhận định, soi kèo Malawi vs Namibia, 23h00 ngày 20/3: Vượt mặt khách
-
Nhận định, soi kèo Slavia Sofia vs Beroe, 20h15 ngày 14/3: Cửa trên đáng tin
-
Nhận định, soi kèo Torino vs Empoli, 02h45 ngày 16/3: Khách chưa thể bật dậy
-
Nhận định, soi kèo Las Palmas vs Alaves, 3h00 ngày 15/3: Thừa thắng xông lên
-
Nhận định, soi kèo U19 Đức vs U19 Slovenia, 21h00 ngày 19/3: Nghiền nát đối thủ
-
Soi kèo phạt góc MU vs Sociedad, 03h00 ngày 14/3