Kinh doanh

GPT và các mô hình AI mạnh mẽ vẫn phải ‘bó tay’ trước bài kiểm tra này

字号+ 作者:NEWS 来源:Bóng đá 2025-02-03 23:45:40 我要评论(0)

TheàcácmôhìnhAImạnhmẽvẫnphảibótaytrướcbàikiểmtranàảnh gái khoả thâno đó, ngay cả cấu hình mô hình trảnh gái khoả thânảnh gái khoả thân、、

TheàcácmôhìnhAImạnhmẽvẫnphảibótaytrướcbàikiểmtranàảnh gái khoả thâno đó, ngay cả cấu hình mô hình trí tuệ nhân tạo hoạt động tốt nhất mà họ đã thử nghiệm như GPT-4-Turbo của OpenAI, vẫn chỉ đạt tỷ lệ trả lời đúng 79% dù được đọc toàn bộ hồ sơ và thường xuyên gặp tình trạng “ảo giác” những số liệu hay sự kiện không có thật.

“Loại tỷ lệ hiệu suất đó hoàn toàn không thể chấp nhận được”, Anand Kannappan, người đồng sáng lập Patronus AI cho biết. “Tỷ lệ trả lời đúng phải cao hơn nhiều để có thể tự động hoá và sẵn sàng sản xuất”.

Phát hiện này nêu bật một số thách thức mà các mô hình AI phải đối mặt khi các công ty lớn, đặc biệt trong các ngành được quản lý chặt chẽ như tài chính, tìm cách kết hợp công nghệ tiên tiến vào hoạt động của họ, cho dù là dịch vụ khách hàng hay nghiên cứu.

“Ảo giác” số liệu tài chính

Khả năng trích xuất các con số quan trọng một cách nhanh chóng và thực hiện phân tích báo cáo tài chính được coi là một trong những ứng dụng hứa hẹn nhất cho chatbot kể từ khi ChatGPT được phát hành vào cuối năm ngoái.

Hồ sơ của SEC chứa dữ liệu quan trọng và nếu bot có thể tóm tắt chính xác hoặc trả lời nhanh các câu hỏi về nội dung trong đó, nó có thể giúp người dùng có lợi thế trong ngành tài chính cạnh tranh.

llm image 100941414 large.jpg
AI gặp khó ngay ở trong khâu tổng hợp số liệu - tác vụ mà chúng được kỳ vọng sẽ trợ giúp con người nhiều nhất.

Trong năm qua, Bloomberg LP đã phát triển mô hình AI của riêng mình cho dữ liệu tài chính, các giáo sư trường kinh doanh đã nghiên cứu xem liệu ChatGPT có thể phân tích các tiêu đề tài chính hay không.

Trong khi đó, JPMorgan cũng phát triển một công cụ đầu tư tự động được hỗ trợ bởi AI. Một dự báo gần đây của McKinsey cho biết AI tạo sinh có thể thúc đẩy ngành ngân hàng thêm hàng nghìn tỷ đô la mỗi năm.

Song, chặng đường này còn ở khá xa. Khi Microsoft lần đầu tiên ra mắt Bing Chat tích hợp GPT của OpenAI, họ đã sử dụng chatbot này để tóm tắt nhanh thông cáo báo chí về thu nhập. Những người quan sát nhanh chóng nhận ra những con số mà AI trả lời bị sai lệch, hay thậm chí bịa đặt.

Cùng dữ liệu, đáp án khác nhau

Một phần của thách thức khi kết hợp LLM vào các sản phẩm thực tế là thuật toán không mang tính xác định, nghĩa là chúng không được đảm bảo sẽ trả ra cùng một kết quả dù có đầu vào giống nhau. Đồng nghĩa các công ty cần thực hiện kiểm tra nghiêm ngặt hơn để đảm bảo rằng AI đang hoạt động chính xác, không lạc đề và cung cấp kết quả đáng tin cậy.

Patronus AI xây dựng bộ gồm hơn 10.000 câu hỏi và câu trả lời được rút ra từ hồ sơ của SEC từ các công ty giao dịch đại chúng lớn, được gọi là FinanceBench. Tập dữ liệu bao gồm các câu trả lời chính xác cũng như vị trí chính xác trong bất kỳ tệp cụ thể nào để tìm thấy chúng.

Không phải tất cả các câu trả lời đều có thể được lấy trực tiếp từ văn bản và một số câu hỏi yêu cầu tính toán hoặc lý luận nhẹ nhàng.

Tham gia bài kiểm tra tập con 150 câu hỏi có bốn mô hình LLM: GPT-4 và GPT-4-Turbo của OpenAI, Claude 2 của Anthropic và Llama 2 của Meta.

Kết quả, GPT-4-Turbo khi được cấp quyền vào hồ sơ cơ bản của SEC, chỉ đạt tỷ lệ chính xác là 85% (so với 88% trả lời sai khi không được truy cập dữ liệu), dù đã được con người trỏ chuột đến chính xác đoạn văn bản để AI tìm câu trả lời.

Llama 2, một mô hình AI nguồn mở do Meta phát triển, có số “ảo giác” cao nhất, trả lời sai tới 70% trường hợp và chỉ trả lời đúng 19% khi được cấp quyền truy cập vào một phần của các tài liệu cơ bản.

Claude 2 của Anthropic hoạt động tốt khi được đưa ra "bối cảnh dài", trong đó gần như toàn bộ hồ sơ SEC có liên quan được đưa vào cùng với câu hỏi. Nó có thể trả lời 75% số câu hỏi được đặt ra, trả lời sai 21% và từ chối trả lời 3%. GPT-4-Turbo cũng hoạt động tốt với ngữ cảnh dài, trả lời đúng 79% câu hỏi và trả lời sai 17% trong số đó.

(Theo CNBC)

Cuộc chạy đua đầu tư vào các công ty khởi nghiệp AI của các Big Tech

Cuộc chạy đua đầu tư vào các công ty khởi nghiệp AI của các Big Tech

Công nghệ AI ra đời đã làm rung chuyển thế giới công nghệ, tuy nhiên có một điều vẫn không thay đổi - Big Tech vẫn nắm giữ quyền lực tuyệt đối.

1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。

相关文章
网友点评
精彩导读
Ở phần đầu tiên của loạt bài viết hâm nóng CKTG 2015này, chúng ta cùng đến ngay với những gương mặt đáng giá nhất tại bảng C – bảng “tử thần” của giải đấu LMHTlớn nhất năm. Với những đội tuyển hàng đầu là: SKT T1, EDG, H2K và BKT bao gồm hàng loạt những tuyển thủ ở đẳng cấp cao nhất, đây được xem là nơi để các cao thủ phô diễn tài năng của mình nhằm có được chức vô địch CKTG 2015.

Đương nhiên, những tuyển thủ chủ lực hay còn gọi là “key player” sẽ có vai trò quyết định tới lối chơi cũng như cục diện của mỗi đội. Và ngay bây giờ, chúng ta cùng điểm qua những cái tên nổi bật nhất của bảng “tử thần”:

FAKER  - SKT T1

Faker là tuyển thủ được tôn trọng bậc nhất trong lịch sử hình thành và phát triển của LMHT. Anh chàng người Hàn này là đầu tàu đưa SKT vô địch CKTG 2013 với vai trò là một tân binh trình làng thế giới. Và giờ đây, sau một quãng thời gian dài thi đấu có cả những chiến thắng vang dội lẫn thất bại cay đắng, Faker đã tích lũy được những kinh nghiệm quý báu cùng với kỹ năng vào dạng bậc thày của mình.

Mặc dù Faker luôn giữ được thói quen khiêm tốn, nhưng anh ta biết rằng mình luôn ở một đẳng cấp khác hẳn so với đối thủ. Chính vì lẽ đó, Faker luôn lựa chọn những vị tướng yêu cầu kỹ năng cực cao như Zed hay Ahri để lấy lợi thế tận dụng khả năng vốn có của mình.

Faker gần như luôn thắng đường và không phải hiếm gặp khi anh ta luôn có những pha outplay có một không hai trong những pha giao tranh tổng mấu chốt. Khi Faker ở phong độ đỉnh cao, chẳng ai có thể dám theo kịp được.

DEFT – EDG

Deft quá cứng! Khi EDG thất thế, họ nhờ cậy tới xạ thủ để quay trở lại với trận đấu. Và Deft thường làm tốt trọng trách cao cả đó.

Trong trận đấu cuối cùng của Chung kết LPL Mùa Xuân, khi mọi thứ đang diễn ra thuận lợi, Deft có được cú pentakill trong một pha để mất Baron vào tay đối phương để rồi qua đó bảo vệ chức vô địch thành công cho EDG.

Những vị tướng ưa thích của Deft đều có các kỹ năng định hướng như Sivir, Lucian và Corki giúp cho anh chàng người Hàn này quấy rối từ xa và đứng ngoài vòng nguy hiểm. Ngay cả xét trên phương diện cá nhân, hẳn trên thế giới sẽ có rất ít những xạ thủ hàng đầu dám so tài với Deft về mặt kỹ năng.

ODOAMNE – H2K

Với rất nhiều sự tập trung đổ dồn vào đường giữa, người đi đường trên của H2K sẽ có một cơ hội cực lớn để vươn lên và đòi hỏi một câu trả lời thích đáng từ phía đối phương. Trong suốt năm nay, Odoamne đã thi đấu rất thành công với những vị tướng chống chịu hàng đầu là Shen cùng Gnar và đặc biệt với tình yêu đích thực của mình: Rumble.

Anh ta thành công với cả hai vai trò, tung ra những chiêu cuối đẹp và các kỹ năng khống chế hợp lý để dàn xếp những giao tranh tổng có lợi cho đồng đội. Nhưng sự xuất sắc của Odoamne cũng vô tình làm khó cho những đồng đội của H2K khi để người đi rừng đối phương nhắm tới.

Màn trình diễn của Odoamne sẽ gây ảnh hưởng rất lớn tới tất cả mọi đường của H2K. Nếu như anh ta có thể gây áp lực trên đường từ sớm, Odoamne sẽ trừng phạt đối phương với lối đánh chủ lực đường trên đã làm cho rất nhiều đối thủ ở LCS châu Âu phải sợ hãi.

G4 – BKT

Công việc thường nhật của G4 là đánh bại người đi đường giữa của đối phương và liên tục dùng áp lực từ những pha gank đường để giúp cho đồng đội ở BKT cảm thấy dễ thở hơn. Đó là nhờ kỹ năng cá nhân cực tốt sau một quá trình dài tôi luyện và đặc biệt, G4 đã quen với viễn cảnh 1v2.

Nằm ở bảng C giúp cho G4 có một cơ hội tuyệt vời để chứng minh bản thân. Anh ta sẽ đối mặt với hai người đi đường giữa được đánh giá là hay bậc nhất thế giới vào thời điểm hiện tại, và nếu như G4 làm tốt, anh sẽ giúp cho BKT có được lợi thế khổng lồ cho các pha giao tranh tổng.

BENGI – SKT T1

Bengi đã làm khuynh đảo thế giới với Lee Sin xuyên suốt CKTG Mùa 3. Bên cạnh khả năng kiểm soát tầm nhìn tốt cùng kỹ năng cá nhân siêu hạng, Bengi cũng luôn biết cách có một đúng lúc đúng thời điểm và đoán định được trước những đường đi nước bước của đối phương.

Lee Sin đã mất đi vị thế của mình trong năm nay, nhưng Bengi vẫn tìm ra cách để có được quân bài tốt nhất trong các trận chiến với Evelynn và Rek’Sai.

Đúng là bảng C là nơi người hâm mộ tập trung toàn bộ sự chú ý của họ vào đường giữa. Điều này không có gì là mới mẻ với Bengi. Bởi anh chàng này đã gắn trọn toàn bộ sự nghiệp của mình với Faker để cùng nhau tạo ra một bộ đôi khét tiếng nhờ những pha gank chớp nhoáng và hợp lí khiến đối phương sợ hãi, mất kiểm soát.

Bengi biết khi nào nên hỗ trợ đường giữa và lúc nào nên đe dọa các đường khác.

PAWN – EDG

Tất cả đã nói quá nhiều về Deft, mà quên đi rằng, ở EDG vẫn có một người đang là nhà đương kim vô địch thế giới. Đó chỉ có thể là PawN, người luôn là tâm điểm của cuộc tranh luận xem ai là người đi đường giữa hay nhất thế giới khi đã nhiều lần “hành hạ” Faker trong nhiều giải đấu lớn.

Nổi danh với các vị tướng cỏ khả năng lao vào như Fizz hay Nidalee, PawN đã phát triển lượng tướng chơi tốt của mình lên rất nhiều và giúp anh chàng béo có thể sử dụng từ những sát thủ cận chiến cho tới các cái tên quấy rối từ xa…

PawN cũng không ngại ngùng thử nghiệm những cái mới nếu như anh ta nghĩ đó là một lựa chọn khắc chế đối phương, đó là lí do mà những Veigar hay Lux đã từng được xuất hiện.

June_6th(Theo lolesports.com)

" alt="[CKTG 2015] Những tuyển thủ đáng xem nhất (Phần 1)" width="90" height="59"/>

[CKTG 2015] Những tuyển thủ đáng xem nhất (Phần 1)