最近搜看股票
報價
| 返回 放大 + 縮小 - | |
|
百度 DuMate 登頂 PinchBench 成全球龍蝦執行爭霸賽冠軍
推薦 0 利好 2 利淡 0 滙港資訊
|
|
|
|
|
<匯港通訊> 百度(09888.HK/BIDU.US)DuMate 登頂智能體評測基準 PinchBench 榜首,並在前5位中佔據3席,超越 Anthropic 和 OpenAI 拿下全球龍蝦執行爭霸賽冠軍。在另外一項 DeepResearch 深度研究榜單中,DuMate 同樣位列第一。 PinchBench 是 OpenClaw 賽道最能體現 Agent 真實工作能力的評測基準,重點考察 Agent 在23個真實工作場景下147個任務的多步推理、工具調用和任務閉環能力,並從成功率、速度、成本三個維度綜合排名。榜單顯示,DuMate 以93.3%和93.2%的總成績包攬前兩名。作為對照,Anthropic 和OpenAI 的同款模型場景下的成績分別為89.0%和91.6%。這意味著,同一模型在 DuMate 框架中,展現出更強的執行力。 超越原生表現的技術基礎,是 DuMate 的端雲協同 Harness 架構。該系統在任務到達時進行意圖識別和敏感度判斷,隱私相關操作留在本地執行,複雜推理任務上雲完成,無需用戶手動切換。同時,系統對每次執行所需的上下文做按需組裝——根據任務語義和用戶歷史行為,預判並注入必要的背景信息,減少冗餘干擾。Harness 與 Skills 還基於歷史執行軌跡持續迭代,使得不同底層模型都能在接近其能力上限的狀態下穩定運行。 DeepResearch Bench 是當前對深度研究型 Agent 最全面的評測基準,從洞察深度、內容準確性、可讀性等維度考察 Agent 處理複雜研究任務的綜合能力。DuMate 以58.03的綜合分位列第一,支撐這一成績的是 DuMate 自研 Skills 體系中的 Deep Search 與 Deep Research 雙引擎——前者負責跨平台語義檢索與高價值信息定位,後者在此基礎上疊加多輪推理與因果分析,將碎片信息提煉為結構化研究成果。 自2026年3月上線以來,DuMate 保持一日一版的更新節奏,已通過信通院兩項安全測評且均獲最高等級。(BC) #百度 #DuMate 新聞來源 (不包括新聞圖片): 滙港資訊 |
|
|
免責聲明 : 以上資訊僅供參考。AASTOCKS.com Limited對以上資訊的內容不承擔任何責任,對其準確性,完整性,品質,及時性,或可靠性不作任何陳述或予以認可,並明確表示不對任何由本資訊的全部或部分內容引致之損失或損害承擔任何法律責任或為其引起的損失負責。以上資訊或反映了相關文章或專題作者的的個人意見和觀點,並不代表AASTOCKS.com Limited的立場。以上資訊的任何內容均不構成AASTOCKS為任何投資作出招攬、提出要約、意見或推薦,或對任何證劵或投資的收益或是否合適提供法律、稅務、會計、或投資意見或服務。投資者必須按其本身投資目標及財務狀況自行作出投資決定。
|
|
