69一区二三区好的精华,久久在精品线影院精品国产,99久久久无码国产精品性,亚洲av永久无码精品网站

LongCat-Flash-Thinking 正式發(fā)布,更強(qiáng)、更專業(yè),保持極速! https://img.meituan.net/smartvenus/8540fb48487388f3720acd956ae30c90460213.png@100w 創(chuàng)新架構(gòu),性能領(lǐng)先。
LongCat-Flash-Thinking 正式發(fā)布,更強(qiáng)、更專業(yè),保持極速!
科技創(chuàng)新2025-09-22
img

今天,美團(tuán) LongCat 團(tuán)隊(duì)正式發(fā)布全新高效推理模型 LongCat-Flash-Thinking。在保持了 LongCat-Flash-Chat 極致速度的同時(shí),全新發(fā)布的 LongCat-Flash-Thinking 更強(qiáng)大、更專業(yè)。綜合評(píng)估顯示,LongCat-Flash-Thinking 在邏輯、數(shù)學(xué)、代碼、智能體等多個(gè)領(lǐng)域的推理任務(wù)中,達(dá)到了全球開源模型的最先進(jìn)水平(SOTA)。

同時(shí),LongCat-Flash-Thinking 不僅增強(qiáng)了智能體自主調(diào)用工具的能力,還擴(kuò)展了形式化定理證明能力,成為國(guó)內(nèi)首個(gè)同時(shí)具備「深度思考+工具調(diào)用」與「非形式化+形式化」推理能力相結(jié)合的大語(yǔ)言模型。我們發(fā)現(xiàn),尤其在超高復(fù)雜度的任務(wù)(如數(shù)學(xué)、代碼、智能體任務(wù))處理上, LongCat-Flash-Thinking 具備更顯著的優(yōu)勢(shì)。

目前, 該模型已在HuggingFace、Github全面開源:

  • Hugging Face:https://huggingface.co/meituan-longcat/LongCat-Flash-Thinking
  • Github:https://github.com/meituan-longcat/LongCat-Flash-Thinking


img

領(lǐng)域并行強(qiáng)化學(xué)習(xí)訓(xùn)練方法(Domain-Parallel ?RL Training)

為了解決強(qiáng)化學(xué)習(xí)領(lǐng)域混合訓(xùn)練的穩(wěn)定性問(wèn)題,我們?cè)O(shè)計(jì)了一種領(lǐng)域并行方案,將STEM、代碼和智能體任務(wù)的優(yōu)化過(guò)程解耦。這一方法采用了多領(lǐng)域并行訓(xùn)練再融合的先進(jìn)策略,實(shí)現(xiàn)模型能力的均衡提升,綜合性能達(dá)到帕累托最優(yōu)(Pareto-Optimal)。

img
圖1:LongCat-Flash-Thinking 的訓(xùn)練流程


異步彈性共卡系統(tǒng)(Dynamic ORchestration for Asynchronous rollout -- DORA)

我們的異步彈性共卡系統(tǒng)(DORA)是整個(gè)訓(xùn)練的基石。該系統(tǒng)通過(guò)彈性共卡調(diào)度(Elastic Colocation)與多版本異步流水線(Multi-Version Asynchronous Pipeline)設(shè)計(jì),在實(shí)現(xiàn)相較于同步RL訓(xùn)練框架三倍提速的同時(shí),確保了每條樣本的策略一致性。同時(shí),系統(tǒng)進(jìn)一步實(shí)現(xiàn)了高效的 KV 緩存復(fù)用,能夠支撐萬(wàn)卡規(guī)模集群的穩(wěn)定運(yùn)行。

智能體推理框架(Agentic Reasoning Framework)

為進(jìn)一步提升模型的智能體推理能力,我們提出了創(chuàng)新性的“雙路徑推理框架”。該框架能夠自主篩選最優(yōu)查詢樣本,并通過(guò)自動(dòng)化流程將智能體推理與工具使用相結(jié)合,使模型能夠智能識(shí)別并調(diào)用外部工具(如代碼執(zhí)行器、API等),從而高效解決復(fù)雜任務(wù)?;贏IME25實(shí)測(cè)數(shù)據(jù),LongCat-Flash-Thinking在該框架下展現(xiàn)出更高效的智能體工具調(diào)用(Agentic Tool Use)能力,在確保90%準(zhǔn)確率的前提下,相較于不使用工具調(diào)用節(jié)省了64.5%的Tokens(從19653到6965),顯著優(yōu)化了推理過(guò)程的資源利用率。

形式化推理框架(Formal Reasoning Framework)

為了克服當(dāng)前開源通用大型語(yǔ)言模型在形式化證明任務(wù)中的不足,我們針對(duì)形式化推理設(shè)計(jì)了一套全新的基于專家迭代框架的數(shù)據(jù)合成方法,該流程利用集成了 Lean4 服務(wù)器的專家迭代框架,生成經(jīng)過(guò)嚴(yán)格驗(yàn)證的證明過(guò)程,從而系統(tǒng)性提升模型的形式化推理能力。這一創(chuàng)新方法系統(tǒng)性地增強(qiáng)了模型的形式化推理能力,提高了其在學(xué)術(shù)和工程應(yīng)用中的可靠性。


img

LongCat-Flash-Thinking在多項(xiàng)權(quán)威評(píng)測(cè)中刷新紀(jì)錄,在各類推理任務(wù)中均展現(xiàn)出持續(xù)領(lǐng)先的性能:

img
圖2:在推理基準(zhǔn)測(cè)試上的平均性能比較


  • 通用推理能力:LongCat-Flash-Thinking 具備卓越的通用推理能力,尤其在需要結(jié)構(gòu)化邏輯的任務(wù)中表現(xiàn)突出。其在 ARC-AGI 基準(zhǔn)測(cè)試中以 50.3 分超越 OpenAI o3、Gemini2.5 Pro 等頂尖閉源模型。
  • 數(shù)學(xué)能力:LongCat-Flash-Thinking 在數(shù)學(xué)推理方面展現(xiàn)出強(qiáng)大實(shí)力,躋身當(dāng)前頂尖模型行列。在更具挑戰(zhàn)性的基準(zhǔn)測(cè)試中優(yōu)勢(shì)更加明顯——在 HMMT 和 AIME 相關(guān)基準(zhǔn)上取得突破性成績(jī),超越 OpenAI o3,和 Qwen3-235B-A22B-Thinking 等領(lǐng)先模型水平相當(dāng)。這些結(jié)果印證了其解決復(fù)雜、多步驟問(wèn)題的領(lǐng)先能力。
  • 代碼能力:在編程領(lǐng)域,LongCat-Flash-Thinking 展現(xiàn)出開源模型最先進(jìn)的性能(SOTA)與綜合實(shí)力。在 LiveCodeBench 上以 79.4 分顯著超越參與評(píng)估的開源模型,并與頂級(jí)閉源模型 GPT-5 表現(xiàn)相當(dāng),證明其解決高難度編程競(jìng)賽問(wèn)題的卓越能力。在 OJBench 基準(zhǔn)測(cè)試中也以 40.7 的得分保持極強(qiáng)競(jìng)爭(zhēng)力,并接近領(lǐng)先模型Gemini2.5-Pro的水平。
  • 智能體能力:LongCat-Flash-Thinking 在復(fù)雜的、工具增強(qiáng)型推理(Tool-augmented Reasoning)方面表現(xiàn)突出,在智能體工具調(diào)用(Agentic Tool Use)上展現(xiàn)出強(qiáng)勁能力。其在 τ2-Bench 上以 74.0 分刷新開源SOTA成績(jī),并在包括 SWE-Bench、BFCL V3 和 VitaBench 等基準(zhǔn)測(cè)試中展現(xiàn)出超強(qiáng)競(jìng)爭(zhēng)力。
  • ATP 形式推理能力:LongCat-Flash-Thinking 在 MiniF2F-test 基準(zhǔn)中的 pass@1 獲得67.6的分?jǐn)?shù),大幅領(lǐng)先所有其他參與評(píng)估的模型,在 pass@8 和 pass@32 中同樣保持了領(lǐng)先優(yōu)勢(shì),凸顯其在生成結(jié)構(gòu)化證明和形式化數(shù)學(xué)推理方面的絕對(duì)優(yōu)勢(shì)。
img


前往 https://longcat.ai/ ?,立即體驗(yàn) LongCat-Flash-Thinking 的深度思考功能:

img

開源平臺(tái)地址:

  • Hugging Face:https://huggingface.co/meituan-longcat/LongCat-Flash-Thinking
  • Github:https://github.com/meituan-longcat/LongCat-Flash-Thinking
宁河县| 滁州市| 黄石市| 衡东县| 廊坊市| 夏津县| 化州市| 中山市| 阳信县| 甘肃省| 盖州市| 喀喇| 磐安县| 磐石市| 西青区| 溆浦县| 辽宁省| 建昌县| 牟定县| 宝应县| 康乐县| 宝应县| 株洲县| 唐海县| 青州市| 烟台市| 华蓥市| 读书| 石首市| 丰顺县| 佛坪县| 彰化县| 长海县| 通州市| 白河县| 蓬安县| 金川县| 阳朔县| 龙胜| 旅游| 凌云县|