
今天,美團(tuán) LongCat 團(tuán)隊(duì)正式發(fā)布全新高效推理模型 LongCat-Flash-Thinking。在保持了 LongCat-Flash-Chat 極致速度的同時(shí),全新發(fā)布的 LongCat-Flash-Thinking 更強(qiáng)大、更專業(yè)。綜合評(píng)估顯示,LongCat-Flash-Thinking 在邏輯、數(shù)學(xué)、代碼、智能體等多個(gè)領(lǐng)域的推理任務(wù)中,達(dá)到了全球開源模型的最先進(jìn)水平(SOTA)。
同時(shí),LongCat-Flash-Thinking 不僅增強(qiáng)了智能體自主調(diào)用工具的能力,還擴(kuò)展了形式化定理證明能力,成為國(guó)內(nèi)首個(gè)同時(shí)具備「深度思考+工具調(diào)用」與「非形式化+形式化」推理能力相結(jié)合的大語(yǔ)言模型。我們發(fā)現(xiàn),尤其在超高復(fù)雜度的任務(wù)(如數(shù)學(xué)、代碼、智能體任務(wù))處理上, LongCat-Flash-Thinking 具備更顯著的優(yōu)勢(shì)。
目前, 該模型已在HuggingFace、Github全面開源:

領(lǐng)域并行強(qiáng)化學(xué)習(xí)訓(xùn)練方法(Domain-Parallel ?RL Training)
為了解決強(qiáng)化學(xué)習(xí)領(lǐng)域混合訓(xùn)練的穩(wěn)定性問(wèn)題,我們?cè)O(shè)計(jì)了一種領(lǐng)域并行方案,將STEM、代碼和智能體任務(wù)的優(yōu)化過(guò)程解耦。這一方法采用了多領(lǐng)域并行訓(xùn)練再融合的先進(jìn)策略,實(shí)現(xiàn)模型能力的均衡提升,綜合性能達(dá)到帕累托最優(yōu)(Pareto-Optimal)。

異步彈性共卡系統(tǒng)(Dynamic ORchestration for Asynchronous rollout -- DORA)
我們的異步彈性共卡系統(tǒng)(DORA)是整個(gè)訓(xùn)練的基石。該系統(tǒng)通過(guò)彈性共卡調(diào)度(Elastic Colocation)與多版本異步流水線(Multi-Version Asynchronous Pipeline)設(shè)計(jì),在實(shí)現(xiàn)相較于同步RL訓(xùn)練框架三倍提速的同時(shí),確保了每條樣本的策略一致性。同時(shí),系統(tǒng)進(jìn)一步實(shí)現(xiàn)了高效的 KV 緩存復(fù)用,能夠支撐萬(wàn)卡規(guī)模集群的穩(wěn)定運(yùn)行。
智能體推理框架(Agentic Reasoning Framework)
為進(jìn)一步提升模型的智能體推理能力,我們提出了創(chuàng)新性的“雙路徑推理框架”。該框架能夠自主篩選最優(yōu)查詢樣本,并通過(guò)自動(dòng)化流程將智能體推理與工具使用相結(jié)合,使模型能夠智能識(shí)別并調(diào)用外部工具(如代碼執(zhí)行器、API等),從而高效解決復(fù)雜任務(wù)?;贏IME25實(shí)測(cè)數(shù)據(jù),LongCat-Flash-Thinking在該框架下展現(xiàn)出更高效的智能體工具調(diào)用(Agentic Tool Use)能力,在確保90%準(zhǔn)確率的前提下,相較于不使用工具調(diào)用節(jié)省了64.5%的Tokens(從19653到6965),顯著優(yōu)化了推理過(guò)程的資源利用率。
形式化推理框架(Formal Reasoning Framework)
為了克服當(dāng)前開源通用大型語(yǔ)言模型在形式化證明任務(wù)中的不足,我們針對(duì)形式化推理設(shè)計(jì)了一套全新的基于專家迭代框架的數(shù)據(jù)合成方法,該流程利用集成了 Lean4 服務(wù)器的專家迭代框架,生成經(jīng)過(guò)嚴(yán)格驗(yàn)證的證明過(guò)程,從而系統(tǒng)性提升模型的形式化推理能力。這一創(chuàng)新方法系統(tǒng)性地增強(qiáng)了模型的形式化推理能力,提高了其在學(xué)術(shù)和工程應(yīng)用中的可靠性。

LongCat-Flash-Thinking在多項(xiàng)權(quán)威評(píng)測(cè)中刷新紀(jì)錄,在各類推理任務(wù)中均展現(xiàn)出持續(xù)領(lǐng)先的性能:


前往 https://longcat.ai/ ?,立即體驗(yàn) LongCat-Flash-Thinking 的深度思考功能:

開源平臺(tái)地址: