DeepSeek-V3.2: modeli kinez që dëshiron të konkurrojë me GPT-5 dhe Gemini-3 Pro

  • DeepSeek lançon DeepSeek-V3.2 dhe V3.2-Speciale me ambicien për të konkurruar me GPT-5 dhe Gemini-3 Pro në arsyetimin e avancuar.
  • Modeli integron modalitetin "të menduarit" direkt në përdorimin e mjeteve të jashtme dhe mbështet kontekste deri në 128.000 token-e.
  • V3.2-Speciale shkëlqen në matematikë dhe shkenca kompjuterike, me performancë të nivelit të medaljes së artë në olimpiadat ndërkombëtare.
  • Kompania publikon peshat dhe një raport teknik, duke përforcuar luftën midis Kinës, Evropës dhe SHBA-së për lidership në inteligjencën artificiale të hapur.

DeepSeek-V3.2

Kompania kineze DeepSeek ka bërë një tjetër hap në garën globale për inteligjencën artificiale. kur shpall DeepSeek-V3.2 dhe varianti i tij V3.2-SpecialeKëto dy modele me burim të hapur synojnë drejtpërdrejt tregun e nivelit të lartë. Kompania pretendon se sistemi i saj i arsyetimit është i krahasueshëm me modelet kryesore të referencës si GPT-5 dhe Gemini-3 Pro, duke ushtruar presion mbi gjigantët amerikanë në një kohë konkurrence të fortë teknologjike.

Në Evropë, ku debatohet mbi IA e përgjegjshme, rregullimi dhe sovraniteti teknologjik Këto trende janë të zakonshme dhe lëvizja e DeepSeek nuk ka kaluar pa u vënë re. Fakti që një laborator kinez ka publikuar pesha, dokumentacion teknik të detajuar dhe një model arsyetimi të avancuar në burim të hapur përforcon ndjesinë se ekosistemi me burim të hapur po rifiton forcën kundër zgjidhjeve plotësisht pronësore, diçka që mund të jetë veçanërisht interesante për universitetet evropiane, qendrat kërkimore dhe ndërmarrjet e vogla dhe të mesme të teknologjisë.

DeepSeek-V3.2: arsyetim në nivelin e modeleve kryesore

Startupi me seli në Hangzhou ka prezantuar DeepSeek-V3.2 si versioni përfundimtar dhe i qëndrueshëm i modeleve të saj të arsyetimit, duke zëvendësuar botimin eksperimental të lëshuar javë më parë. Sipas vetë kompanisë, V3.2 arrin një performancë të ngjashme me atë të GPT-5 në të ndryshme standardet audienca të arsyetimit dhe të menduarit shumëfazor, dhe pozicionohet pak më poshtë Gemini-3.0 Pro në disa teste referuese.

Ky model kombinon Arsyetimi i tipit njerëzor me aftësinë për të përdorur mjete të jashtmesiç janë motorët e kërkimit në internet, kalkulatorët, mjediset e ekzekutimit të kodit ose sistemet e palëve të treta si Claude Code. Ideja është që sistemi jo vetëm që gjeneron tekst, por gjithashtu mund të planifikojë, të kërkojë burime, të ekzekutojë funksione dhe më pas t'i integrojë këto rezultate në një përgjigje më të plotë pa kërkuar mbikëqyrje të vazhdueshme.

DeepSeek ka theksuar se modeli ofron dy mënyra bashkëveprimi me mjetetNjë me arsyetim të dukshëm, ku përdoruesi mund të ndjekë hapat e ndërmjetëm, dhe një tjetër pa treguar procesin e të menduarit. Në të dyja rastet, "Memoria arsyetuese" vazhdon mes thirrjeve për mjete brenda të njëjtës bisedë dhe rinis vetëm kur mbërrin një mesazh i ri nga përdoruesi, diçka veçanërisht e dobishme për detyra të gjata ose rrjedha të tipit agjent.

Modaliteti i "të menduarit" i integruar në përdorimin e mjeteve

Një nga karakteristikat e reja më mbresëlënëse të DeepSeek-V3.2 është Integrimi i drejtpërdrejtë i mënyrës së të menduarit në përdorimin e mjeteveNdërsa arsyetohet, modeli mund të dërgojë pyetje në motorin e kërkimit, të thërrasë një kalkulator, të ekzekutojë kod ose të bashkëveprojë me shërbime të tjera, duke kombinuar cikle analizash të brendshme dhe thirrjesh të jashtme për të provuar të japë përgjigje. më të detajuara dhe të sakta kur detyra e kërkon.

Sipas kompanisë, kjo qasje e bën V3.2 të sajin modeli i parë i aftë të arsyetojë dhe të përdorë mjete në mënyrë nativesi në modalitetin standard ashtu edhe në modalitetin e të menduarit intensiv. Është një angazhim i qartë ndaj asaj që quhet rrjedhat e punës të bazuara në agjentëNë këto raste, IA nuk përgjigjet thjesht një pyetjeje të vetme, por vepron si një agjent autonom që e zbërthen problemin, kërkon informacion, llogarit dhe më pas kombinon gjithçka në një zgjidhje koherente.

DeepSeek thekson gjithashtu se modeli është gjerësisht i disponueshëm: DeepSeek-V3.2 mund të përdoret nëpërmjet uebit, aplikacionit dhe API-tKjo lehtëson integrimin e tij në produkte, asistentë virtualë ose mjete biznesi, duke përfshirë projektet e zhvilluara në Evropë. Për komunitetet evropiane të zhvilluesve dhe kompanitë që kërkojnë alternativa të hapura, aftësia për të eksploruar dhe përshtatur modelin pa u mbështetur në një platformë të vetme kryesore është një avantazh i rëndësishëm.

Arkitektura DeepSeek Sparse Attention (DSA) dhe efikasiteti i informatikës

Në një nivel teknik, thelbi i DeepSeek-V3.2 është Vëmendje e rrallë DeepSeek (DSA), një mekanizëm vëmendjeje i projektuar për të trajtuar sekuenca shumë të gjata duke zvogëluar koston llogaritëse. DeepSeek ka zbuluar një sistem skedarësh paralel të optimizuar për inteligjencën artificiale gjë që plotëson përpjekjet e saj në efikasitet dhe vendosje. Modeli ka rreth 671.000 miliardë parametra gjithsejpor në çdo hap të nxjerrjes së përfundimit ato aktivizohen vetëm rreth 37.000 miliardë parametra për tokenKjo lejon që kapaciteti të ruhet pa rritur konsumin e burimeve.

Kjo arkitekturë e shpërndarë lejon punën me dritare konteksti deri në 128.000 tokena Në prodhim, kjo madhësi është veçanërisht e dobishme për analizimin e dokumenteve të gjera, kërkimin akademik ose shqyrtimin e vëllimeve të mëdha të informacionit ligjor dhe teknik - fusha me interes të madh për institucionet evropiane. Sipas të dhënave të ofruara nga kompania, DSA e ul koston e nxjerrjes së përfundimeve me afërsisht gjysmën në krahasim me një arkitekturë të dendur të mëparshme në kontekste të gjata.

Për organizatat në Spanjë dhe pjesën tjetër të BE-së që përballen me kufizime buxhetore për informatikën, kjo përmirësimi i efikasitetit Hap derën për eksperimentim me modele shumë të përparuara pa pasur nevojë për infrastrukturën e shtrenjtë të përdorur nga kompanitë kryesore të teknologjisë amerikane. Megjithatë, DeepSeek pranon se ka ende hapësirë ​​për përmirësim krahasuar me konkurrentët e saj në efikasiteti simbolik dhe gjerësia e njohurive botërore, dy fusha kyçe për vendosje në shkallë të gjerë.

DeepSeek-V3.2 me përforcim intensiv duke përdorur RL dhe të dhëna sintetike për agjentët

Përtej arkitekturës, DeepSeek këmbëngul se pjesa më e madhe e kërcimit në arsyetim vjen nga një trajnim masiv pas trajnimit përmes mësimit përforcues (RL)Kompania ka ndarë më shumë se 10% e llogaritjes totale para stërvitjes vetëm në këtë fazë, një përqindje e pazakontë në sektor, me qëllim forcimin e kapacitetit të modelit për të korrigjoni gabimet, arsyetoni në thellësi, përdorni mjete dhe veproni në mjedise interaktive.

Ekipi ka ndërtuar një ekosistem kompleks i të dhënave sintetike që përfshin më shumë se 1.800 mjedise trajnimi dhe përreth 85.000 udhëzime të avancuara specifike për agjentët. Këto detyra përfshijnë kërkime në botën reale, simulime dinamike, ekzekutim kodi, probleme të lidhura me zinxhir dhe skenarë të gjeneruar dhe verifikuar automatikisht për të minimizuar gabimet në të dhënat.

Kjo qasje është e orientuar drejt krijimit Agjentë të inteligjencës artificiale të aftë për të vepruar me një shkallë autonomieAnalizimi i informacionit, marrja e vendimeve dhe veprimi në rrjedha pune shumëfazore. Për kompanitë evropiane që eksplorojnë automatizimin e proceseve komplekse - nga analiza financiare te mbështetja teknike e përparuar - këto përparime mund të jenë veçanërisht tërheqëse, megjithëse mbetet për t'u parë se si do të performojnë modelet jashtë mjediseve të testimit të kontrolluar.

DeepSeek-V3.2-Speciale: matematikë, shkenca kompjuterike dhe të menduarit e zgjeruar

Krahas modelit gjeneralist, DeepSeek ka lançuar DeepSeek-V3.2-Speciale, një variant i orientuar drejt llogaritje të avancuara, prova matematikore dhe procese të zgjatura të të menduaritKompania pretendon se ky version është në të njëjtin nivel me Gemini-3 Pro Performanca e Google në detyra komplekse arsyetimi dhe se performanca e saj i afrohet rezultateve të medaljes së artë në garat ndërkombëtare.

Konkretisht, Speciale do të kishte arritur nivele të krahasueshme me medaljet e arta në Olimpiadën Ndërkombëtare të Matematikës (IMO), Olimpiada Ndërkombëtare e Informatikës (IOI), Finalet Botërore të ICPC-së dhe Olimpiada Matematikore Kineze. Për më tepër, ajo integron aftësitë e nxjerra nga modeli DeepSeek-Math-V2, e specializuar në vërtetimin e teoremave dhe zgjidhjen e problemeve shumë të vështira, gjë që forcon pozicionin e saj në segmentin e modeleve për kërkime shkencore dhe teknike.

Ndryshe nga versioni standard, DeepSeek-V3.2-Speciale nuk është i orientuar drejt detyrave të përditshme as integrimeve gjeneraliste me mjete. Kompania thekson se ky është një model i projektuar kryesisht për punë kërkimore dhe akademike, me një konsum prej argumentet superiore, kështu që për momentin Ofrohet vetëm përmes API-t dhe jo përmes aplikacioneve me qëllim të përgjithshëm.

Disponueshmëria e DeepSeek-V3.2, apertura dhe kontrasti me gjigantët amerikanë

DeepSeek ka publikuar peshat e plota të DeepSeek-V3.2 dhe një raport teknik i detajuar lidhur me trajnimin e tyre, diçka që bie ndesh me politikat gjithnjë e më kufizuese të disa kompanive të mëdha të teknologjisë amerikane, të cilat shpesh kufizojnë aksesin në kod ose madhësinë e modeleve të tyre më të përparuara. Edhe në rastet e burim të hapur E pjesshme, si disa versione të Llama-s, hapja vjen me kushte dhe nuanca specifike.

Në kontekstin evropian, kjo shkallë e transparencë dhe hapje Kjo mund të jetë thelbësore për projektet që kërkojnë auditueshmëri, pajtueshmëri rregullatore ose aftësinë për të përshtatur modelet me kornizat rregullatore siç është Akti i Bashkimit Evropian për Inteligjencën ArtificialeUniversitetet, qendrat kërkimore dhe administratat publike mund ta studiojnë modelin në detaje më të mëdha, të replikojnë eksperimente ose edhe të përshtasin disa pjesë sipas nevojave të tyre pa qenë plotësisht të varura nga një API e jashtme e mbyllur.

Kompania ka vënë DeepSeek-V3.2 është i disponueshëm për komunitetin në platforma të tilla si Hugging Face dhe ModelScope.Përveç ofrimit të aksesit nëpërmjet API-t, varianti Speciale, nga ana tjetër, aktualisht është i kufizuar në konsumim nëpërmjet një ndërfaqeje programatike për shkak të... kërkesë më e lartë llogaritëse dhe kosto për tokenKjo strategji e shpërndarjes së përzier përputhet me interesin e shumë aktorëve evropianë për të pasur modele të forta për kërkimin, megjithëse vendosja e tyre komerciale mund të kërkojë një planifikim më të kujdesshëm.

Roli i Kinës në garën globale të inteligjencës artificiale

Publikimi i DeepSeek-V3.2 vjen në një kohë kur Kina kërkon të forcojë lidershipin e saj në inteligjencën artificiale Pavarësisht kufizimeve në aksesin ndaj gjysmëpërçuesve të përparuar dhe tensioneve gjeopolitike në rritje, DeepSeek është bërë një nga emrat më të përfolur në ekosistemin kinez pasi shpërtheu në skenë në fillim të këtij viti me një model që i habiti të gjithë me raportin e tij të energjisë ndaj kostos, dhe tani po dyfishon aftësitë e agjentëve dhe arsyetimit të nivelit të lartë.

Për Evropën, ku diskutimi përqendrohet në mënyrën e balancimit inovacionin, mbrojtjen e të dhënave dhe sigurinëKy lloj zhvillimi paraqet si mundësi ashtu edhe sfida. Nga njëra anë, ekzistenca e modeleve të hapura me kapacitet të lartë nga Kina zgjeron gamën e mjeteve në dispozicion të laboratorëve dhe kompanive evropiane. Nga ana tjetër, lindin pyetje në lidhje me pajtueshmëria me rregulloret lokale, rrjedhat ndërkufitare të të dhënave dhe ndikimi i rregulloret e përmbajtjes në Kinë, të cilën disa ekspertë e konsiderojnë një pengesë të mundshme për zgjerimin e plotë ndërkombëtar të këtyre sistemeve.

DeepSeek ka fituar gjithashtu dukshmëri jashtë tregut të saj vendas pasi modeli i saj V3.1 mori pjesë në eksperimente të automatizuara investimesh krahasuar me sisteme si GPT-5 dhe Gemini 2.5 Pro, ku tregoi rezultate konkurruese. Kjo strategji plotësohet nga lançimi i modeleve të tjera si p.sh. DeepSeek-OCR, që synonte kompresimin e tekstit përmes perceptimit vizual dhe përpunimin e tij me më pak burime, duke përforcuar imazhin e kompanisë si një aktor i fokusuar në efikasitet dhe burim të hapur.

Pritjet, kufizimet dhe hapat e mëtejshëm

Pavarësisht pretendimeve të kompanisë, DeepSeek pranon se V3.2 ende mbetet prapa disa prej homologëve të saj amerikanë në aspekte të tilla si njohuritë e përgjithshme mbi botën, kuptimi i konteksteve të gjera kulturore ose efikasiteti në përdorimin e simboleve. Për më tepër, vetë udhëheqësit e projektit pranojnë se krahasime të bazuara në standarde publike Ato nuk pasqyrojnë gjithmonë performancën e botës reale në mjediset e prodhimit, veçanërisht në detyrat e hapura dhe me përdoruesit fundorë.

Një pikë tjetër për t’u marrë në konsideratë është se integrimi i mjeteve në modalitetin e arsyetimit Ende duhet të validohet plotësisht në raste komplekse përdorimi në botën reale, nga kujdesi shëndetësor deri te vendimmarrja financiare ose ligjore. Kursimet e kostos llogaritëse të ofruara nga DSA janë të konsiderueshme, por ato mund të lihen në hije nëse cilësia e përgjigjeve nuk ruhet vazhdimisht kur detyrat bëhen më të paqarta ose kërkojnë kontekste shumë specifike.

Me mbërritjen e DeepSeek-V3.2 dhe variantit të tij Speciale, peizazhi i inteligjencës artificiale të arsyetimit të përparuar fiton një lojtar të ri me aspirata globale, duke vënë bast... modele të hapura, mjete të integruara dhe kosto të përmbajturaKëto zhvillime zgjerojnë gamën e opsioneve të disponueshme në kërkim, biznes dhe administrata publike, ndërkohë që detyrojnë një rimendim se si të përshtatet evolucioni i shpejtë i IA-së në një kuadër rregullator kërkues dhe konkurrencën gjithnjë e më të theksuar midis blloqeve teknologjike.

DeepSeek
Artikulli i lidhur:
DeepSeek, ChatGPT ka një tjetër konkurrent që vjen nga Kina dhe madje mund ta kalojë atë