DeepSeek versus Chat GPT

AI v matematických súťažiach: DeepSeek vs ChatGPT

V posledných rokoch sme svedkami toho, ako umelá inteligencia dokáže riešiť
zložité matematické problémy, ktoré boli kedysi výlučne doménou ľudí.
Medzi najdiskutovanejšie modely v tejto oblasti patria
DeepSeek-Math-V2 a ChatGPT-4,
ktoré boli testované na viacerých prestížnych matematických súťažiach
a benchmarkoch.

Výkony na olympiádach a súťažiach

DeepSeek-Math-V2 je špecializovaný model optimalizovaný na matematické riešenia
a formálne dôkazy. Naproti tomu ChatGPT-4 je všeobecný jazykový model,
ktorý zvláda široké spektrum úloh, no pri náročných matematických dôkazoch
a kreatívnych úlohách má prirodzené obmedzenia.

Tabuľka výsledkov

Súťaž / Benchmark   Počet úloh   DeepSeek-Math-V2   Výkon DeepSeek   ChatGPT-4   Výkon ChatGPT
IMO 2025   6   5/6   83,3 %   2/6   33,3 %
CMO 2024 (Čína)   6   5–6/6   83,3 %   2/6   33,3 %
Putnam 2024   12   11–12/12   91,7 %   4/12   33,3 %
AMC / AIME   25 / 15   23/25   14/15   92 %  /  93,3 %   18/25   10/15   72 %  /  66,7 %

Interpretácia:
DeepSeek-Math-V2 dosahuje vo viacerých prípadoch výkony porovnateľné
s úrovňou gold-medal level.
ChatGPT-4 podáva priemerný až nadpriemerný výkon,
pričom jeho silnou stránkou je všeobecné uvažovanie a flexibilita,
nie striktne formálne matematické dôkazy.

Budúcnosť: dominancia AI v matematike?

Na základe súčasného vývoja možno realisticky očakávať,
že v horizonte približne nasledujúcich 10 rokov
budú veľké jazykové modely (LLM) schopné riešiť väčšinu matematických problémov.
S rastúcim výpočtovým výkonom, lepšou integráciou
formálnych dôkazových systémov a kvalitnejšími tréningovými dátami
budú AI modely spoľahlivo zvládať aj komplexné dôkazy.

Prečo je LISP vhodný pre matematickú AI?

Zaujímavou a odborne dôležitou úvahou je,
že vývoj špecializovaných systémov na riešenie matematických problémov
by sa mohol výrazne posunúť dopredu,
ak by symbolická a dôkazová vrstva bola implementovaná
v jazykoch typu LISP.

LISP je historicky a konceptuálne prispôsobený manipulácii so symbolickými výrazmi,
rekurziou a stromovými štruktúrami – základnými nástrojmi pre formálne
matematické dôkazy. Mnohé automatické dokazovacie systémy a symbolické
algebraické systémy boli vyvíjané práve v LISPe alebo jeho odnožiach.

Tento jazyk nie je magicky „najlepší“ na svete,
ale je obzvlášť vhodný pre implementáciu matematických algoritmov
a dôkazových procesov. Kombinácia LLM a LISP-like symbolickej vrstvy
by mohla priniesť kvalitatívny skok v schopnostiach AI riešiť
komplexné matematické úlohy. Ide o niečo také ako „Tool enhanced LLM“.

Tip pre čitateľa: Sledujte vývoj LLM v matematike

  • Oficiálne benchmarky a súťaže: IMO, CMO, Putnam, AMC/AIME – často sa objavujú štúdie s AI riešeniami úloh.
  • Výskumné články: ArXiv.org obsahuje publikácie o matematických LLM, symbolických dôkazových systémoch a ich kombinácii.
  • GitHub projekty: Open-source projekty ako DeepSeek-Math, MiniF2F, Lean prover experimenty – umožňujú sledovať konkrétne výsledky a kód.
  • Technologické blogy a mediálne správy: Sledujte vývoj OpenAI, DeepMind a ďalších, kde sa objavujú praktické ukážky riešenia zložitých matematických problémov.
  • Vzdelávacie kurzy: Kurzy o symbolickej matematike, LISP, theorem proving alebo AI for mathematics vám umožnia lepšie pochopiť fungovanie týchto systémov.

Celkové vyhodnotenie:

  • DeepSeek-Math-V2 demonštruje, že špecializované AI modely už dnes dosahujú
    výkony porovnateľné so špičkovými ľudskými riešiteľmi.
  • ChatGPT-4 dosahuje slušné výsledky, no pri zložitých dôkazoch
    zaostáva za špecializovanými matematickými modelmi.
  • Budúcnosť matematiky asi nebude patriť výlučne ľuďom ani výlučne AI,
    ale ich úzkej spolupráci, kde AI bude dominantným nástrojom
    a človek nositeľom významu, intuície a smerovania.

Zahraničný obchod Číny v r. 2025.

14.01.2026

Zahraničný obchod Čínskej ľudovej republiky sa v roku 2025 medziročne zvýšil o 3,8 percenta v juanoch, ukázali oficiálne údaje zo stredy. V roku 2025 dosiahol zahraničný obchod krajiny 45,47 bilióna juanov, podľa údajov zverejnených Generálnou colnou správou. Zahraničný obchod Číny si udržal rast už deviaty rok po sebe od roku 2017, uviedla administratíva. Export v [...]

Ako VISA a Mastercard strácajú trh v Indii.

13.01.2026

India je najväčšou rozvojovou krajinou sveta ktorá sa rozhodla vo svojom hospodárstve zaviesť svoj vlastný finančný platobný systém, založený na QR kóde a UPI protokole. V súčasnej Indii sa dá bežne nakupovať pomocou aplikácie v telefóne a je to UPI protokol, ktorý je prevádzkovaný National Payments Corporation of India. Tento platobný systém umožňuje platby mobil [...]

P. Fico sa mýli. Slovensko nebude tak skoro prosperujúca krajina.

12.01.2026

Nedávno slovenský premiér p. Fico bol v televízií a hovoril o perspektívach SR v tomto roku. Hovoril o nejakom ekonomickom raste a konsolidácií verejných financíí SR. Jeho optimistické predpovede ale nekorešpondujú so skutočnosťou. Eurozóna a hlavne Nemecko je vo veľmi vážnej ekonomickej kríze. Nemecko takúto ekonomickú krízu od čias druhej svetovej vojny ešte nemalo. [...]

VšZP

VšZP uzavrela zmluvu o prenájme v hodnote takmer 42,3 milióna eur na 15 rokov

14.01.2026 13:30

Poisťovňa uzavrela zmluvu o prenájme nebytových priestorov v bratislavskom administratívnom komplexe Westend Gate.

Mychajlo Fedorov

Ukrajinský parlament schválil nomináciu Fedorova na ministra obrany

14.01.2026 13:23

Nomináciu Fedorova na post ministra obrany predložil 2. januára prezident Volodymyr Zelenskyj.

SR ŠTS Pezinok väzba strelec návrh GP BAX

Proces s „Modrým zajačikom“ sa začal: dôchodca stojí pred súdom za schvaľovanie atentátu na premiéra

14.01.2026 12:23, aktualizované: 13:34

Obžalovaný mal na internete opakovane vyjadrovať podporné statusy atentátnikovi Jurajovi Cintulovi.

stan021

Masmédia bársčo napíšu a bársčo povedia.

Štatistiky blogu

Počet článkov: 1,050
Celková čítanosť: 3554149x
Priemerná čítanosť článkov: 3385x

Autor blogu

Archív

Odkazy