Rok 1968 v odtajněných dokumentech CIA: Tým VŠE–UT Austin–UC Berkeley vyvinul agentní AI systém pro analýzu digitálních archivů

Tiskové zprávy Z výzkumu

Praha / Austin / Berkeley – Rok 1968 patří k nejzásadnějším momentům moderních českých dějin. Pražské jaro, naděje na reformu a následná invaze vojsk Varšavské smlouvy jsou události, které formovaly generace. Mezinárodní výzkumný tým z Vysoké školy ekonomické v Praze (VŠE), The University of Texas at Austin a UC Berkeley Library (University of California, Berkeley) nyní představil vícefázový agentní systém umělé inteligence, který dokáže z rozsáhlých odtajněných archivů automatizovaně vytěžit strukturované informace a vytvořit časově uspořádaný přehled událostí. Výsledky byly publikovány v odborném časopise The Electronic Library.

Výzkum se zaměřil na sbírku dokumentů zveřejněných v rámci amerického zákona Freedom of Information Act (FOIA), konkrétně na tzv. President’s Daily Briefs – zpravodajské souhrny připravované pro prezidenta USA. Autoři zpracovali 201 dokumentů z období leden 1968 až leden 1969 o celkovém rozsahu 2 122 stran, přičemž sledovali, jak americká zpravodajská komunita informovala Bílý dům o vývoji v Československu před invazí, během ní i po ní.

Klíčovým problémem historických archivů je jejich forma: mnoho materiálů existuje pouze jako skeny nebo nestrukturované dokumenty, které nejsou strojově čitelné a běžně vyžadují dlouhé týdny manuální práce. Přístup využívá agentní AI: od vyhledání dokumentů, přes převod textu pomocí OCR, filtrování relevantních pasáží, až po sumarizaci, extrakci pojmenovaných entit (osoby, místa, instituce) a tematickou analýzu. Výstupem jsou měsíční souhrny a strukturovaná data vhodná pro další odbornou práci.

Součástí studie je také srovnání čtyř velkých jazykových modelů (GPT-5, Claude Sonnet 4.5, Grok 4 a Magistral Medium) z hlediska kvality výstupu, rychlosti, nákladů a stability. Výsledky ukazují, že v praxi neexistuje univerzálně nejlepší model – některé jsou kvalitnější, jiné výrazně rychlejší nebo levnější. Autoři proto zdůrazňují, že pro odpovědné nasazení AI ve veřejných institucích je nutné tyto parametry měřit a rozhodovat se podle konkrétního účelu.

Výzkum je relevantní zejména pro knihovny, archivy a paměťové instituce, které spravují velké digitální sbírky, a zároveň pro akademickou sféru i analytickou praxi. Studie ukazuje, jak lze moderní AI nástroje využít transparentně a měřitelně – a jak proměnit rozsáhlé, obtížně dostupné archivy v data a přehledy, se kterými lze dále pracovat.

Publikace:
Černý, J., Avramov, K., & Pendse, L. R. (2025). A multi-stage agentic AI system for extracting information from large digital archives: case study on the Czechoslovak year 1968 in CIA’s FOIA collection. The Electronic Library. DOI: 10.1108/EL-06-2025-0272