iDNES.cz

Premium

Získejte všechny články
jen za 99 Kč/měsíc

Další

Obrovské množství v dokumentech uvězněných znalostí se otevírá. Díky AI

23. dubna 2025

Extrakce textu z obrázků významně pokročila, nicméně stále je co zlepšovat. Své o tom ví podniky, vlády, či výzkumníci, kteří mají řadu dat stále v papírové podobě. Případně je naskenovali do obrazového formátu PDF a teď neví, jak je z nich vydolovat. Tyto digitální dokumenty totiž mají pevný formát. To znamená, že data v nich jsou „uzamčená“, a pro počítače je těžké je číst a analyzovat.

Část 1/4

Dalším problémem je nestrukturovanost starých skenů. To se přitom týká i PDF formátu. V době, kdy se vyvíjel, se při tvorbě dokumentů kladl velký důraz na jejich vzhled při tisku. Z tohoto důvodu jsou mnohé starší PDF soubory spíše „otisky“ než skutečné digitální dokumenty. Často se jedná pouze o obrázky textu, což znamená, že z nich nelze jednoduše kopírovat text nebo cokoliv dalšího.

PDF, které není pouze obrázek, ale lze z něj informace kopírovat

Proto je v takových případech nutné použít speciální program, známý jako OCR (optické rozpoznávání znaků), který tyto obrázky převede na textová data. To platí zejména pro staré dokumenty nebo rukopisy.

Staré skeny jsou nestrukturované

Pro analýzu dat a strojové učení představují PDF soubory značnou překážku. Podle různých studií je přibližně 80 až 90 procent firemních dat uloženo v dokumentech v nestrukturované podobě. Tento problém ještě zhoršuje jejich případné složité rozvržení – používají sloupce, tabulky, grafy – nebo, když jde o naskenované dokumenty nízké kvality, případně skeny v klasických obrazových formátech.

Bohužel takto byly skenovány téměř všechny dokumenty před více než dvaceti lety, a to se týká i důležitých záznamů. To má dopad na fungování soudů, policie, sociálních služeb, výzkumu a dalších institucí, které potřebují s informacemi v těchto dokumentech, včetně vědeckých studií a státních záznamů, pracovat. Některá odvětví, která potřebují velké množství informací, jako je pojišťovnictví a bankovnictví, proto musí investovat značné finanční prostředky do extrakce dat z PDF souborů.

Vstoupit do diskuse (7 příspěvků)

Komerční sdělení

Vlasovci zachránili Prahu, Američané je zradili a Stalin nechal popravit

V německých uniformách, ale s označením ROA, šli lidé generála Vlasova na pomoc Praze. Zatímco jinde Němci kapitulovali, v Praze bojovali urputně dál. Karel Pacner líčí události konce druhé světové...

Prahu srovnejte se zemí! Rudá armáda u Drážďan, Němci v centru Prahy

Konec války přinesl řadu paradoxních situací. Zatímco německá armáda oficiálně kapitulovala, řada jednotek se s tím nehodlala smířit, nebo se k nim tato zpráva nedostala. A například Praha měla být...

Lidé slavili konec války a bombardéry s rudými hvězdami začaly rozsévat smrt

Radost z konce války se proměnila v peklo. Prvního mírového dne 9. května 1945 udeřily sovětské bombardéry na několik českých a moravských měst a obcí. Bomby ovšem padaly i dne předchozího, a to také...

{NADPIS}

{LABEL}

{POPISEK}

A zazněl rozkaz: Začněte stavět barikády!

Zamezit pohybu tankům, to byl hlavní cíl, kvůli kterému se v Praze v květnu 1945 začaly stavět v ulicích barikády. Během pražského povstání jich vzniklo více než půl druhého tisíce. Karel Pacner...

Pentagon plánuje ekranoplán pro Pacifik. Jestli vznikne, se teprve uvidí

Projekt netradičního dopravního prostředku má na starosti proslulá agentura DARPA. Oproti starším strojům vesměs sovětské provenience by mělo jít o hybrid zvládající i let ve větších výškách jako...

Ruce pryč. Osm věcí, které byste nikdy na pracovním počítači neměli dělat

Premium

Trávíte-li na pracovním počítači osm i více hodin denně, je těžké odolat pokušení a nevyužít ho i k osobním potřebám. Brouzdat na internetu, vyřizovat soukromé e-maily, nakupovat, procházet sociální...

15. května 2025

Velký obraz, popcorn, grilování. Skvělé mini kino postavíte za pár minut

Podívat se s přáteli pod širým nebem na film, chroupat u toho čerstvě vypukaný popcorn, popíjet právě překapanou kávu, ugrilovat klobásky… Výběr kafe a klobásek necháme na vás, ale zjednodušíme tu...

15. května 2025

Jedinečný prachoměr zdokonalil slavný český vědec František Běhounek

Osobnost vědce Františka Běhounka u širší veřejnosti spojena s tragédií vzducholodi Italia 25. května 1928 a jeho knihou Trosečníci polárního moře. V našem seriálu Poklady z depozitáře se však...

14. května 2025

KVÍZ: K čemu byla Enigma? Vyzkoušejte si, jak znáte vynálezy 2. světové války

Znáte technologické průlomy, které změnily podobu druhé světové války? Otestujte své znalosti o vynálezech, které ovlivnily nejen výsledek války, ale i svět po ní. Soutěžit o vouchery můžete do 21....

vydáno 14. května 2025

{NADPIS}

{LABEL}

{POPISEK}

Televizní vysílání přes anténu poběží dál. Neskončí ani v roce 2030

Před necelými pěti lety jsme přešli na druhou generaci pozemního televizního digitálního vysílání. Tento digitální formát nám ještě nějakou dobu vydrží, stejně jako samotné šíření televizního signálu...

13. května 2025 18:02

Google mění ikonické G. Oficiálně ho možná uvede příští týden

Společnost Google po mnoha letech mění své hlavní logo, které její produkty provází zhruba dekádu. Změnu možná nepoznáte, ale má ukázat, jak se firma mění v souvislosti s umělou inteligencí.

13. května 2025 12:49

Lidé místo Googlu používají AI. A firmy jim tam chtějí nabízet své výrobky

S nástupem generativní umělé inteligence ji stále víc lidí využívá namísto Googlu či jiného vyhledávače. A týká se to i různých rad pro nákup produktů nebo služeb. Řada firem proto způsoby, jak...

13. května 2025

Disneyland přinesl jednu technickou novinku, která vás v něm možná překvapí

Disneyland Monorail se stal první pravidelně provozovanou jednokolejnicovou dráhou systému ALWEG. Provoz byl zahájen v roce 1959 na okružní trase spojující daný areál zábavního parku se stejnojmenným...

13. května 2025

Zachrání při blackoutu, zpříjemní kempování. Otestovali jsme funkci V2L

Některé elektromobily se mohou proměnit v obří powerbanky na kolech, kterými lze napájet běžné elektrické spotřebiče. Ve spolupráci se specialistou z ČVUT jsme změřili, jak kvalitní výstup elektřiny...

12. května 2025

Pentagon plánuje ekranoplán pro Pacifik. Jestli vznikne, se teprve uvidí

12. května 2025

Prodej 1/4 pozemku 574 m2

Žabčice, okres Brno-venkov
3 000 000 Kč

Více z nabídky 103 728 nemovitostí

Českem se před 100 lety prohnala smršť. Nouzově přistávalo letadlo

Částí Vysočiny a jihozápadu Moravy se v pondělí 11. května 1925 prohnala extrémní bouře. Způsobila vedle mnoha jiných škod také jednu leteckou havárii.

11. května 2025

Zapomenutá bestie a Liberec, který se připravoval na boj v ulicích

Konec druhé světové války znamenal pro oblast Sudet a zejména pro Liberecko období zásadních dějinných zvratů. Rudá armáda se hrnula ze severovýchodu a i do metropole říšské župy Sudety Reichenbergu...

11. května 2025

Témata Lidovky

Osobnosti

Elektromobilita

Termíny

Válka na Ukrajině

TV program

Nepřehlédněte

iDNES.cz

© 1998–2025 MAFRA, a. s. a dodavatelé Profimedia, Reuters, ČTK, AP. Rozmnožování obsahu pro účely automatizované analýzy textů nebo dat dle ustanovení § 39c autorského zákona je bez souhlasu MAFRA, a. s. zakázáno. Jakékoliv užití obsahu včetně převzetí, šíření či dalšího zpřístupňování článků a fotografií je bez souhlasu MAFRA, a. s. zakázáno. Provozovatelem serveru iDNES.cz je MAFRA, a. s. IČ: 45313351.

mobilní verze