Dalším problémem je nestrukturovanost starých skenů. To se přitom týká i PDF formátu. V době, kdy se vyvíjel, se při tvorbě dokumentů kladl velký důraz na jejich vzhled při tisku. Z tohoto důvodu jsou mnohé starší PDF soubory spíše „otisky“ než skutečné digitální dokumenty. Často se jedná pouze o obrázky textu, což znamená, že z nich nelze jednoduše kopírovat text nebo cokoliv dalšího.
Proto je v takových případech nutné použít speciální program, známý jako OCR (optické rozpoznávání znaků), který tyto obrázky převede na textová data. To platí zejména pro staré dokumenty nebo rukopisy.
Staré skeny jsou nestrukturované
Pro analýzu dat a strojové učení představují PDF soubory značnou překážku. Podle různých studií je přibližně 80 až 90 procent firemních dat uloženo v dokumentech v nestrukturované podobě. Tento problém ještě zhoršuje jejich případné složité rozvržení – používají sloupce, tabulky, grafy – nebo, když jde o naskenované dokumenty nízké kvality, případně skeny v klasických obrazových formátech.
Bohužel takto byly skenovány téměř všechny dokumenty před více než dvaceti lety, a to se týká i důležitých záznamů. To má dopad na fungování soudů, policie, sociálních služeb, výzkumu a dalších institucí, které potřebují s informacemi v těchto dokumentech, včetně vědeckých studií a státních záznamů, pracovat. Některá odvětví, která potřebují velké množství informací, jako je pojišťovnictví a bankovnictví, proto musí investovat značné finanční prostředky do extrakce dat z PDF souborů.