On 1. mars 2013 by Christian Lura

PDF-problemet

Ein liten, idealistisk organisasjon i North Carolina har laga eit nytt verktøy som skal knekke PDF-data for deg.

Kva skal ein gjere med dei trøttande PDF-ane når det er data du er ute etter?

I år er det 20 år sidan Adobe lanserte PDF-formatet. Framleis er det levande i bruk, ikkje minst hjå mange av dei som sit på data vi vil ha; offentlege organar.

Kva skal vi gjere når vi berre får data i PDF-format? PDF-filar kan ikkje brukast direkte utan tilpasning. Du kan ikkje sortere data eller presentere dei visuelt så lenge dei ligg på ein PDF.

Jim Miller og Charles Duncan Pardo presenterte nokre løysingar under Nicar 2013.

Miller demonstrerte kort OmniPage, som har vore eit av få verktøy for PDF-problemet så langt.

OmniPage kostar pengar, men Pdftotext er gratis. Det same er Imagemagick, Tesseract, QPDF og Documentcloud.

Ein god teksteditor er heilt avgjerande for å renske opp PDF-data, sa Miller. Nokre døme:

Ultraedit, Notetab++, Notepad, Google Refine

Charles Duncan Pardo frå Raleigh Public Record snakka om programmet dei har utvikla, DocHive, som nyttar XML for å knekke opp PDF-ane. Dei trengte eit verktøy for å hente ut data frå scanna offentlege dokument. Resultatet blei DocHive.

I kveld vil dei opne tenesta. Då vil du kunne laste opp dokument, velje dine felt og få data attende i eit rekneark.

Dei vil køyre open source. DocHive nyttar ein OCR-program utvikla av Google.

Gutta frå North Carolina skal demonstrere programmet i baren i kveld.