Skip to content

Latest commit

 

History

History
134 lines (91 loc) · 3.15 KB

README.md

File metadata and controls

134 lines (91 loc) · 3.15 KB

Hinter den Kullissen der Staatsbibliothek - Texterkennung/OCR

Demo 1 - Einfache und komplexe Workflows

METS URL

Von METS zum Workspace

mkdir demo1
cd demo1
ocrd workspace clone https://content.staatsbibliothek-berlin.de/dc/PPN680203753.mets.xml

Welche Dateien sind vorhanden?

ocrd workspace find -k url -k mimetype -k fileGrp

Laden wir uns die Bilder herunter

ocrd workspace find --fileGrp DEFAULT --download

Minimaler OCR-Workflow mit tesseract

Laden des GT4Hist Modells

ocrd resmgr download ocrd-tesserocr-recognize Fraktur_GT4HistOCR.traineddata

Workflow

Workflow-Dokumentation: https://ocr-d.de/en/workflows

ocrd-tesserocr-recognize -P segmentation_level region -P textequiv_level word -P find_tables true -P model Fraktur_GT4HistOCR -I DEFAULT -O OCR-D-OCR-TESS

ppn2ocr

Mit dem Skript ppn2ocr aus dem Projekt https://github.com/qurator-spk/ocrd-galley können Sie Werke der Staatsbibliothek "in einem Rutsch" mit voller Auflösung als OCR-D-Workspace herunterladen:

ppn2ocr PPN680203753

Komplexerer Workflow mit Calamari

Laden des GT4Hist Modells

ocrd resmgr download ocrd-calamari-recognize qurator-gt4histocr-1.0

Workflow

ocrd process \
  "cis-ocropy-binarize -I DEFAULT -O OCR-D-BIN" \
  "anybaseocr-crop -I OCR-D-BIN -O OCR-D-CROP" \
  "skimage-binarize -I OCR-D-CROP -O OCR-D-BIN2 -P method li" \
  "skimage-denoise -I OCR-D-BIN2 -O OCR-D-BIN-DENOISE -P level-of-operation page" \
  "tesserocr-deskew -I OCR-D-BIN-DENOISE -O OCR-D-BIN-DENOISE-DESKEW -P operation_level page" \
  "cis-ocropy-segment -I OCR-D-BIN-DENOISE-DESKEW -O OCR-D-SEG -P level-of-operation page" \
  "cis-ocropy-dewarp -I OCR-D-SEG -O OCR-D-SEG-LINE-RESEG-DEWARP" \
  "calamari-recognize -I OCR-D-SEG-LINE-RESEG-DEWARP -O OCR-D-OCR-CALA -P checkpoint_dir qurator-gt4histocr-1.0"

Vergleichen wir die Ergebnisse mit browse-ocrd

browse-ocrd mets.xml

Demo 2 - Evaluation von OCR-Ergebnissen

mkdir demo2
cd demo2

Laden wir uns ein Werk aus dem OCR-D-GT-Repo

OCR-D-GT-Repo: https://ocr-d.de/gt-repo

curl -O https://ocr-d-repo.scc.kit.edu/api/v1/dataresources/dda89351-7596-46eb-9736-593a5e9593d3/data/luz_blitz_1784.ocrd.zip
unzip luz_blitz_1784.ocrd.zip
cd data

Tesseract Workflow

ocrd-tesserocr-recognize -P segmentation_level region -P textequiv_level word -P find_tables true -P model Fraktur_GT4HistOCR -I OCR-D-IMG -O OCR-D-OCR-TESS

Evaluation mit dinglehopper

ocrd-dinglehopper -I OCR-D-GT-SEG-LINE,OCR-D-OCR-TESS -O EVAL-DINGLE

CER und WER

{
    "gt": "OCR-D-GT-SEG-LINE/OCR-D-GT-SEG-LINE_0003.xml",
    "ocr": "OCR-D-OCR-TESS/OCR-D-OCR-TESS_0003.xml",

    "cer": 0.02749551703526599,
    "wer": 0.07924528301886792,

    "n_characters": 1673,
    "n_words": 265
}

Browser-Ansicht

Diff-View in browse-ocrd