Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Review preprocessing of text lines #54

Open
mikegerber opened this issue Jan 25, 2021 · 0 comments
Open

Review preprocessing of text lines #54

mikegerber opened this issue Jan 25, 2021 · 0 comments
Assignees
Labels
bug Something isn't working question Further information is requested

Comments

@mikegerber
Copy link
Collaborator

mikegerber commented Jan 25, 2021

Private email from @andbue to @kba, copied with permission:

Was ich dann noch bedenklich finde, ist, dass die Zeilenbilder nicht durch den Standard-MultiDataProcessor laufen. Ich überblicke nicht ganz, was workspace.image_from_segment alles tut, aber Calamari skaliert, normalisiert, padded (16px weiß) und lässt die Daten durch einen CenterNormalizer wie beim guten alten Ocropus laufen. Meine eigene Erfahrung ist, dass der Output nur dann optimal ist, wenn bei der Prediction das gleiche Preprocessing verwendet wird wie im Training. Wie gesagt, ich übrblicke image_from_segment gerade nicht, aber vielleicht solltet ihr da mal einen Blick hinein werfen. Als Beispiel, wie man den Standard-Preprocessor einbauen könnte, verlinke ich mal meinen Code aus dem Client:
Instantiierung des DataPreprocessors (line 426-436):

https://github.com/andbue/nashi/blob/dd533d193264472a4cfc96aab69fadd9ca52732c/ocr/nashi_ocr/nashi_client.py#L426

Verwendung:

https://github.com/andbue/nashi/blob/dd533d193264472a4cfc96aab69fadd9ca52732c/ocr/nashi_ocr/nashi_client.py#L211

@mikegerber mikegerber added the bug Something isn't working label Jan 25, 2021
@mikegerber mikegerber self-assigned this Jan 25, 2021
@mikegerber mikegerber added the question Further information is requested label Jan 25, 2021
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
bug Something isn't working question Further information is requested
Projects
None yet
Development

No branches or pull requests

1 participant