Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Sitzung 191 nicht korrekt aufbereitet #2

Open
internaut opened this issue Dec 4, 2017 · 2 comments
Open

Sitzung 191 nicht korrekt aufbereitet #2

internaut opened this issue Dec 4, 2017 · 2 comments

Comments

@internaut
Copy link

Die Daten für die Sitzung 191 wurden leider nicht richtig aufbereitet, d.h. nicht aufgetrennt in einzelne Datensätze für die jeweiligen Redebeiträge. Es ist stattdessen nur ein einziger Datensatz mit dem gesamten Protokoll.

@k-nut
Copy link
Member

k-nut commented Dec 5, 2017

Das liegt daran, dass die Zeilen in dem Originaldokument vom Stenografischen Dienst des Bundestages aus irgend einem Grund alle mit \u200e enden. Das ist eigentlich ein Zeichen, dass der Schriftfluss sich an dieser Stelle auf LTR (left to right ändern soll). Das hat an dieser Stelle aber (meiner Erkenntnis nach) nichts zu suchen. Man könnte an dieser Stelle im Scraper zusätzlich genau dieses Zeichen weg-strippen oder den Bundestag kontaktieren und sie darum bitten, dass zu berichtigen.

Hast du Lust, eine der beiden Wege auszuprobieren. Oder hat @knutator2 noch andere Vorschläge?

@internaut
Copy link
Author

Danke für die Antwort. Habe momentan leider keine Zeit, das auszuprobieren und werde diese Sitzungdaten erst mal ignorieren.

k-nut added a commit to Datenschule/plpr-scraper that referenced this issue Dec 6, 2017
k-nut added a commit to Datenschule/plpr-scraper that referenced this issue Feb 29, 2020
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants