-
Notifications
You must be signed in to change notification settings - Fork 1
/
OpenData-Fehler.txt
36 lines (25 loc) · 3.3 KB
/
OpenData-Fehler.txt
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
Fehler:
WP 19, 1. Sitzung, Rede: Alterspräsident Dr. Hermann Otto Solms (ID19100200)
- Rede Node (<rede id="ID19100200">) endet vor der eigentlichen Rede
WP 19, 4. Sitzung, Rede: Niels Annen (ID19401700)
- ist im Sitzungsverlauf TOP 2 zugeordnet, tatsächlich und nach Inhaltsverzeichnis wäre TOP 3 korrekt.
WP 19, 16. Sitzung, TOP 2
- Sonderzeichen Fehler (kann nicht nach Unicode UTF-8 dekodiert werden)
WP 19, 18. Sitzung, Reden: Gerald Ullrich, Stefan Rouenhoff, Bernd Westphal, Hansjörg Müller, Klaus Ernst, Heribert Hirte, Katharina Dröge, Fabio De Masi, Heribert Hirte, Markus Töns
- sind im Sitzungsverlauf TOP 14 zugeordnet, tatsächlich und nach Inhaltsverzeichnis wäre TOP 15 korrekt.
Inkonsistenzen:
WP 19, 22. Sitzung, TOP 3
- wird im Inhaltsverzeichnis als ein TOP mit Unterpunkten aufgeführt, im Sitzungsverlauf mehrfach identisch mit top-id="Tagesordnungspunkt 3" referenziert, in der Mediathek mit Nummerierung 3.1, 3.2, 3.3, 3.4.
WP 19, 23. Sitzung, TOP 3
- wird im Inhaltsverzeichnis als ein TOP mit Unterpunkten aufgeführt, im Sitzungsverlauf mehrfach identisch mit top-id="Tagesordnungspunkt 3" referenziert, in der Mediathek mit Nummerierung 3.5, 3.6, 3.7, 3.8, 3.9, 3.10.
WP 19, 24. Sitzung, TOP 3
- wird im Inhaltsverzeichnis als ein TOP mit Unterpunkten aufgeführt, im Sitzungsverlauf mehrfach identisch mit top-id="Tagesordnungspunkt 3" referenziert, in der Mediathek mit Nummerierung 3.11, 3.12, 3.13, 3.14, 3.15.
Allgemein (in Bezug auf die Videoaufzeichnungen):
- Die letzten Redebeiträge (<rede>) eines Tagesordnungpunktes enden oftmals nicht am Ende der Rede, sondern beinhalten auch noch den weiteren Text des Bundestagspräsidenten (welcher nicht in den Videoaufzeichnungen enthalten ist).
- Selbiges gilt für die letzten Tagesordnungspunkte einer Sitzung
- In der Open Data XML Struktur sind alle Redebeiträge als "<rede>" notiert. Hier wäre eine Unterscheidung zwischen tatsächlichen Reden, Fragen (Fragestunde, Befragung der Bundesregierung), Zwischenfragen und Kurzinterventionen hilfreich (auch wenn sich dies z.T. aus dem Kontext ergibt und ggf. automatisiert erkannt werden kann).
- Die Namensbezeichnung der MdBs folgt keiner einheitlichen Logik. Dies macht es sehr umständlich zwischen Protokoll und Mediathek ergänzende Informationen abzurufen (z.T. wird dies bereits in den Skripten behoben: https://github.com/OpenHypervideo/VideoTranscriptGenerator/blob/master/_server/scrapeMediaIDs.php#L262).
- Auch die Bezeichnung von Tagesordnungspunkten und Zusatzpunkten variiert zwischen Mediathek und XML Protokollen (Beispiel: "ZP 4-6"-> "ZP 4,5,6"). Auch dies wird bereits teilweise behoben (siehe https://github.com/OpenHypervideo/VideoTranscriptGenerator/blob/master/_server/scrapeMediaIDs.php#L401), erschwert jedoch nach wie vor die Identifikation des korrekten Videobeitrags in der Mediathek (ausgehend vom XML Protokoll).
Allgemein (in Bezug auf die Text & Video Synchronisation)
- Insb. Wahlvorgänge enthalten oftmals im Video zusätzlichen gesprochenen Text, welcher aber nicht zu Protokoll gegeben wird (siehe bspw. 19. Sitzung, TOP 1 Wahl der Bundeskanzlerin: "(Namensaufruf und Wahl)"). Dies erschwert die Synchronisation bzw. macht z.T. manuelle Korrekturen notwendig.
- Selbiges gilt für längere Sitzungspausen, hier muss aber nur die Konfiguration des "Forced Alignment" Tools angepasst werden.