From cc909ebb07c9548c722c637b2e20ca33b5dd6a1e Mon Sep 17 00:00:00 2001
From: Matej <matejbaco95@gmail.com>
Date: Thu, 24 Oct 2024 13:32:43 +0200
Subject: [PATCH] Add first version of speech validation and some tests for it
 #10 #9

---
 MetadataExtraction/speechParser2.py           |  75 +++-
 ...tualTimestampsMultipleTimelinesInvalid.txt |   0
 .../actual/actualTimestampsValidInvalid.txt   |  15 +
 ...ctedTimestampsMultipleTimelinesInvalid.txt |   2 +
 .../expectedTimestampsValidInvalid.txt        |  16 +
 .../timestampsMultipleTimelinesInvalid.xml    | 255 ++++++++++++
 .../inputs/timestampsValidInvalid.xml         | 385 ++++++++++++++++++
 test/MetadataExtraction/tester.py             |   2 +
 8 files changed, 741 insertions(+), 9 deletions(-)
 create mode 100644 test/MetadataExtraction/examples/actual/actualTimestampsMultipleTimelinesInvalid.txt
 create mode 100644 test/MetadataExtraction/examples/actual/actualTimestampsValidInvalid.txt
 create mode 100644 test/MetadataExtraction/examples/expected/expectedTimestampsMultipleTimelinesInvalid.txt
 create mode 100644 test/MetadataExtraction/examples/expected/expectedTimestampsValidInvalid.txt
 create mode 100644 test/MetadataExtraction/examples/inputs/timestampsMultipleTimelinesInvalid.xml
 create mode 100644 test/MetadataExtraction/examples/inputs/timestampsValidInvalid.xml

diff --git a/MetadataExtraction/speechParser2.py b/MetadataExtraction/speechParser2.py
index 0ae4f4c..c0caacd 100644
--- a/MetadataExtraction/speechParser2.py
+++ b/MetadataExtraction/speechParser2.py
@@ -77,7 +77,7 @@ def __transformFileToCSV(self, transformation, file):
         with open(transformation[1], "wb") as f:
             f.write(result)
     
-    def __processSpeechesCSV(self):
+    def __processSpeechesCSV(self, invalid_speeches):
         result = defaultdict()
         timestamps_info = self.__processTimestampsCSV()
         current_speech = 0
@@ -93,16 +93,69 @@ def __processSpeechesCSV(self):
                                    row["personID"],
                                    row["date"])
                 
-                if (len(timestamps_info) > 0):
-                    utterance.loadTimestampsInfo(timestamps_info[current_speech])
-                    
-                if (not row["personID"] in result):
-                    result[row["personID"]] = [utterance]
-                else:
-                    result[row["personID"]].append(utterance)
+                if row['ID'] not in invalid_speeches:
+                    if (len(timestamps_info) > 0):
+                        utterance.loadTimestampsInfo(timestamps_info[current_speech])    
+                    if (not row["personID"] in result):
+                        result[row["personID"]] = [utterance]
+                    else:
+                        result[row["personID"]].append(utterance)
+                
                 current_speech += 1
         return result
 
+    def __validateData(self):
+        """
+        Method for validating speech data and finding speeches (so far, later maybe just sentences)
+        with malformed timelines.
+        """
+        
+        valid_speeches = []
+        invalid_speeches = []
+        with open(self.transformations[1][1], 'r', encoding='utf-8') as csvfile:
+            reader = csv.DictReader(csvfile)
+            rows = list(reader)
+            current_speech = None
+            current_timeline = None
+            intervals = []
+            times = []
+            valid = True
+            for row in rows:
+                if row['Type'] == 'S':
+                    if current_speech == None:
+                        current_speech = row['Begin']
+                    else:
+                        if len(times) <= 1:
+                            if all(x <= y for x,y in zip(intervals, intervals[1:])):
+                                valid_speeches.append(current_speech)
+                            else:
+                                invalid_speeches.append(current_speech)
+                        else:
+                            if len(intervals) > 0:
+                                valid = all(x <= y for x, y in zip(intervals, intervals[1:]))
+                            if valid:
+                                valid_speeches.append(current_speech)
+                            else: 
+                                invalid_speeches.append(current_speech)
+                    intervals = []
+                    times = []
+                    current_speech = row['Begin']
+                elif row['Type'] == 'T':
+                    
+                    if (row['Time'] != current_timeline) and (row['Time'] != ''):
+                        current_timeline = row['Time']
+                        times.append(current_timeline)
+                        
+                        valid = all(x <= y for x,y in zip(intervals, intervals[1:]))
+                        
+                        intervals = []
+
+                    if (row['Begin'] and row['End']):
+                        intervals.append(row['Begin'])
+                        intervals.append(row['End'])
+        
+        return invalid_speeches
+        
     def __processTimestampsCSV(self):        
         results = []
         with open(self.transformations[1][1], 'r', encoding="utf-8") as csvfile:
@@ -171,9 +224,13 @@ def __get_total_duration_ms(self, speech_timestamps):
 
 
     def pipeline(self, file):
+        invalid = []
         for transformation in self.transformations:
             self.__transformFileToCSV(transformation, file)
-        result = self.__processSpeechesCSV()
+        for invalid_speech in self.__validateData():
+            invalid.append(invalid_speech)
+
+        result = self.__processSpeechesCSV(invalid)
         return result
 
 def main(args):
diff --git a/test/MetadataExtraction/examples/actual/actualTimestampsMultipleTimelinesInvalid.txt b/test/MetadataExtraction/examples/actual/actualTimestampsMultipleTimelinesInvalid.txt
new file mode 100644
index 0000000..e69de29
diff --git a/test/MetadataExtraction/examples/actual/actualTimestampsValidInvalid.txt b/test/MetadataExtraction/examples/actual/actualTimestampsValidInvalid.txt
new file mode 100644
index 0000000..c41d616
--- /dev/null
+++ b/test/MetadataExtraction/examples/actual/actualTimestampsValidInvalid.txt
@@ -0,0 +1,15 @@
+---SPEECH---
+ID: timestampsValidInvalid.u1
+author: #personX
+role: #roleX
+when: 2013-11-25
+tokens: 13
+sentences: 1
+named entity refferences: 2
+total duration: 1040.0
+total spoken: 700.0
+time silent: 340.0
+time unknown: 0
+unaligned tokens: 0
+earliest timeline: 2024-10-21T14:49:00
+latest timeline: 2024-10-21T14:49:00
\ No newline at end of file
diff --git a/test/MetadataExtraction/examples/expected/expectedTimestampsMultipleTimelinesInvalid.txt b/test/MetadataExtraction/examples/expected/expectedTimestampsMultipleTimelinesInvalid.txt
new file mode 100644
index 0000000..139597f
--- /dev/null
+++ b/test/MetadataExtraction/examples/expected/expectedTimestampsMultipleTimelinesInvalid.txt
@@ -0,0 +1,2 @@
+
+
diff --git a/test/MetadataExtraction/examples/expected/expectedTimestampsValidInvalid.txt b/test/MetadataExtraction/examples/expected/expectedTimestampsValidInvalid.txt
new file mode 100644
index 0000000..72d8f5b
--- /dev/null
+++ b/test/MetadataExtraction/examples/expected/expectedTimestampsValidInvalid.txt
@@ -0,0 +1,16 @@
+---SPEECH---
+ID: timestampsValidInvalid.u1
+author: #personX
+role: #roleX
+when: 2013-11-25
+tokens: 13
+sentences: 1
+named entity refferences: 2
+total duration: 1040.0
+total spoken: 700.0
+time silent: 340.0
+time unknown: 0
+unaligned tokens: 0
+earliest timeline: 2024-10-21T14:49:00
+latest timeline: 2024-10-21T14:49:00
+
diff --git a/test/MetadataExtraction/examples/inputs/timestampsMultipleTimelinesInvalid.xml b/test/MetadataExtraction/examples/inputs/timestampsMultipleTimelinesInvalid.xml
new file mode 100644
index 0000000..fea74fe
--- /dev/null
+++ b/test/MetadataExtraction/examples/inputs/timestampsMultipleTimelinesInvalid.xml
@@ -0,0 +1,255 @@
+<?xml version="1.0" encoding="UTF-8"?>
+<TEI xmlns="http://www.tei-c.org/ns/1.0"
+     xml:id="ps2013-001-01-000-999.ana"
+     xml:lang="cs"
+     ana="#parla.agenda">
+   <teiHeader>
+      <fileDesc>
+         <titleStmt>
+            <title type="main" xml:lang="cs">Český parlamentní korpus, Poslanecká sněmovna, 2013-11-25 ps2013-001-01-000-999 [ParCzech.ana]</title>
+            <title type="main" xml:lang="en">Czech parliamentary corpus, Chamber of Deputies, 2013-11-25 ps2013-001-01-000-999 [ParCzech.ana]</title>
+            <title type="sub" xml:lang="cs">Parlament České republiky, Poslanecká sněmovna, 2013-11-25, Začátek schůze Poslanecké sněmovny 25. listopadu 2013 ve 14.05 hodin Přítomno: 199 poslanců</title>
+            <title type="sub" xml:lang="en">Parliament of the Czech Republic, Chamber of Deputies, 2013-11-25</title>
+            <title xml:lang="cs" type="short">Začátek schůze Poslanecké sněmovny 25. listopadu 2013 ve 14.05 hodin Přítomno: 199 poslanců</title>
+            <meeting ana="#parla.term #parla.lower #parliament.PSP7" n="ps2013">ps2013</meeting>
+            <meeting ana="#parla.meeting #parla.lower" n="ps2013/001">ps2013/001</meeting>
+            <meeting ana="#parla.sitting #parla.lower" n="ps2013/001/01">ps2013/001/01</meeting>
+            <meeting ana="#parla.agenda #parla.lower" n="ps2013/001/999">ps2013/001/999</meeting>
+            <respStmt>
+               <persName ref="https://orcid.org/0000-0001-7953-8783">Matyáš Kopp</persName>
+               <resp xml:lang="en">Data retrieval</resp>
+               <resp xml:lang="en">TEI XML corpus encoding</resp>
+               <resp xml:lang="en">Linguistic annotation</resp>
+            </respStmt>
+            <funder>
+               <orgName xml:lang="cs">LINDAT/CLARIAH-CZ: Digitální výzkumná infrastruktura pro jazykové technologie, umění a humanitní vědy</orgName>
+               <orgName xml:lang="en">LINDAT/CLARIAH-CZ: Digital Research Infrastructure for Language Technologies, Arts and Humanities</orgName>
+            </funder>
+         </titleStmt>
+         <editionStmt>
+            <edition>4.0</edition>
+         </editionStmt>
+         <extent>
+            <measure unit="speeches" quantity="1" xml:lang="cs">1 promluv</measure>
+            <measure unit="speeches" quantity="1" xml:lang="en">1 speeches</measure>
+            <measure unit="words" quantity="173" xml:lang="cs">173 slov</measure>
+            <measure unit="words" quantity="173" xml:lang="en">173 words</measure>
+         </extent>
+         <publicationStmt>
+            <publisher>
+               <orgName xml:lang="cs">LINDAT/CLARIAH-CZ: Digitální výzkumná infrastruktura pro jazykové technologie, umění a humanitní vědy</orgName>
+               <orgName xml:lang="en">LINDAT/CLARIAH-CZ: Digital Research Infrastructure for Language Technologies, Arts and Humanities</orgName>
+               <ref target="https://www.lindat.cz">www.lindat.cz</ref>
+            </publisher>
+            <idno type="URI" subtype="handle">http://hdl.handle.net/11234/1-5360</idno>
+            <availability status="free">
+               <licence>https://creativecommons.org/publicdomain/zero/1.0/</licence>
+               <p xml:lang="en">This work is licensed under the <ref target="https://creativecommons.org/publicdomain/zero/1.0/">CC0 1.0 Universal (CC0 1.0) Public Domain Dedication</ref>.</p>
+            </availability>
+            <date when="2024-01-26">2024-01-26</date>
+         </publicationStmt>
+         <sourceDesc>
+            <bibl>
+               <title type="main" xml:lang="cs">Parlament České republiky, Poslanecká sněmovna</title>
+               <title type="main" xml:lang="en">Parliament of the Czech Republic, Chamber of Deputies</title>
+               <idno type="URI" subtype="parliament">https://www.psp.cz/eknih/2013ps/stenprot/001schuz/s001001.htm</idno>
+               <date when="2013-11-25">25.11.2013</date>
+            </bibl>
+            <recordingStmt>
+               <recording type="audio">
+                  <media xml:id="ps2013-001-01-000-999.audio1"
+                         mimeType="audio/mp3"
+                         source="https://www.psp.cz/eknih/2013ps/audio/2013/11/25/2013112513581412.mp3"
+                         url="audio/psp/2013/11/25/2013112513581412.mp3"/>
+               </recording>
+            </recordingStmt>
+         </sourceDesc>
+      </fileDesc>
+      <encodingDesc>
+         <projectDesc>
+            <p xml:lang="en">
+               <ref target="https://ufal.mff.cuni.cz/parczech">ParCzech</ref> is a project on compiling Czech parliamentary data into annotated corpora. It mostly follows the <ref target="https://www.clarin.eu/parlamint">ParlaMint project's</ref> recommendation, but the data are slightly extended in several ways. Texts contain links to original voting and prints. Except for the 4-class named entities classification, it also includes a more detailed CNEC hierarchical classification. The text in the annotated version is aligned with audio on the token level. And morphological annotation contains pdt tagsed besides UD PoS and features.</p>
+         </projectDesc>
+         <tagsDecl>
+            <namespace name="http://www.tei-c.org/ns/1.0">
+               <tagUsage gi="anchor" occurs="322"/>
+               <tagUsage gi="body" occurs="1"/>
+               <tagUsage gi="date" occurs="8"/>
+               <tagUsage gi="div" occurs="1"/>
+               <tagUsage gi="link" occurs="198"/>
+               <tagUsage gi="linkGrp" occurs="12"/>
+               <tagUsage gi="name" occurs="18"/>
+               <tagUsage gi="note" occurs="5"/>
+               <tagUsage gi="num" occurs="3"/>
+               <tagUsage gi="pb" occurs="1"/>
+               <tagUsage gi="pc" occurs="24"/>
+               <tagUsage gi="s" occurs="12"/>
+               <tagUsage gi="seg" occurs="6"/>
+               <tagUsage gi="text" occurs="1"/>
+               <tagUsage gi="timeline" occurs="1"/>
+               <tagUsage gi="u" occurs="1"/>
+               <tagUsage gi="w" occurs="175"/>
+               <tagUsage gi="when" occurs="323"/>
+            </namespace>
+         </tagsDecl>
+		</encodingDesc>
+		<profileDesc>
+			<settingDesc>
+				<setting>
+					<name type="org">Parlament České republiky - Poslanecká sněmovna</name>
+					<name type="address">Sněmovní 176/4</name>
+					<name type="city">Praha</name>
+					<name key="CZ" type="country">Czech Republic</name>
+					<date when="2013-11-25" ana="#parla.sitting">2013-11-25</date>
+				</setting>
+			</settingDesc>
+		</profileDesc>
+	</teiHeader>
+	<text>
+		<body>
+			<div>
+				<u who="#personX"
+				   ana="#roleX"
+				   xml:id="timestampsMultipleTimelinesInvalid.u1">
+					<seg xml:id="timestampsMultipleTimelinesInvalid.u1.p1">
+						<s xml:id="timestampsMultipleTimelinesInvalid.u1.p1.s1">
+							<anchor synch="#timestampsMultipleTimelinesInvalid.u1.p1.s1.w1.ab"/>
+							<w xml:id="timestampsMultipleTimelinesInvalid.u1.p1.s1.w1">Lorem</w>
+							<anchor synch="#timestampsMultipleTimelinesInvalid.u1.p1.s1.w1.ae"/>
+							<anchor synch="#timestampsMultipleTimelinesInvalid.u1.p1.s1.w2.ab"/>
+							<w xml:id="timestampsMultipleTimelinesInvalid.u1.p1.s1.w2">Ipsum</w>
+							<anchor synch="#timestampsMultipleTimelinesInvalid.u1.p1.s1.w2.ae"/>
+							<anchor synch="#timestampsMultipleTimelinesInvalid.u1.p1.s1.w3.ab"/>
+							<w xml:id="timestampsMultipleTimelinesInvalid.u1.p1.s1.w3">dolor</w>
+							<anchor synch="#timestampsMultipleTimelinesInvalid.u1.p1.s1.w3.ae"/>
+							<anchor synch="#timestampsMultipleTimelinesInvalid.u1.p1.s1.w4.ab"/>
+							<w xml:id="timestampsMultipleTimelinesInvalid.u1.p1.s1.w4">sit</w>
+							<anchor synch="#timestampsMultipleTimelinesInvalid.u1.p1.s1.w4.ae"/>
+							<anchor synch="#timestampsMultipleTimelinesInvalid.u1.p1.s1.w5.ab"/>
+							<w xml:id="timestampsMultipleTimelinesInvalid.u1.p1.s1.w5">amet</w>
+							<anchor synch="#timestampsMultipleTimelinesInvalid.u1.p1.s1.w5.ae"/>
+							<pc xml:id="timestampsMultipleTimelinesInvalid.u1.p1.s1.w6">,</pc>
+							<anchor synch="#timestampsMultipleTimelinesInvalid.u1.p1.s1.w7.ab"/>
+							<w xml:id="timestampsMultipleTimelinesInvalid.u1.p1.s1.w7">consecteur</w>
+							<anchor synch="#timestampsMultipleTimelinesInvalid.u1.p1.s1.w7.ae"/>
+							<anchor synch="#timestampsMultipleTimelinesInvalid.u1.p1.s1.w8.ab"/>
+							<w xml:id="timestampsMultipleTimelinesInvalid.u1.p1.s1.w8">adipiscing</w>
+							<anchor synch="#timestampsMultipleTimelinesInvalid.u1.p1.s1.w8.ae"/>
+							<anchor synch="#timestampsMultipleTimelinesInvalid.u1.p1.s1.w9.ab"/>
+							<w xml:id="timestampsMultipleTimelinesInvalid.u1.p1.s1.w9">elit</w>
+							<anchor synch="#timestampsMultipleTimelinesInvalid.u1.p1.s1.w9.ae"/>
+							<pc xml:id="timestampsMultipleTimelinesInvalid.u1.p1.s1.w10"></pc>
+							<anchor synch="#timestampsMultipleTimelinesInvalid.u1.p1.s1.w11.ab"/>
+							<w xml:id="timestampsMultipleTimelinesInvalid.u1.p1.s1.w11">sed</w>
+							<anchor synch="#timestampsMultipleTimelinesInvalid.u1.p1.s1.w11.ae"/>
+							<anchor synch="#timestampsMultipleTimelinesInvalid.u1.p1.s1.w12.ab"/>
+							<w xml:id="timestampsMultipleTimelinesInvalid.u1.p1.s1.w12">do</w>
+							<anchor synch="#timestampsMultipleTimelinesInvalid.u1.p1.s1.w12.ae"/>
+							<anchor synch="#timestampsMultipleTimelinesInvalid.u1.p1.s1.w13.ab"/>
+							<w xml:id="timestampsMultipleTimelinesInvalid.u1.p1.s1.w13">eiusmod</w>
+							<anchor synch="#timestampsMultipleTimelinesInvalid.u1.p1.s1.w13.ae"/>
+							<anchor synch="#timestampsMultipleTimelinesInvalid.u1.p1.s1.w14.ab"/>
+							<w xml:id="timestampsMultipleTimelinesInvalid.u1.p1.s1.w14">tempor</w>
+							<anchor synch="#timestampsMultipleTimelinesInvalid.u1.p1.s1.w14.ae"/>
+							<anchor synch="#timestampsMultipleTimelinesInvalid.u1.p1.s1.w15.ab"/>
+							<w xml:id="timestampsMultipleTimelinesInvalid.u1.p1.s1.w15">incididunt</w>
+							<anchor synch="#timestampsMultipleTimelinesInvalid.u1.p1.s1.w15.ae"/>
+						</s>
+					</seg>
+				</u>
+			</div>
+			<timeline unit="ms"
+					  origin="#timestampsMultipleTimelinesInvalid.audio1.origin"
+					  corresp="#timestampsMultipleTimelinesInvalid.audio1"
+					  cert="0">
+				<when xml:id="timestampsMultipleTimelinesInvalid.audio1.origin"
+					  absolute="2024-10-21T14:49:00"/>
+				<when xml:id="timestampsMultipleTimelinesInvalid.u1.p1.s1.w1.ab"
+					  interval="100000.0"
+					  since="#timestampsMultipleTimelinesInvalid.audio1.origin"/>
+				<when xml:id="timestampsMultipleTimelinesInvalid.u1.p1.s1.w1.ae"
+					  interval="100050.0"
+					since="#timestampsMultipleTimelinesInvalid.audio1.origin"/>
+				<when xml:id="timestampsMultipleTimelinesInvalid.u1.p1.s1.w2.ab"
+					  interval="100090.0"
+					since="#timestampsMultipleTimelinesInvalid.audio1.origin"/>
+				<when xml:id="timestampsMultipleTimelinesInvalid.u1.p1.s1.w2.ae"
+					  interval="100140.0"
+					since="#timestampsMultipleTimelinesInvalid.audio1.origin"/>
+				<when xml:id="timestampsMultipleTimelinesInvalid.u1.p1.s1.w3.ab"
+					  interval="100150.0"
+					since="#timestampsMultipleTimelinesInvalid.audio1.origin"/>
+				<when xml:id="timestampsMultipleTimelinesInvalid.u1.p1.s1.w3.ae"
+					  interval="100200.0"
+					since="#timestampsMultipleTimelinesInvalid.audio1.origin"/>
+				<when xml:id="timestampsMultipleTimelinesInvalid.u1.p1.s1.w4.ab"
+					  interval="100230.0"
+					since="#timestampsMultipleTimelinesInvalid.audio1.origin"/>
+				<when xml:id="timestampsMultipleTimelinesInvalid.u1.p1.s1.w4.ae"
+					  interval="100260.0"
+					since="#timestampsMultipleTimelinesInvalid.audio1.origin"/>
+				<when xml:id="timestampsMultipleTimelinesInvalid.u1.p1.s1.w5.ab"
+					  interval="100310.0"
+					since="#timestampsMultipleTimelinesInvalid.audio1.origin"/>
+				<when xml:id="timestampsMultipleTimelinesInvalid.u1.p1.s1.w5.ae"
+					  interval="100350.0"
+					since="#timestampsMultipleTimelinesInvalid.audio1.origin"/>
+				<when xml:id="timestampsMultipleTimelinesInvalid.u1.p1.s1.w7.ab"
+					  interval="100390.0"
+					since="#timestampsMultipleTimelinesInvalid.audio1.origin"/>
+				<when xml:id="timestampsMultipleTimelinesInvalid.u1.p1.s1.w7.ae"
+					  interval="100500.0"
+					since="#timestampsMultipleTimelinesInvalid.audio1.origin"/>
+			</timeline>
+			<timeline unit="ms"
+					  origin="#timestampsMultipleTimelinesInvalid.audio2.origin"
+				      corresp="#timestampsMultipleTimelinesInvalid"
+				      cert="0">
+				<when xml:id="timestampsMultipleTimelinesInvalid.audio2.origin"
+					  absolute="2024-10-21T15:09:00"/>
+				<when xml:id="timestampsMultipleTimelinesInvalid.u1.p1.s1.w15.ab"
+					  interval="100510.0"
+					since="#timestampsMultipleTimelinesInvalid.audio2.origin"/>
+				<when xml:id="timestampsMultipleTimelinesInvalid.u1.p1.s1.w15.ae"
+					  interval="100610.0"
+					since="#timestampsMultipleTimelinesInvalid.audio2.origin"/>
+				<when xml:id="timestampsMultipleTimelinesInvalid.u1.p1.s1.w9.ab"
+					  interval="100610.0"
+					since="#timestampsMultipleTimelinesInvalid.audio2.origin"/>
+				<when xml:id="timestampsMultipleTimelinesInvalid.u1.p1.s1.w9.ae"
+					  interval="100660.0"
+					since="#timestampsMultipleTimelinesInvalid.audio2.origin"/>
+				<when xml:id="timestampsMultipleTimelinesInvalid.u1.p1.s1.w14.ab"
+					  interval="100700.0"
+					since="#timestampsMultipleTimelinesInvalid.audio2.origin"/>
+				<when xml:id="timestampsMultipleTimelinesInvalid.u1.p1.s1.w14.ae"
+					  interval="100730.0"
+					since="#timestampsMultipleTimelinesInvalid.audio2.origin"/>
+				<when xml:id="timestampsMultipleTimelinesInvalid.u1.p1.s1.w12.ab"
+					  interval="100750.0"
+					since="#timestampsMultipleTimelinesInvalid.audio2.origin"/>
+				<when xml:id="timestampsMultipleTimelinesInvalid.u1.p1.s1.w12.ae"
+					  interval="100770.0"
+					since="#timestampsMultipleTimelinesInvalid.audio2.origin"/>
+				<when xml:id="timestampsMultipleTimelinesInvalid.u1.p1.s1.w13.ab"
+					  interval="100780.0"
+					since="#timestampsMultipleTimelinesInvalid.audio2.origin"/>
+				<when xml:id="timestampsMultipleTimelinesInvalid.u1.p1.s1.w13.ae"
+					  interval="100850.0"
+					since="#timestampsMultipleTimelinesInvalid.audio2.origin"/>
+				<when xml:id="timestampsMultipleTimelinesInvalid.u1.p1.s1.w11.ab"
+					  interval="100900.0"
+					since="#timestampsMultipleTimelinesInvalid.audio2.origin"/>
+				<when xml:id="timestampsMultipleTimelinesInvalid.u1.p1.s1.w11.ae"
+					  interval="100960.0"
+					since="#timestampsMultipleTimelinesInvalid.audio2.origin"/>
+				<when xml:id="timestampsMultipleTimelinesInvalid.u1.p1.s1.w8.ab"
+					  interval="101000.0"
+					since="#timestampsMultipleTimelinesInvalid.audio2.origin"/>
+				<when xml:id="timestampsMultipleTimelinesInvalid.u1.p1.s1.w8.ae"
+					  interval="101040.0"
+					since="#timestampsMultipleTimelinesInvalid.audio2.origin"/>
+			</timeline>
+		</body>
+	</text>
+</TEI>
diff --git a/test/MetadataExtraction/examples/inputs/timestampsValidInvalid.xml b/test/MetadataExtraction/examples/inputs/timestampsValidInvalid.xml
new file mode 100644
index 0000000..6002aeb
--- /dev/null
+++ b/test/MetadataExtraction/examples/inputs/timestampsValidInvalid.xml
@@ -0,0 +1,385 @@
+<?xml version="1.0" encoding="UTF-8"?>
+<TEI xmlns="http://www.tei-c.org/ns/1.0"
+     xml:id="ps2013-001-01-000-999.ana"
+     xml:lang="cs"
+     ana="#parla.agenda">
+   <teiHeader>
+      <fileDesc>
+         <titleStmt>
+            <title type="main" xml:lang="cs">Český parlamentní korpus, Poslanecká sněmovna, 2013-11-25 ps2013-001-01-000-999 [ParCzech.ana]</title>
+            <title type="main" xml:lang="en">Czech parliamentary corpus, Chamber of Deputies, 2013-11-25 ps2013-001-01-000-999 [ParCzech.ana]</title>
+            <title type="sub" xml:lang="cs">Parlament České republiky, Poslanecká sněmovna, 2013-11-25, Začátek schůze Poslanecké sněmovny 25. listopadu 2013 ve 14.05 hodin Přítomno: 199 poslanců</title>
+            <title type="sub" xml:lang="en">Parliament of the Czech Republic, Chamber of Deputies, 2013-11-25</title>
+            <title xml:lang="cs" type="short">Začátek schůze Poslanecké sněmovny 25. listopadu 2013 ve 14.05 hodin Přítomno: 199 poslanců</title>
+            <meeting ana="#parla.term #parla.lower #parliament.PSP7" n="ps2013">ps2013</meeting>
+            <meeting ana="#parla.meeting #parla.lower" n="ps2013/001">ps2013/001</meeting>
+            <meeting ana="#parla.sitting #parla.lower" n="ps2013/001/01">ps2013/001/01</meeting>
+            <meeting ana="#parla.agenda #parla.lower" n="ps2013/001/999">ps2013/001/999</meeting>
+            <respStmt>
+               <persName ref="https://orcid.org/0000-0001-7953-8783">Matyáš Kopp</persName>
+               <resp xml:lang="en">Data retrieval</resp>
+               <resp xml:lang="en">TEI XML corpus encoding</resp>
+               <resp xml:lang="en">Linguistic annotation</resp>
+            </respStmt>
+            <funder>
+               <orgName xml:lang="cs">LINDAT/CLARIAH-CZ: Digitální výzkumná infrastruktura pro jazykové technologie, umění a humanitní vědy</orgName>
+               <orgName xml:lang="en">LINDAT/CLARIAH-CZ: Digital Research Infrastructure for Language Technologies, Arts and Humanities</orgName>
+            </funder>
+         </titleStmt>
+         <editionStmt>
+            <edition>4.0</edition>
+         </editionStmt>
+         <extent>
+            <measure unit="speeches" quantity="1" xml:lang="cs">1 promluv</measure>
+            <measure unit="speeches" quantity="1" xml:lang="en">1 speeches</measure>
+            <measure unit="words" quantity="173" xml:lang="cs">173 slov</measure>
+            <measure unit="words" quantity="173" xml:lang="en">173 words</measure>
+         </extent>
+         <publicationStmt>
+            <publisher>
+               <orgName xml:lang="cs">LINDAT/CLARIAH-CZ: Digitální výzkumná infrastruktura pro jazykové technologie, umění a humanitní vědy</orgName>
+               <orgName xml:lang="en">LINDAT/CLARIAH-CZ: Digital Research Infrastructure for Language Technologies, Arts and Humanities</orgName>
+               <ref target="https://www.lindat.cz">www.lindat.cz</ref>
+            </publisher>
+            <idno type="URI" subtype="handle">http://hdl.handle.net/11234/1-5360</idno>
+            <availability status="free">
+               <licence>https://creativecommons.org/publicdomain/zero/1.0/</licence>
+               <p xml:lang="en">This work is licensed under the <ref target="https://creativecommons.org/publicdomain/zero/1.0/">CC0 1.0 Universal (CC0 1.0) Public Domain Dedication</ref>.</p>
+            </availability>
+            <date when="2024-01-26">2024-01-26</date>
+         </publicationStmt>
+         <sourceDesc>
+            <bibl>
+               <title type="main" xml:lang="cs">Parlament České republiky, Poslanecká sněmovna</title>
+               <title type="main" xml:lang="en">Parliament of the Czech Republic, Chamber of Deputies</title>
+               <idno type="URI" subtype="parliament">https://www.psp.cz/eknih/2013ps/stenprot/001schuz/s001001.htm</idno>
+               <date when="2013-11-25">25.11.2013</date>
+            </bibl>
+            <recordingStmt>
+               <recording type="audio">
+                  <media xml:id="ps2013-001-01-000-999.audio1"
+                         mimeType="audio/mp3"
+                         source="https://www.psp.cz/eknih/2013ps/audio/2013/11/25/2013112513581412.mp3"
+                         url="audio/psp/2013/11/25/2013112513581412.mp3"/>
+               </recording>
+            </recordingStmt>
+         </sourceDesc>
+      </fileDesc>
+      <encodingDesc>
+         <projectDesc>
+            <p xml:lang="en">
+               <ref target="https://ufal.mff.cuni.cz/parczech">ParCzech</ref> is a project on compiling Czech parliamentary data into annotated corpora. It mostly follows the <ref target="https://www.clarin.eu/parlamint">ParlaMint project's</ref> recommendation, but the data are slightly extended in several ways. Texts contain links to original voting and prints. Except for the 4-class named entities classification, it also includes a more detailed CNEC hierarchical classification. The text in the annotated version is aligned with audio on the token level. And morphological annotation contains pdt tagsed besides UD PoS and features.</p>
+         </projectDesc>
+         <tagsDecl>
+            <namespace name="http://www.tei-c.org/ns/1.0">
+               <tagUsage gi="anchor" occurs="322"/>
+               <tagUsage gi="body" occurs="1"/>
+               <tagUsage gi="date" occurs="8"/>
+               <tagUsage gi="div" occurs="1"/>
+               <tagUsage gi="link" occurs="198"/>
+               <tagUsage gi="linkGrp" occurs="12"/>
+               <tagUsage gi="name" occurs="18"/>
+               <tagUsage gi="note" occurs="5"/>
+               <tagUsage gi="num" occurs="3"/>
+               <tagUsage gi="pb" occurs="1"/>
+               <tagUsage gi="pc" occurs="24"/>
+               <tagUsage gi="s" occurs="12"/>
+               <tagUsage gi="seg" occurs="6"/>
+               <tagUsage gi="text" occurs="1"/>
+               <tagUsage gi="timeline" occurs="1"/>
+               <tagUsage gi="u" occurs="1"/>
+               <tagUsage gi="w" occurs="175"/>
+               <tagUsage gi="when" occurs="323"/>
+            </namespace>
+         </tagsDecl>
+		</encodingDesc>
+		<profileDesc>
+			<settingDesc>
+				<setting>
+					<name type="org">Parlament České republiky - Poslanecká sněmovna</name>
+					<name type="address">Sněmovní 176/4</name>
+					<name type="city">Praha</name>
+					<name key="CZ" type="country">Czech Republic</name>
+					<date when="2013-11-25" ana="#parla.sitting">2013-11-25</date>
+				</setting>
+			</settingDesc>
+		</profileDesc>
+	</teiHeader>
+	<text>
+		<body>
+			<div>
+				<u who="#personX"
+				   ana="#roleX"
+				   xml:id="timestampsValidInvalid.u1">
+					<seg xml:id="timestampsValidInvalid.u1.p1">
+						<s xml:id="timestampsValidInvalid.u1.p1.s1">
+							<anchor synch="#timestampsValidInvalid.u1.p1.s1.w1.ab"/>
+							<w xml:id="timestampsValidInvalid.u1.p1.s1.w1">Lorem</w>
+							<anchor synch="#timestampsValidInvalid.u1.p1.s1.w1.ae"/>
+							<name>
+								<anchor synch="#timestampsValidInvalid.u1.p1.s1.w2.ab"/>
+								<w xml:id="timestampsValidInvalid.u1.p1.s1.w2">Ipsum</w>
+								<anchor synch="#timestampsValidInvalid.u1.p1.s1.w2.ae"/>
+								<anchor synch="#timestampsValidInvalid.u1.p1.s1.w3.ab"/>
+								<w xml:id="timestampsValidInvalid.u1.p1.s1.w3">dolor</w>
+								<anchor synch="#timestampsValidInvalid.u1.p1.s1.w3.ae"/>
+							</name>
+							<anchor synch="#timestampsValidInvalid.u1.p1.s1.w4.ab"/>
+							<w xml:id="timestampsValidInvalid.u1.p1.s1.w4">sit</w>
+							<anchor synch="#timestampsValidInvalid.u1.p1.s1.w4.ae"/>
+							<anchor synch="#timestampsValidInvalid.u1.p1.s1.w5.ab"/>
+							<w xml:id="timestampsValidInvalid.u1.p1.s1.w5">amet</w>
+							<anchor synch="#timestampsValidInvalid.u1.p1.s1.w5.ae"/>
+							<pc xml:id="timestampsValidInvalid.u1.p1.s1.w6">,</pc>
+							<anchor synch="#timestampsValidInvalid.u1.p1.s1.w7.ab"/>
+							<w xml:id="timestampsValidInvalid.u1.p1.s1.w7">consecteur</w>
+							<anchor synch="#timestampsValidInvalid.u1.p1.s1.w7.ae"/>
+							<name>
+								<anchor synch="#timestampsValidInvalid.u1.p1.s1.w8.ab"/>
+								<w xml:id="timestampsValidInvalid.u1.p1.s1.w8">adipiscing</w>
+								<anchor synch="#timestampsValidInvalid.u1.p1.s1.w8.ae"/>
+								<date>
+									<anchor synch="#timestampsValidInvalid.u1.p1.s1.w9.ab"/>
+									<w xml:id="timestampsValidInvalid.u1.p1.s1.w9">elit</w>
+									<anchor synch="#timestampsValidInvalid.u1.p1.s1.w9.ae"/>
+								</date>
+							</name>
+							<pc xml:id="timestampsValidInvalid.u1.p1.s1.w10"></pc>
+							<anchor synch="#timestampsValidInvalid.u1.p1.s1.w11.ab"/>
+							<w xml:id="timestampsValidInvalid.u1.p1.s1.w11">sed</w>
+							<anchor synch="#timestampsValidInvalid.u1.p1.s1.w11.ae"/>
+							<anchor synch="#timestampsValidInvalid.u1.p1.s1.w12.ab"/>
+							<w xml:id="timestampsValidInvalid.u1.p1.s1.w12">do</w>
+							<anchor synch="#timestampsValidInvalid.u1.p1.s1.w12.ae"/>
+							<anchor synch="#timestampsValidInvalid.u1.p1.s1.w13.ab"/>
+							<w xml:id="timestampsValidInvalid.u1.p1.s1.w13">eiusmod</w>
+							<anchor synch="#timestampsValidInvalid.u1.p1.s1.w13.ae"/>
+							<anchor synch="#timestampsValidInvalid.u1.p1.s1.w14.ab"/>
+							<w xml:id="timestampsValidInvalid.u1.p1.s1.w14">tempor</w>
+							<anchor synch="#timestampsValidInvalid.u1.p1.s1.w14.ae"/>
+							<anchor synch="#timestampsValidInvalid.u1.p1.s1.w15.ab"/>
+							<w xml:id="timestampsValidInvalid.u1.p1.s1.w15">incididunt</w>
+							<anchor synch="#timestampsValidInvalid.u1.p1.s1.w15.ae"/>
+						</s>
+					</seg>
+				</u>
+				<u who="#personY"
+				   ana="#roleY"
+				   xml:id="timestampsValidInvalid.u2">
+					<seg xml:id="timestampsValidInvalid.u2.p1">
+						<s xml:id="timestampsValidInvalid.u2.p1.s1">
+							<anchor synch="#timestampsValidInvalid.u2.p1.s1.w1.ab"/>
+							<w xml:id="timestampsValidInvalid.u2.p1.s1.w1">Lorem</w>
+							<anchor synch="#timestampsValidInvalid.u2.p1.s1.w1.ae"/>
+							<w xml:id="timestampsValidInvalid.u2.p1.s1.w2">Ipsum</w>
+							<anchor synch="#timestampsValidInvalid.u2.p1.s1.w3.ab"/>
+							<w xml:id="timestampsValidInvalid.u2.p1.s1.w3">dolor</w>
+							<anchor synch="#timestampsValidInvalid.u2.p1.s1.w3.ae"/>
+							<anchor synch="#timestampsValidInvalid.u2.p1.s1.w4.ab"/>
+							<w xml:id="timestampsValidInvalid.u2.p1.s1.w4">sit</w>
+							<anchor synch="#timestampsValidInvalid.u2.p1.s1.w4.ae"/>
+							<date>
+								<anchor synch="#timestampsValidInvalid.u2.p1.s1.w5.ab"/>
+								<w xml:id="timestampsValidInvalid.u2.p1.s1.w5">amet</w>
+								<anchor synch="#timestampsValidInvalid.u2.p1.s1.w5.ae"/>
+							</date>
+							<pc xml:id="timestampsValidInvalid.u2.p1.s1.w6">,</pc>
+							<anchor synch="#timestampsValidInvalid.u2.p1.s1.w7.ab"/>
+							<w xml:id="timestampsValidInvalid.u2.p1.s1.w7">consecteur</w>
+							<anchor synch="#timestampsValidInvalid.u2.p1.s1.w7.ae"/>
+							<anchor synch="#timestampsValidInvalid.u2.p1.s1.w8.ab"/>
+							<w xml:id="timestampsValidInvalid.u2.p1.s1.w8">adipiscing</w>
+							<anchor synch="#timestampsValidInvalid.u2.p1.s1.w8.ae"/>
+							<name>
+								<anchor synch="#timestampsValidInvalid.u2.p1.s1.w9.ab"/>
+								<w xml:id="timestampsValidInvalid.u2.p1.s1.w9">elit</w>
+								<anchor synch="#timestampsValidInvalid.u2.p1.s1.w9.ae"/>
+							</name>
+							<pc xml:id="timestampsValidInvalid.u2.p1.s1.w10"></pc>
+							<anchor synch="#timestampsValidInvalid.u2.p1.s1.w11.ab"/>
+							<w xml:id="timestampsValidInvalid.u2.p1.s1.w11">sed</w>
+							<anchor synch="#timestampsValidInvalid.u2.p1.s1.w11.ae"/>
+							<anchor synch="#timestampsValidInvalid.u2.p1.s1.w12.ab"/>
+							<w xml:id="timestampsValidInvalid.u2.p1.s1.w12">do</w>
+							<anchor synch="#timestampsValidInvalid.u2.p1.s1.w12.ae"/>
+							<anchor synch="#timestampsValidInvalid.u2.p1.s1.w13.ab"/>
+							<w xml:id="timestampsValidInvalid.u2.p1.s1.w13">eiusmod</w>
+							<anchor synch="#timestampsValidInvalid.u2.p1.s1.w13.ae"/>
+							<anchor synch="#timestampsValidInvalid.u2.p1.s1.w14.ab"/>
+							<w xml:id="timestampsValidInvalid.u2.p1.s1.w14">tempor</w>
+							<anchor synch="#timestampsValidInvalid.u2.p1.s1.w14.ae"/>
+							<name>
+								<anchor synch="#timestampsValidInvalid.u2.p1.s1.w15.ab"/>
+								<w xml:id="timestampsValidInvalid.u2.p1.s1.w15">incididunt</w>
+								<anchor synch="#timestampsValidInvalid.u2.p1.s1.w15.ae"/>
+							</name>
+						</s>
+					</seg>
+				</u>
+			</div>
+			<timeline unit="ms"
+					  origin="#timestampsValidInvalid.audio1.origin"
+					  corresp="#timestampsValidInvalid.audio1"
+					  cert="0">
+				<when xml:id="timestampsValidInvalid.audio1.origin"
+					  absolute="2024-10-21T14:49:00"/>
+				<when xml:id="timestampsValidInvalid.u1.p1.s1.w1.ab"
+					  interval="100000.0"
+					  since="#timestampsValidInvalid.audio1.origin"/>
+				<when xml:id="timestampsValidInvalid.u1.p1.s1.w1.ae"
+					  interval="100050.0"
+					since="#timestampsValidInvalid.audio1.origin"/>
+				<when xml:id="timestampsValidInvalid.u1.p1.s1.w2.ab"
+					  interval="100090.0"
+					since="#timestampsValidInvalid.audio1.origin"/>
+				<when xml:id="timestampsValidInvalid.u1.p1.s1.w2.ae"
+					  interval="100140.0"
+					since="#timestampsValidInvalid.audio1.origin"/>
+				<when xml:id="timestampsValidInvalid.u1.p1.s1.w3.ab"
+					  interval="100150.0"
+					since="#timestampsValidInvalid.audio1.origin"/>
+				<when xml:id="timestampsValidInvalid.u1.p1.s1.w3.ae"
+					  interval="100200.0"
+					since="#timestampsValidInvalid.audio1.origin"/>
+				<when xml:id="timestampsValidInvalid.u1.p1.s1.w4.ab"
+					  interval="100230.0"
+					since="#timestampsValidInvalid.audio1.origin"/>
+				<when xml:id="timestampsValidInvalid.u1.p1.s1.w4.ae"
+					  interval="100260.0"
+					since="#timestampsValidInvalid.audio1.origin"/>
+				<when xml:id="timestampsValidInvalid.u1.p1.s1.w5.ab"
+					  interval="100310.0"
+					since="#timestampsValidInvalid.audio1.origin"/>
+				<when xml:id="timestampsValidInvalid.u1.p1.s1.w5.ae"
+					  interval="100350.0"
+					since="#timestampsValidInvalid.audio1.origin"/>
+				<when xml:id="timestampsValidInvalid.u1.p1.s1.w7.ab"
+					  interval="100390.0"
+					since="#timestampsValidInvalid.audio1.origin"/>
+				<when xml:id="timestampsValidInvalid.u1.p1.s1.w7.ae"
+					  interval="100500.0"
+					since="#timestampsValidInvalid.audio1.origin"/>
+				<when xml:id="timestampsValidInvalid.u1.p1.s1.w8.ab"
+					  interval="100510.0"
+					since="#timestampsValidInvalid.audio1.origin"/>
+				<when xml:id="timestampsValidInvalid.u1.p1.s1.w8.ae"
+					  interval="100610.0"
+					since="#timestampsValidInvalid.audio1.origin"/>
+				<when xml:id="timestampsValidInvalid.u1.p1.s1.w9.ab"
+					  interval="100610.0"
+					since="#timestampsValidInvalid.audio1.origin"/>
+				<when xml:id="timestampsValidInvalid.u1.p1.s1.w9.ae"
+					  interval="100660.0"
+					since="#timestampsValidInvalid.audio1.origin"/>
+				<when xml:id="timestampsValidInvalid.u1.p1.s1.w11.ab"
+					  interval="100700.0"
+					since="#timestampsValidInvalid.audio1.origin"/>
+				<when xml:id="timestampsValidInvalid.u1.p1.s1.w11.ae"
+					  interval="100730.0"
+					since="#timestampsValidInvalid.audio1.origin"/>
+				<when xml:id="timestampsValidInvalid.u1.p1.s1.w12.ab"
+					  interval="100750.0"
+					since="#timestampsValidInvalid.audio1.origin"/>
+				<when xml:id="timestampsValidInvalid.u1.p1.s1.w12.ae"
+					  interval="100770.0"
+					since="#timestampsValidInvalid.audio1.origin"/>
+				<when xml:id="timestampsValidInvalid.u1.p1.s1.w13.ab"
+					  interval="100780.0"
+					since="#timestampsValidInvalid.audio1.origin"/>
+				<when xml:id="timestampsValidInvalid.u1.p1.s1.w13.ae"
+					  interval="100850.0"
+					since="#timestampsValidInvalid.audio1.origin"/>
+				<when xml:id="timestampsValidInvalid.u1.p1.s1.w14.ab"
+					  interval="100900.0"
+					 since="#timestampsValidInvalid.audio1.origin"/>
+				<when xml:id="timestampsValidInvalid.u1.p1.s1.w14.ae"
+					  interval="100960.0"
+					since="#timestampsValidInvalid.audio1.origin"/>
+				<when xml:id="timestampsValidInvalid.u1.p1.s1.w15.ab"
+					  interval="101000.0"
+					since="#timestampsValidInvalid.audio1.origin"/>
+				<when xml:id="timestampsValidInvalid.u1.p1.s1.w15.ae"
+					  interval="101040.0"
+					since="#timestampsValidInvalid.audio1.origin"/>
+				<when xml:id="timestampsValidInvalid.u2.p1.s1.w1.ab"
+					  interval="100000.0"
+					  since="#timestampsValidInvalid.audio1.origin"/>
+				<when xml:id="timestampsValidInvalid.u2.p1.s1.w1.ae"
+					  interval="100050.0"
+					since="#timestampsValidInvalid.audio1.origin"/>
+				<when xml:id="timestampsValidInvalid.u2.p1.s1.w2.ab"
+					  interval="100090.0"
+					since="#timestampsValidInvalid.audio1.origin"/>
+				<when xml:id="timestampsValidInvalid.u2.p1.s1.w2.ae"
+					  interval="100140.0"
+					since="#timestampsValidInvalid.audio1.origin"/>
+				<when xml:id="timestampsValidInvalid.u2.p1.s1.w8.ab"
+					  interval="100150.0"
+					since="#timestampsValidInvalid.audio1.origin"/>
+				<when xml:id="timestampsValidInvalid.u2.p1.s1.w8.ae"
+					  interval="100200.0"
+					since="#timestampsValidInvalid.audio1.origin"/>
+				<when xml:id="timestampsValidInvalid.u2.p1.s1.w4.ab"
+					  interval="100230.0"
+					since="#timestampsValidInvalid.audio1.origin"/>
+				<when xml:id="timestampsValidInvalid.u2.p1.s1.w4.ae"
+					  interval="100260.0"
+					since="#timestampsValidInvalid.audio1.origin"/>
+				<when xml:id="timestampsValidInvalid.u2.p1.s1.w5.ab"
+					  interval="100310.0"
+					since="#timestampsValidInvalid.audio1.origin"/>
+				<when xml:id="timestampsValidInvalid.u2.p1.s1.w5.ae"
+					  interval="100350.0"
+					since="#timestampsValidInvalid.audio1.origin"/>
+				<when xml:id="timestampsValidInvalid.u2.p1.s1.w7.ab"
+					  interval="100390.0"
+					since="#timestampsValidInvalid.audio1.origin"/>
+				<when xml:id="timestampsValidInvalid.u2.p1.s1.w7.ae"
+					  interval="100500.0"
+					since="#timestampsValidInvalid.audio1.origin"/>
+				<when xml:id="timestampsValidInvalid.u2.p1.s1.w3.ab"
+					  interval="100510.0"
+					since="#timestampsValidInvalid.audio1.origin"/>
+				<when xml:id="timestampsValidInvalid.u2.p1.s1.w3.ae"
+					  interval="100610.0"
+					since="#timestampsValidInvalid.audio1.origin"/>
+				<when xml:id="timestampsValidInvalid.u2.p1.s1.w9.ab"
+					  interval="100610.0"
+					since="#timestampsValidInvalid.audio1.origin"/>
+				<when xml:id="timestampsValidInvalid.u2.p1.s1.w9.ae"
+					  interval="100660.0"
+					since="#timestampsValidInvalid.audio1.origin"/>
+				<when xml:id="timestampsValidInvalid.u2.p1.s1.w11.ab"
+					  interval="100700.0"
+					since="#timestampsValidInvalid.audio1.origin"/>
+				<when xml:id="timestampsValidInvalid.u2.p1.s1.w11.ae"
+					  interval="100730.0"
+					since="#timestampsValidInvalid.audio1.origin"/>
+				<when xml:id="timestampsValidInvalid.u2.p1.s1.w12.ab"
+					  interval="100750.0"
+					since="#timestampsValidInvalid.audio1.origin"/>
+				<when xml:id="timestampsValidInvalid.u2.p1.s1.w12.ae"
+					  interval="100770.0"
+					since="#timestampsValidInvalid.audio1.origin"/>
+				<when xml:id="timestampsValidInvalid.u2.p1.s1.w13.ab"
+					  interval="100780.0"
+					since="#timestampsValidInvalid.audio1.origin"/>
+				<when xml:id="timestampsValidInvalid.u2.p1.s1.w13.ae"
+					  interval="100850.0"
+					since="#timestampsValidInvalid.audio1.origin"/>
+				<when xml:id="timestampsValidInvalid.u2.p1.s1.w14.ab"
+					  interval="100900.0"
+					since="#timestampsValidInvalid.audio1.origin"/>
+				<when xml:id="timestampsValidInvalid.u2.p1.s1.w14.ae"
+					  interval="100960.0"
+					since="#timestampsValidInvalid.audio1.origin"/>
+				<when xml:id="timestampsValidInvalid.u2.p1.s1.w15.ab"
+					  interval="101000.0"
+					since="#timestampsValidInvalid.audio1.origin"/>
+				<when xml:id="timestampsValidInvalid.u2.p1.s1.w15.ae"
+					  interval="101040.0"
+					since="#timestampsValidInvalid.audio1.origin"/>
+			</timeline>
+		</body>
+	</text>
+</TEI>
diff --git a/test/MetadataExtraction/tester.py b/test/MetadataExtraction/tester.py
index af8e90b..f0e7708 100644
--- a/test/MetadataExtraction/tester.py
+++ b/test/MetadataExtraction/tester.py
@@ -13,6 +13,8 @@
     ("NAMES AND DATES", "--file=examples/inputs/timestampsNamesAndDates.xml", "--wd=../../MetadataExtraction", "examples/expected/expectedTimestampsNamesAndDates.txt"),
     ("MISSING ANCHORS", "--file=examples/inputs/timestampsMissngAnchors.xml", "--wd=../../MetadataExtraction", "examples/expected/expectedTimestampsMissngAnchors.txt"),
     ("MULTIPLE SPEECHES", "--file=examples/inputs/timestampsMultipleSpeeches.xml", "--wd=../../MetadataExtraction", "examples/expected/expectedTimestampsMultipleSpeeces.txt"),
+    ("MESSY SPEECH", "--file=examples/inputs/timestampsValidInvalid.xml", "--wd=../../MetadataExtraction", "examples/expected/expectedTimestampsValidInvalid.txt"),
+    ("MESSY SPEECH MULTIPLE TIMELINES", "--file=examples/inputs/timestampsMultipleTimelinesInvalid.xml", "--wd=../../MetadataExtraction", "examples/expected/expectedTimestampsMultipleTimelinesInvalid.txt"),
     ]
 
 test_cases_persons = [