diff --git a/Makefile b/Makefile
index d7693fc..f140b55 100644
--- a/Makefile
+++ b/Makefile
@@ -20,14 +20,17 @@ serve: up build-doc
 	cd "$(BUILDDIR)" && python3 -m http.server
 
 test: up
-	${DOCKER} compose exec local poetry run coverage run -m pytest -vvv -s --doctest-modules . --ignore deduplicate-text-datasets --ignore docs --ignore text_dedup/minhash_spark.py --ignore tests/test_benchmark.py
+	${DOCKER} compose exec local poetry run coverage run -m pytest --doctest-modules . --ignore deduplicate-text-datasets --ignore docs --ignore text_dedup/minhash_spark.py --ignore tests/benchmark_core.py \
+	--ignore tests/benchmark_news.py \
+	--ignore tests/sweep_core.py \
+	--ignore tests/sweep_news.py
 	${DOCKER} compose exec local poetry run coverage xml -o cobertura.xml
 	${DOCKER} compose exec local poetry run coverage report -m
 	${DOCKER} compose cp local:/app/cobertura.xml cobertura.xml
 
 benchmark: up
-	${DOCKER} compose exec local poetry run python tests/test_benchmark_core.py
-	${DOCKER} compose exec local poetry run python tests/test_benchmark_news.py
+	${DOCKER} compose exec local poetry run python tests/benchmark_core.py
+	${DOCKER} compose exec local poetry run python tests/benchmark_news.py
 
 spark_test: up
 	${DOCKER} compose exec local poetry run pytest -vvv -s --doctest-modules tests/test_minhash_spark.py
diff --git a/README.md b/README.md
index bb9bee0..6f101c4 100644
--- a/README.md
+++ b/README.md
@@ -270,15 +270,15 @@ INFO     After                         : 47045
 <details>
 <summary>pinecone/core-2020-05-10-deduplication</summary>
 
-See `tests/test_benchmark_core.py` for reproduction.
+See `tests/benchmark_core.py` for reproduction.
 
 | Algorithm                       | Precision (Duplicates) | Recall (Duplicates) | Precision (Non Duplicates) | Recall (Non Duplicates) | Macro F1 score |  Accuracy | Time     |
 | :------------------------------ | ---------------------: | ------------------: | -------------------------: | ----------------------: | -------------: | --------: | :------- |
-| MinHash (Spark)                 |                  0.957 |               0.945 |                      0.947 |                   0.959 |      **0.952** |     0.920 | 698.76s  |
-| MinHash                         |                  0.959 |               0.945 |                      0.947 |                   0.962 |      **0.953** |     0.924 | 18.80s   |
-| SimHash                         |                  0.904 |               0.721 |                      0.792 |                   0.933 |          0.848 |     0.832 | 660.73s  |
-| UniSim/RETSimNear-Dup + ANN     |                  0.931 |               0.892 |                      0.905 |                   0.939 |          0.918 |     0.905 | 1222.87s |
-| Exact Title                     |                  0.830 |               0.552 |                      0.710 |                   0.907 |           0.77 |     0.746 | -        |
+| UniSim                          |                 0.9307 |              0.8924 |                     0.9055 |                  0.9394 |         0.9181 |    0.9054 | 1305.79s |
+| MinHash Spark                   |                  0.957 |              0.9445 |                     0.9471 |                   0.959 |          0.952 |    0.9202 | 691.77s  |
+| MinHash                         |                 0.9594 |              0.9445 |                     0.9474 |                  0.9616 |     **0.9534** |     0.924 | 18.88s   |
+| SimHash                         |                 0.9042 |               0.721 |                      0.792 |                  0.9329 |         0.8481 |    0.8321 | 644.36s  |
+| Exact Title                     |                 0.8302 |              0.5521 |                     0.7098 |                  0.9065 |           0.77 |    0.7456 | -        |
 | Exact Title Matching [^1]       |                  0.830 |                0.50 |                      0.709 |                   0.992 |          0.757 |     0.746 | -        |
 | Simhash Matching [^1]           |                  0.697 |               0.247 |                      0.598 |                   0.985 |          0.631 |     0.616 | -        |
 | Document Vector Similarity [^1] |                  0.912 |               0.779 |                      0.861 |                   0.986 |          0.885 |     0.883 | -        |
@@ -294,29 +294,29 @@ See `tests/test_benchmark_core.py` for reproduction.
 <details>
 <summary>NEWS-COPY</summary>
 
-See `tests/test_benchmark_news.py` for reproduction.
+See `tests/benchmark_news.py` for reproduction.
 
 Adjusted Rand Index (ARI) on NEWS-COPY dataset:
 
 | Model/Algorithm          | ARI       |
 | :----------------------- | :-------- |
-| n-gram [^3]              | 0.440     |
 | SimHash                  | 0.612     |
-| SimHash[^2]              | 0.695     |
 | MinHash (Spark)          | 0.740     |
 | MinHash                  | 0.742     |
+| RETSim Near-Dup + ANN*   | _0.051_   |
+| n-gram [^3]              | 0.440     |
+| SimHash[^2]              | 0.695     |
 | MinHash[^3]              | 0.737     |
 | MinHash[^2]              | 0.783     |
 | Multilingual USE[^2]     | 0.730     |
 | Multilingual E5-Base[^2] | 0.742     |
 | S-BERT[^3]               | 0.700     |
-| RETSim Near-Dup + ANN*   | _0.051_ |
 | RETSim Partial-Dup[^2]   | 0.831     |
 | RETSim Near-Dup[^2]      | 0.704     |
 | Re-ranking [^3]          | **0.937** |
 | Bi-encoder [^3]          | 0.915     |
 
-\*: I can't seem to reproduce the results in the paper.
+\*: I can't seem to reproduce the results from the paper.
 
 [^1]: [Deduplication of Scholarly Documents using Locality Sensitive Hashing and Word Embeddings](https://aclanthology.org/2020.lrec-1.113)
 [^2]: [RETSim: Resilient and Efficient Text Similarity](https://arxiv.org/abs/2311.17264)
diff --git a/cobertura.xml b/cobertura.xml
index bd24cf1..b692db1 100644
--- a/cobertura.xml
+++ b/cobertura.xml
@@ -1,12 +1,12 @@
 <?xml version="1.0" ?>
-<coverage version="7.4.3" timestamp="1710675264933" lines-valid="934" lines-covered="630" line-rate="0.6745" branches-valid="402" branches-covered="150" branch-rate="0.3731" complexity="0">
+<coverage version="7.4.3" timestamp="1711718857770" lines-valid="1161" lines-covered="770" line-rate="0.6632" branches-valid="476" branches-covered="158" branch-rate="0.3319" complexity="0">
 	<!-- Generated by coverage.py: https://coverage.readthedocs.io/en/7.4.3 -->
 	<!-- Based on https://raw.githubusercontent.com/cobertura/web/master/htdocs/xml/coverage-04.dtd -->
 	<sources>
 		<source>/app</source>
 	</sources>
 	<packages>
-		<package name="text_dedup" line-rate="0.5563" branch-rate="0.3007" complexity="0">
+		<package name="text_dedup" line-rate="0.5471" branch-rate="0.2672" complexity="0">
 			<classes>
 				<class name="__init__.py" filename="text_dedup/__init__.py" complexity="0" line-rate="1" branch-rate="1">
 					<methods/>
@@ -20,9 +20,12 @@
 						<line number="14" hits="1"/>
 					</lines>
 				</class>
-				<class name="bloom_filter.py" filename="text_dedup/bloom_filter.py" complexity="0" line-rate="0.9787" branch-rate="0.9091">
+				<class name="ann_unisim.py" filename="text_dedup/ann_unisim.py" complexity="0" line-rate="0.3056" branch-rate="0.01724">
 					<methods/>
 					<lines>
+						<line number="1" hits="1"/>
+						<line number="2" hits="1"/>
+						<line number="3" hits="1"/>
 						<line number="4" hits="1"/>
 						<line number="6" hits="1"/>
 						<line number="7" hits="1"/>
@@ -38,43 +41,103 @@
 						<line number="18" hits="1"/>
 						<line number="19" hits="1"/>
 						<line number="20" hits="1"/>
+						<line number="21" hits="1"/>
+						<line number="22" hits="1"/>
 						<line number="23" hits="1"/>
-						<line number="24" hits="1"/>
 						<line number="25" hits="1"/>
-						<line number="26" hits="1"/>
-						<line number="27" hits="1"/>
-						<line number="32" hits="1"/>
-						<line number="33" hits="1"/>
-						<line number="35" hits="1" branch="true" condition-coverage="100% (2/2)"/>
-						<line number="36" hits="1" branch="true" condition-coverage="100% (2/2)"/>
+						<line number="28" hits="1"/>
+						<line number="29" hits="1"/>
+						<line number="30" hits="0"/>
+						<line number="31" hits="0"/>
+						<line number="32" hits="0"/>
+						<line number="34" hits="1"/>
+						<line number="35" hits="0"/>
 						<line number="37" hits="1"/>
+						<line number="38" hits="0"/>
+						<line number="40" hits="1"/>
+						<line number="41" hits="0"/>
+						<line number="42" hits="0"/>
+						<line number="43" hits="0"/>
+						<line number="46" hits="1"/>
+						<line number="47" hits="1"/>
+						<line number="48" hits="1"/>
 						<line number="49" hits="1"/>
-						<line number="55" hits="1"/>
-						<line number="57" hits="1"/>
-						<line number="62" hits="1" branch="true" condition-coverage="100% (2/2)"/>
-						<line number="63" hits="1"/>
-						<line number="64" hits="1" branch="true" condition-coverage="100% (2/2)"/>
-						<line number="65" hits="1"/>
-						<line number="69" hits="1" branch="true" condition-coverage="100% (2/2)"/>
-						<line number="70" hits="1"/>
-						<line number="72" hits="1"/>
-						<line number="74" hits="1" branch="true" condition-coverage="100% (2/2)"/>
-						<line number="75" hits="1" branch="true" condition-coverage="50% (1/2)" missing-branches="exit"/>
-						<line number="82" hits="1" branch="true" condition-coverage="100% (2/2)"/>
-						<line number="83" hits="1"/>
-						<line number="85" hits="1" branch="true" condition-coverage="100% (2/2)"/>
-						<line number="86" hits="1" branch="true" condition-coverage="50% (1/2)" missing-branches="87"/>
+						<line number="50" hits="1"/>
+						<line number="51" hits="0"/>
+						<line number="52" hits="0"/>
+						<line number="54" hits="0"/>
+						<line number="65" hits="0"/>
+						<line number="66" hits="0"/>
+						<line number="67" hits="0"/>
+						<line number="68" hits="0"/>
+						<line number="69" hits="0"/>
+						<line number="71" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="72,183"/>
+						<line number="72" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="73,75"/>
+						<line number="73" hits="0"/>
+						<line number="75" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="76,86"/>
+						<line number="76" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="exit,75"/>
+						<line number="86" hits="0"/>
 						<line number="87" hits="0"/>
-						<line number="89" hits="1"/>
-						<line number="90" hits="1" branch="true" condition-coverage="100% (2/2)"/>
-						<line number="91" hits="1"/>
-						<line number="93" hits="1"/>
-						<line number="94" hits="1"/>
+						<line number="88" hits="0"/>
+						<line number="90" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="91,105"/>
+						<line number="91" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="90,96"/>
+						<line number="96" hits="0"/>
+						<line number="99" hits="0"/>
+						<line number="100" hits="0"/>
+						<line number="101" hits="0"/>
+						<line number="102" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="91,103"/>
+						<line number="103" hits="0"/>
+						<line number="105" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="106,149"/>
+						<line number="106" hits="0"/>
+						<line number="108" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="105,113"/>
+						<line number="113" hits="0"/>
+						<line number="117" hits="0"/>
+						<line number="118" hits="0"/>
+						<line number="119" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="exit,120"/>
+						<line number="120" hits="0"/>
+						<line number="121" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="122,147"/>
+						<line number="122" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="exit,132"/>
+						<line number="132" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="exit,135"/>
+						<line number="135" hits="0"/>
+						<line number="136" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="137,142"/>
+						<line number="137" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="138,140"/>
+						<line number="138" hits="0"/>
+						<line number="140" hits="0"/>
+						<line number="142" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="exit,143"/>
+						<line number="143" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="exit,145"/>
+						<line number="145" hits="0"/>
+						<line number="147" hits="0"/>
+						<line number="149" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="150,154"/>
+						<line number="150" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="149,151"/>
+						<line number="151" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="150,152"/>
+						<line number="152" hits="0"/>
+						<line number="154" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="155,172"/>
+						<line number="155" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="exit,162"/>
+						<line number="162" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="exit,168"/>
+						<line number="168" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="154,170"/>
+						<line number="170" hits="0"/>
+						<line number="172" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="173,178"/>
+						<line number="173" hits="0"/>
+						<line number="174" hits="0"/>
+						<line number="175" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="172,176"/>
+						<line number="176" hits="0"/>
+						<line number="178" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="71,179"/>
+						<line number="179" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="178,180"/>
+						<line number="180" hits="0"/>
+						<line number="181" hits="0"/>
+						<line number="183" hits="0"/>
+						<line number="184" hits="0"/>
+						<line number="185" hits="0"/>
+						<line number="186" hits="0"/>
+						<line number="189" hits="1" branch="true" condition-coverage="50% (1/2)" missing-branches="190"/>
+						<line number="190" hits="0"/>
 					</lines>
 				</class>
-				<class name="ccnet.py" filename="text_dedup/ccnet.py" complexity="0" line-rate="0.3506" branch-rate="0">
+				<class name="bloom_filter.py" filename="text_dedup/bloom_filter.py" complexity="0" line-rate="0.9792" branch-rate="0.9">
 					<methods/>
 					<lines>
+						<line number="4" hits="1"/>
+						<line number="5" hits="1"/>
 						<line number="7" hits="1"/>
 						<line number="8" hits="1"/>
 						<line number="9" hits="1"/>
@@ -84,6 +147,57 @@
 						<line number="14" hits="1"/>
 						<line number="15" hits="1"/>
 						<line number="16" hits="1"/>
+						<line number="17" hits="1"/>
+						<line number="18" hits="1"/>
+						<line number="19" hits="1"/>
+						<line number="20" hits="1"/>
+						<line number="21" hits="1"/>
+						<line number="23" hits="1"/>
+						<line number="26" hits="1"/>
+						<line number="27" hits="1"/>
+						<line number="28" hits="1"/>
+						<line number="29" hits="1"/>
+						<line number="30" hits="1"/>
+						<line number="35" hits="1"/>
+						<line number="36" hits="1"/>
+						<line number="38" hits="1"/>
+						<line number="44" hits="1"/>
+						<line number="50" hits="1" branch="true" condition-coverage="100% (2/2)"/>
+						<line number="51" hits="1" branch="true" condition-coverage="100% (2/2)"/>
+						<line number="52" hits="1"/>
+						<line number="54" hits="1"/>
+						<line number="55" hits="1"/>
+						<line number="57" hits="1" branch="true" condition-coverage="100% (2/2)"/>
+						<line number="58" hits="1" branch="true" condition-coverage="100% (2/2)"/>
+						<line number="60" hits="1"/>
+						<line number="61" hits="1" branch="true" condition-coverage="100% (2/2)"/>
+						<line number="62" hits="1"/>
+						<line number="64" hits="1"/>
+						<line number="66" hits="1" branch="true" condition-coverage="100% (2/2)"/>
+						<line number="67" hits="1" branch="true" condition-coverage="50% (1/2)" missing-branches="exit"/>
+						<line number="74" hits="1" branch="true" condition-coverage="100% (2/2)"/>
+						<line number="75" hits="1"/>
+						<line number="77" hits="1" branch="true" condition-coverage="100% (2/2)"/>
+						<line number="78" hits="1" branch="true" condition-coverage="50% (1/2)" missing-branches="79"/>
+						<line number="79" hits="0"/>
+						<line number="81" hits="1"/>
+						<line number="82" hits="1"/>
+						<line number="83" hits="1"/>
+						<line number="84" hits="1"/>
+					</lines>
+				</class>
+				<class name="ccnet.py" filename="text_dedup/ccnet.py" complexity="0" line-rate="0.3855" branch-rate="0">
+					<methods/>
+					<lines>
+						<line number="7" hits="1"/>
+						<line number="8" hits="1"/>
+						<line number="9" hits="1"/>
+						<line number="10" hits="1"/>
+						<line number="11" hits="1"/>
+						<line number="13" hits="1"/>
+						<line number="14" hits="1"/>
+						<line number="15" hits="1"/>
+						<line number="17" hits="1"/>
 						<line number="18" hits="1"/>
 						<line number="19" hits="1"/>
 						<line number="20" hits="1"/>
@@ -94,30 +208,34 @@
 						<line number="25" hits="1"/>
 						<line number="26" hits="1"/>
 						<line number="27" hits="1"/>
+						<line number="28" hits="1"/>
 						<line number="29" hits="1"/>
+						<line number="31" hits="1"/>
 						<line number="32" hits="1"/>
-						<line number="52" hits="0"/>
-						<line number="53" hits="0"/>
-						<line number="54" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="exit,55"/>
-						<line number="55" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="exit,exit"/>
-						<line number="62" hits="1"/>
-						<line number="82" hits="0"/>
-						<line number="83" hits="0"/>
-						<line number="84" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="85,88"/>
-						<line number="85" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="86,87"/>
-						<line number="86" hits="0"/>
-						<line number="87" hits="0"/>
-						<line number="88" hits="0"/>
-						<line number="89" hits="0"/>
-						<line number="92" hits="1"/>
-						<line number="93" hits="1"/>
-						<line number="94" hits="1"/>
-						<line number="95" hits="1"/>
-						<line number="96" hits="1"/>
+						<line number="33" hits="1"/>
+						<line number="34" hits="1"/>
+						<line number="36" hits="1"/>
+						<line number="60" hits="0"/>
+						<line number="61" hits="0"/>
+						<line number="62" hits="0"/>
+						<line number="63" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="exit,64"/>
+						<line number="64" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="exit,exit"/>
+						<line number="71" hits="1"/>
+						<line number="95" hits="0"/>
+						<line number="96" hits="0"/>
+						<line number="97" hits="0"/>
+						<line number="98" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="99,102"/>
+						<line number="99" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="100,101"/>
+						<line number="100" hits="0"/>
 						<line number="101" hits="0"/>
-						<line number="103" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="104,181"/>
-						<line number="104" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="105,117"/>
-						<line number="105" hits="0"/>
+						<line number="102" hits="0"/>
+						<line number="103" hits="0"/>
+						<line number="106" hits="1"/>
+						<line number="107" hits="1"/>
+						<line number="108" hits="1"/>
+						<line number="109" hits="1"/>
+						<line number="110" hits="1"/>
+						<line number="115" hits="0"/>
 						<line number="117" hits="0"/>
 						<line number="118" hits="0"/>
 						<line number="120" hits="0"/>
@@ -125,44 +243,46 @@
 						<line number="123" hits="0"/>
 						<line number="124" hits="0"/>
 						<line number="126" hits="0"/>
-						<line number="133" hits="0"/>
-						<line number="134" hits="0"/>
+						<line number="133" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="134,183"/>
+						<line number="134" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="135,137"/>
 						<line number="135" hits="0"/>
-						<line number="137" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="138,161"/>
+						<line number="137" hits="0"/>
 						<line number="138" hits="0"/>
-						<line number="149" hits="0"/>
-						<line number="150" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="137,151"/>
-						<line number="151" hits="0"/>
-						<line number="152" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="150,156"/>
-						<line number="156" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="157,159"/>
-						<line number="157" hits="0"/>
-						<line number="158" hits="0"/>
-						<line number="159" hits="0"/>
-						<line number="161" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="163,174"/>
-						<line number="163" hits="0"/>
-						<line number="170" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="exit,161"/>
-						<line number="174" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="175,177"/>
-						<line number="175" hits="0"/>
-						<line number="177" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="103,178"/>
-						<line number="178" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="177,179"/>
-						<line number="179" hits="0"/>
+						<line number="139" hits="0"/>
+						<line number="141" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="142,164"/>
+						<line number="142" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="exit,152"/>
+						<line number="152" hits="0"/>
+						<line number="153" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="141,154"/>
+						<line number="154" hits="0"/>
+						<line number="155" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="153,159"/>
+						<line number="159" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="160,162"/>
+						<line number="160" hits="0"/>
+						<line number="161" hits="0"/>
+						<line number="162" hits="0"/>
+						<line number="164" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="165,176"/>
+						<line number="165" hits="0"/>
+						<line number="172" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="exit,164"/>
+						<line number="176" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="177,179"/>
+						<line number="177" hits="0"/>
+						<line number="179" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="133,180"/>
+						<line number="180" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="179,181"/>
 						<line number="181" hits="0"/>
-						<line number="182" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="183,185"/>
 						<line number="183" hits="0"/>
+						<line number="184" hits="0"/>
 						<line number="185" hits="0"/>
 						<line number="186" hits="0"/>
 						<line number="187" hits="0"/>
 					</lines>
 				</class>
-				<class name="exact_hash.py" filename="text_dedup/exact_hash.py" complexity="0" line-rate="0.3878" branch-rate="0">
+				<class name="exact_hash.py" filename="text_dedup/exact_hash.py" complexity="0" line-rate="0.42" branch-rate="0">
 					<methods/>
 					<lines>
 						<line number="4" hits="1"/>
-						<line number="6" hits="1"/>
+						<line number="5" hits="1"/>
 						<line number="7" hits="1"/>
 						<line number="8" hits="1"/>
 						<line number="9" hits="1"/>
-						<line number="10" hits="1"/>
+						<line number="11" hits="1"/>
 						<line number="12" hits="1"/>
 						<line number="13" hits="1"/>
 						<line number="14" hits="1"/>
@@ -171,44 +291,45 @@
 						<line number="17" hits="1"/>
 						<line number="18" hits="1"/>
 						<line number="19" hits="1"/>
+						<line number="20" hits="1"/>
 						<line number="22" hits="1"/>
-						<line number="23" hits="1"/>
-						<line number="24" hits="1"/>
 						<line number="25" hits="1"/>
 						<line number="26" hits="1"/>
-						<line number="31" hits="0"/>
-						<line number="33" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="34,97"/>
-						<line number="34" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="35,49"/>
-						<line number="35" hits="0"/>
-						<line number="49" hits="0"/>
-						<line number="55" hits="0"/>
-						<line number="56" hits="0"/>
-						<line number="57" hits="0"/>
-						<line number="59" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="64,80"/>
-						<line number="64" hits="0"/>
-						<line number="65" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="59,66"/>
-						<line number="66" hits="0"/>
-						<line number="70" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="65,73"/>
-						<line number="73" hits="0"/>
-						<line number="74" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="75,77"/>
-						<line number="75" hits="0"/>
-						<line number="77" hits="0"/>
-						<line number="78" hits="0"/>
-						<line number="80" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="83,90"/>
-						<line number="83" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="exit,80"/>
-						<line number="90" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="91,93"/>
-						<line number="91" hits="0"/>
-						<line number="93" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="33,94"/>
-						<line number="94" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="93,95"/>
-						<line number="95" hits="0"/>
-						<line number="97" hits="0"/>
-						<line number="98" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="99,101"/>
-						<line number="99" hits="0"/>
-						<line number="101" hits="0"/>
-						<line number="102" hits="0"/>
+						<line number="27" hits="1"/>
+						<line number="28" hits="1"/>
+						<line number="29" hits="1"/>
+						<line number="34" hits="0"/>
+						<line number="38" hits="0"/>
+						<line number="43" hits="0"/>
+						<line number="44" hits="0"/>
+						<line number="46" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="47,87"/>
+						<line number="47" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="48,50"/>
+						<line number="48" hits="0"/>
+						<line number="50" hits="0"/>
+						<line number="51" hits="0"/>
+						<line number="53" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="58,70"/>
+						<line number="58" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="53,59"/>
+						<line number="59" hits="0"/>
+						<line number="60" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="58,63"/>
+						<line number="63" hits="0"/>
+						<line number="64" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="65,67"/>
+						<line number="65" hits="0"/>
+						<line number="67" hits="0"/>
+						<line number="68" hits="0"/>
+						<line number="70" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="73,80"/>
+						<line number="73" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="exit,70"/>
+						<line number="80" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="81,83"/>
+						<line number="81" hits="0"/>
+						<line number="83" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="46,84"/>
+						<line number="84" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="83,85"/>
+						<line number="85" hits="0"/>
+						<line number="87" hits="0"/>
+						<line number="88" hits="0"/>
+						<line number="89" hits="0"/>
+						<line number="90" hits="0"/>
 					</lines>
 				</class>
-				<class name="minhash.py" filename="text_dedup/minhash.py" complexity="0" line-rate="0.3913" branch-rate="0.09677">
+				<class name="minhash.py" filename="text_dedup/minhash.py" complexity="0" line-rate="0.4404" branch-rate="0.1034">
 					<methods/>
 					<lines>
 						<line number="4" hits="1"/>
@@ -219,14 +340,14 @@
 						<line number="10" hits="1"/>
 						<line number="11" hits="1"/>
 						<line number="12" hits="1"/>
-						<line number="13" hits="1"/>
 						<line number="14" hits="1"/>
+						<line number="15" hits="1"/>
 						<line number="16" hits="1"/>
 						<line number="17" hits="1"/>
-						<line number="18" hits="1"/>
 						<line number="19" hits="1"/>
 						<line number="20" hits="1"/>
 						<line number="21" hits="1"/>
+						<line number="22" hits="1"/>
 						<line number="23" hits="1"/>
 						<line number="24" hits="1"/>
 						<line number="25" hits="1"/>
@@ -243,92 +364,86 @@
 						<line number="37" hits="1"/>
 						<line number="38" hits="1"/>
 						<line number="41" hits="1"/>
-						<line number="112" hits="1"/>
-						<line number="115" hits="1" branch="true" condition-coverage="100% (2/2)"/>
-						<line number="119" hits="1" branch="true" condition-coverage="100% (2/2)"/>
-						<line number="123" hits="1"/>
-						<line number="126" hits="1"/>
-						<line number="127" hits="1"/>
-						<line number="131" hits="1" branch="true" condition-coverage="100% (2/2)"/>
+						<line number="42" hits="1"/>
+						<line number="43" hits="1"/>
+						<line number="47" hits="1"/>
+						<line number="118" hits="1"/>
+						<line number="121" hits="1" branch="true" condition-coverage="100% (2/2)"/>
+						<line number="125" hits="1" branch="true" condition-coverage="100% (2/2)"/>
+						<line number="129" hits="1"/>
 						<line number="132" hits="1"/>
-						<line number="135" hits="1"/>
-						<line number="136" hits="1"/>
-						<line number="137" hits="1"/>
+						<line number="133" hits="1"/>
+						<line number="137" hits="1" branch="true" condition-coverage="100% (2/2)"/>
 						<line number="138" hits="1"/>
-						<line number="139" hits="1"/>
-						<line number="144" hits="0"/>
-						<line number="150" hits="0"/>
-						<line number="160" hits="0"/>
-						<line number="162" hits="0"/>
-						<line number="163" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="165,168"/>
-						<line number="165" hits="0"/>
-						<line number="166" hits="0"/>
-						<line number="168" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="169,176"/>
-						<line number="169" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="170,172"/>
+						<line number="141" hits="1"/>
+						<line number="142" hits="1"/>
+						<line number="143" hits="1"/>
+						<line number="144" hits="1"/>
+						<line number="145" hits="1"/>
+						<line number="151" hits="0"/>
+						<line number="152" hits="0"/>
+						<line number="158" hits="0"/>
+						<line number="168" hits="0"/>
 						<line number="170" hits="0"/>
-						<line number="172" hits="0"/>
-						<line number="176" hits="0"/>
+						<line number="171" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="173,176"/>
+						<line number="173" hits="0"/>
+						<line number="174" hits="0"/>
+						<line number="176" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="177,182"/>
+						<line number="177" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="178,180"/>
 						<line number="178" hits="0"/>
-						<line number="179" hits="0"/>
-						<line number="181" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="182,190"/>
+						<line number="180" hits="0"/>
 						<line number="182" hits="0"/>
-						<line number="190" hits="0"/>
-						<line number="197" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="exit,198"/>
-						<line number="198" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="exit,200"/>
-						<line number="200" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="201,322"/>
-						<line number="201" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="202,222"/>
-						<line number="202" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="203,205"/>
-						<line number="203" hits="0"/>
-						<line number="205" hits="0"/>
-						<line number="217" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="exit,201"/>
-						<line number="222" hits="0"/>
-						<line number="229" hits="0"/>
-						<line number="236" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="237,259"/>
-						<line number="237" hits="0"/>
+						<line number="184" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="185,193"/>
+						<line number="185" hits="0"/>
+						<line number="193" hits="0"/>
+						<line number="200" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="exit,201"/>
+						<line number="201" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="exit,209"/>
+						<line number="209" hits="0"/>
+						<line number="216" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="217,307"/>
+						<line number="217" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="218,224"/>
+						<line number="218" hits="0"/>
+						<line number="219" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="exit,217"/>
+						<line number="224" hits="0"/>
+						<line number="226" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="227,249"/>
+						<line number="227" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="exit,246"/>
+						<line number="246" hits="0"/>
+						<line number="247" hits="0"/>
+						<line number="249" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="250,278"/>
+						<line number="250" hits="0"/>
+						<line number="251" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="256,266"/>
 						<line number="256" hits="0"/>
-						<line number="257" hits="0"/>
-						<line number="259" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="260,286"/>
-						<line number="260" hits="0"/>
-						<line number="261" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="266,276"/>
+						<line number="262" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="251,263"/>
+						<line number="263" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="262,264"/>
+						<line number="264" hits="0"/>
 						<line number="266" hits="0"/>
-						<line number="272" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="261,273"/>
-						<line number="273" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="272,274"/>
+						<line number="267" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="269,276"/>
+						<line number="269" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="267,270"/>
+						<line number="270" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="271,272"/>
+						<line number="271" hits="0"/>
+						<line number="272" hits="0"/>
+						<line number="273" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="269,274"/>
 						<line number="274" hits="0"/>
+						<line number="275" hits="0"/>
 						<line number="276" hits="0"/>
-						<line number="277" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="259,279"/>
-						<line number="279" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="277,280"/>
-						<line number="280" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="281,282"/>
-						<line number="281" hits="0"/>
-						<line number="282" hits="0"/>
-						<line number="283" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="279,284"/>
-						<line number="284" hits="0"/>
-						<line number="285" hits="0"/>
-						<line number="286" hits="0"/>
-						<line number="287" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="289,310"/>
-						<line number="289" hits="0"/>
-						<line number="290" hits="0"/>
-						<line number="291" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="exit,298"/>
+						<line number="278" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="279,296"/>
+						<line number="279" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="exit,289"/>
+						<line number="289" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="exit,278"/>
+						<line number="296" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="297,302"/>
+						<line number="297" hits="0"/>
 						<line number="298" hits="0"/>
-						<line number="299" hits="0"/>
-						<line number="303" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="exit,287"/>
-						<line number="310" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="311,317"/>
-						<line number="311" hits="0"/>
-						<line number="312" hits="0"/>
-						<line number="313" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="310,314"/>
-						<line number="314" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="310,315"/>
-						<line number="315" hits="0"/>
-						<line number="317" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="200,318"/>
-						<line number="318" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="317,319"/>
-						<line number="319" hits="0"/>
-						<line number="320" hits="0"/>
-						<line number="322" hits="0"/>
-						<line number="323" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="324,326"/>
-						<line number="324" hits="0"/>
-						<line number="326" hits="0"/>
-						<line number="327" hits="0"/>
+						<line number="299" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="296,300"/>
+						<line number="300" hits="0"/>
+						<line number="302" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="216,303"/>
+						<line number="303" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="302,304"/>
+						<line number="304" hits="0"/>
+						<line number="305" hits="0"/>
+						<line number="307" hits="0"/>
+						<line number="308" hits="0"/>
+						<line number="309" hits="0"/>
+						<line number="310" hits="0"/>
 					</lines>
 				</class>
-				<class name="simhash.py" filename="text_dedup/simhash.py" complexity="0" line-rate="0.6726" branch-rate="0.3611">
+				<class name="simhash.py" filename="text_dedup/simhash.py" complexity="0" line-rate="0.7241" branch-rate="0.4118">
 					<methods/>
 					<lines>
 						<line number="4" hits="1"/>
@@ -340,16 +455,16 @@
 						<line number="11" hits="1"/>
 						<line number="12" hits="1"/>
 						<line number="13" hits="1"/>
-						<line number="14" hits="1"/>
 						<line number="15" hits="1"/>
+						<line number="16" hits="1"/>
 						<line number="17" hits="1"/>
 						<line number="18" hits="1"/>
 						<line number="19" hits="1"/>
 						<line number="20" hits="1"/>
-						<line number="21" hits="1"/>
 						<line number="22" hits="1"/>
 						<line number="23" hits="1"/>
 						<line number="24" hits="1"/>
+						<line number="25" hits="1"/>
 						<line number="26" hits="1"/>
 						<line number="27" hits="1"/>
 						<line number="28" hits="1"/>
@@ -362,146 +477,152 @@
 						<line number="36" hits="1"/>
 						<line number="37" hits="1"/>
 						<line number="38" hits="1"/>
-						<line number="41" hits="1"/>
-						<line number="64" hits="1"/>
-						<line number="67" hits="1"/>
-						<line number="68" hits="1"/>
-						<line number="85" hits="1"/>
-						<line number="86" hits="1"/>
+						<line number="39" hits="1"/>
+						<line number="40" hits="1"/>
+						<line number="43" hits="1"/>
+						<line number="66" hits="1"/>
+						<line number="69" hits="1"/>
+						<line number="70" hits="1"/>
 						<line number="87" hits="1"/>
+						<line number="88" hits="1"/>
 						<line number="89" hits="1"/>
-						<line number="90" hits="1"/>
 						<line number="91" hits="1"/>
 						<line number="92" hits="1"/>
 						<line number="93" hits="1"/>
-						<line number="94" hits="1" branch="true" condition-coverage="100% (2/2)"/>
+						<line number="94" hits="1"/>
 						<line number="95" hits="1"/>
-						<line number="96" hits="1"/>
+						<line number="96" hits="1" branch="true" condition-coverage="100% (2/2)"/>
 						<line number="97" hits="1"/>
 						<line number="98" hits="1"/>
-						<line number="99" hits="1" branch="true" condition-coverage="100% (2/2)"/>
+						<line number="99" hits="1"/>
 						<line number="100" hits="1"/>
+						<line number="101" hits="1" branch="true" condition-coverage="100% (2/2)"/>
 						<line number="102" hits="1"/>
 						<line number="104" hits="1"/>
 						<line number="106" hits="1"/>
 						<line number="108" hits="1"/>
-						<line number="109" hits="1"/>
-						<line number="110" hits="1"/>
-						<line number="111" hits="1"/>
 						<line number="112" hits="1"/>
+						<line number="113" hits="1"/>
 						<line number="114" hits="1"/>
-						<line number="128" hits="1"/>
-						<line number="129" hits="1"/>
-						<line number="131" hits="1" branch="true" condition-coverage="100% (2/2)"/>
+						<line number="115" hits="1"/>
+						<line number="116" hits="1"/>
+						<line number="118" hits="1"/>
 						<line number="132" hits="1"/>
-						<line number="133" hits="1" branch="true" condition-coverage="100% (2/2)"/>
-						<line number="134" hits="1"/>
+						<line number="133" hits="1"/>
+						<line number="135" hits="1" branch="true" condition-coverage="100% (2/2)"/>
 						<line number="136" hits="1"/>
+						<line number="137" hits="1" branch="true" condition-coverage="100% (2/2)"/>
 						<line number="138" hits="1"/>
 						<line number="140" hits="1"/>
-						<line number="154" hits="1"/>
-						<line number="155" hits="1"/>
-						<line number="156" hits="1" branch="true" condition-coverage="100% (2/2)"/>
-						<line number="157" hits="1" branch="true" condition-coverage="100% (2/2)"/>
+						<line number="142" hits="1"/>
+						<line number="144" hits="1"/>
 						<line number="158" hits="1"/>
-						<line number="160" hits="1"/>
-						<line number="161" hits="1"/>
+						<line number="159" hits="1"/>
+						<line number="160" hits="1" branch="true" condition-coverage="100% (2/2)"/>
+						<line number="161" hits="1" branch="true" condition-coverage="100% (2/2)"/>
+						<line number="162" hits="1"/>
 						<line number="164" hits="1"/>
-						<line number="192" hits="1"/>
-						<line number="193" hits="1"/>
-						<line number="195" hits="1" branch="true" condition-coverage="100% (2/2)"/>
+						<line number="165" hits="1"/>
+						<line number="168" hits="1"/>
 						<line number="196" hits="1"/>
-						<line number="197" hits="1"/>
 						<line number="198" hits="1"/>
 						<line number="199" hits="1"/>
-						<line number="200" hits="1"/>
+						<line number="202" hits="1"/>
+						<line number="203" hits="1"/>
+						<line number="204" hits="1"/>
+						<line number="205" hits="1" branch="true" condition-coverage="50% (1/2)" missing-branches="203"/>
+						<line number="206" hits="1"/>
+						<line number="207" hits="1"/>
 						<line number="209" hits="1"/>
-						<line number="211" hits="1"/>
-						<line number="212" hits="1" branch="true" condition-coverage="100% (2/2)"/>
 						<line number="213" hits="1"/>
-						<line number="214" hits="1" branch="true" condition-coverage="100% (2/2)"/>
-						<line number="215" hits="1"/>
+						<line number="215" hits="1" branch="true" condition-coverage="100% (2/2)"/>
+						<line number="216" hits="1"/>
 						<line number="217" hits="1"/>
+						<line number="218" hits="1" branch="true" condition-coverage="50% (1/2)" missing-branches="219"/>
+						<line number="219" hits="0"/>
 						<line number="220" hits="1"/>
-						<line number="245" hits="1"/>
-						<line number="246" hits="1"/>
-						<line number="247" hits="1"/>
-						<line number="250" hits="1"/>
-						<line number="274" hits="1" branch="true" condition-coverage="100% (2/2)"/>
-						<line number="275" hits="1"/>
-						<line number="276" hits="1"/>
-						<line number="277" hits="1"/>
-						<line number="278" hits="1"/>
-						<line number="281" hits="1"/>
-						<line number="316" hits="1" branch="true" condition-coverage="100% (2/2)"/>
-						<line number="317" hits="1" branch="true" condition-coverage="100% (2/2)"/>
-						<line number="318" hits="1"/>
-						<line number="319" hits="1" branch="true" condition-coverage="50% (1/2)" missing-branches="320"/>
-						<line number="320" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="321,327"/>
-						<line number="321" hits="0"/>
-						<line number="327" hits="1"/>
-						<line number="330" hits="1"/>
-						<line number="331" hits="1"/>
-						<line number="332" hits="1"/>
-						<line number="333" hits="1"/>
-						<line number="334" hits="1"/>
-						<line number="340" hits="0"/>
-						<line number="341" hits="0"/>
-						<line number="342" hits="0"/>
-						<line number="345" hits="0"/>
-						<line number="347" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="348,454"/>
-						<line number="348" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="349,364"/>
-						<line number="349" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="350,352"/>
-						<line number="350" hits="0"/>
-						<line number="352" hits="0"/>
+						<line number="221" hits="1"/>
+						<line number="222" hits="1"/>
+						<line number="223" hits="1"/>
+						<line number="232" hits="1"/>
+						<line number="234" hits="1"/>
+						<line number="235" hits="1" branch="true" condition-coverage="100% (2/2)"/>
+						<line number="236" hits="1"/>
+						<line number="237" hits="1" branch="true" condition-coverage="100% (2/2)"/>
+						<line number="238" hits="1"/>
+						<line number="240" hits="1"/>
+						<line number="243" hits="1"/>
+						<line number="268" hits="1"/>
+						<line number="269" hits="1"/>
+						<line number="270" hits="1"/>
+						<line number="273" hits="1"/>
+						<line number="297" hits="1" branch="true" condition-coverage="100% (2/2)"/>
+						<line number="298" hits="1"/>
+						<line number="299" hits="1"/>
+						<line number="300" hits="1"/>
+						<line number="301" hits="1"/>
+						<line number="304" hits="1"/>
+						<line number="339" hits="1" branch="true" condition-coverage="100% (2/2)"/>
+						<line number="340" hits="1" branch="true" condition-coverage="100% (2/2)"/>
+						<line number="341" hits="1"/>
+						<line number="342" hits="1" branch="true" condition-coverage="50% (1/2)" missing-branches="343"/>
+						<line number="343" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="344,350"/>
+						<line number="344" hits="0"/>
+						<line number="350" hits="1"/>
+						<line number="353" hits="1"/>
+						<line number="354" hits="1"/>
+						<line number="355" hits="1"/>
+						<line number="356" hits="1"/>
+						<line number="357" hits="1"/>
+						<line number="363" hits="0"/>
 						<line number="364" hits="0"/>
-						<line number="366" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="367,382"/>
-						<line number="367" hits="0"/>
-						<line number="382" hits="0"/>
-						<line number="383" hits="0"/>
-						<line number="384" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="385,420"/>
-						<line number="385" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="384,391"/>
-						<line number="391" hits="0"/>
-						<line number="394" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="385,402"/>
+						<line number="365" hits="0"/>
+						<line number="366" hits="0"/>
+						<line number="369" hits="0"/>
+						<line number="371" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="372,458"/>
+						<line number="372" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="373,375"/>
+						<line number="373" hits="0"/>
+						<line number="375" hits="0"/>
+						<line number="377" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="378,393"/>
+						<line number="378" hits="0"/>
+						<line number="393" hits="0"/>
+						<line number="394" hits="0"/>
+						<line number="395" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="396,429"/>
+						<line number="396" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="395,402"/>
 						<line number="402" hits="0"/>
-						<line number="404" hits="0"/>
-						<line number="406" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="407,417"/>
-						<line number="407" hits="0"/>
-						<line number="410" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="411,415"/>
-						<line number="411" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="412,413"/>
-						<line number="412" hits="0"/>
-						<line number="413" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="410,414"/>
-						<line number="414" hits="0"/>
+						<line number="405" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="396,413"/>
+						<line number="413" hits="0"/>
 						<line number="415" hits="0"/>
-						<line number="417" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="394,418"/>
+						<line number="417" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="405,418"/>
 						<line number="418" hits="0"/>
-						<line number="420" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="421,442"/>
-						<line number="421" hits="0"/>
-						<line number="422" hits="0"/>
-						<line number="423" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="exit,430"/>
-						<line number="430" hits="0"/>
-						<line number="431" hits="0"/>
-						<line number="435" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="exit,420"/>
-						<line number="442" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="443,449"/>
-						<line number="443" hits="0"/>
-						<line number="444" hits="0"/>
-						<line number="445" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="442,446"/>
-						<line number="446" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="442,447"/>
-						<line number="447" hits="0"/>
-						<line number="449" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="347,450"/>
-						<line number="450" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="449,451"/>
+						<line number="421" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="422,427"/>
+						<line number="422" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="423,424"/>
+						<line number="423" hits="0"/>
+						<line number="424" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="421,425"/>
+						<line number="425" hits="0"/>
+						<line number="426" hits="0"/>
+						<line number="427" hits="0"/>
+						<line number="429" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="430,447"/>
+						<line number="430" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="exit,440"/>
+						<line number="440" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="exit,429"/>
+						<line number="447" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="448,453"/>
+						<line number="448" hits="0"/>
+						<line number="449" hits="0"/>
+						<line number="450" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="447,451"/>
 						<line number="451" hits="0"/>
-						<line number="452" hits="0"/>
-						<line number="454" hits="0"/>
-						<line number="455" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="456,458"/>
+						<line number="453" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="371,454"/>
+						<line number="454" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="453,455"/>
+						<line number="455" hits="0"/>
 						<line number="456" hits="0"/>
 						<line number="458" hits="0"/>
 						<line number="459" hits="0"/>
-						<line number="462" hits="1" branch="true" condition-coverage="50% (1/2)" missing-branches="464"/>
-						<line number="464" hits="0"/>
+						<line number="460" hits="0"/>
+						<line number="461" hits="0"/>
+						<line number="464" hits="1" branch="true" condition-coverage="50% (1/2)" missing-branches="466"/>
+						<line number="466" hits="0"/>
 					</lines>
 				</class>
-				<class name="suffix_array.py" filename="text_dedup/suffix_array.py" complexity="0" line-rate="0.5597" branch-rate="0.4255">
+				<class name="suffix_array.py" filename="text_dedup/suffix_array.py" complexity="0" line-rate="0.5649" branch-rate="0.4444">
 					<methods/>
 					<lines>
 						<line number="4" hits="1"/>
@@ -517,157 +638,152 @@
 						<line number="15" hits="1"/>
 						<line number="17" hits="1"/>
 						<line number="18" hits="1"/>
-						<line number="19" hits="1"/>
 						<line number="20" hits="1"/>
 						<line number="21" hits="1"/>
+						<line number="22" hits="1"/>
 						<line number="23" hits="1"/>
 						<line number="24" hits="1"/>
 						<line number="25" hits="1"/>
-						<line number="26" hits="1"/>
 						<line number="27" hits="1"/>
-						<line number="29" hits="1"/>
-						<line number="30" hits="1"/>
-						<line number="33" hits="1"/>
-						<line number="94" hits="1" branch="true" condition-coverage="50% (1/2)" missing-branches="95"/>
-						<line number="95" hits="0"/>
-						<line number="97" hits="1" branch="true" condition-coverage="100% (2/2)"/>
-						<line number="109" hits="1"/>
-						<line number="111" hits="1" branch="true" condition-coverage="100% (2/2)"/>
-						<line number="112" hits="1"/>
-						<line number="114" hits="1" branch="true" condition-coverage="100% (2/2)"/>
-						<line number="115" hits="1"/>
+						<line number="28" hits="1"/>
+						<line number="31" hits="1"/>
+						<line number="92" hits="1" branch="true" condition-coverage="50% (1/2)" missing-branches="93"/>
+						<line number="93" hits="0"/>
+						<line number="95" hits="1" branch="true" condition-coverage="100% (2/2)"/>
+						<line number="107" hits="1"/>
+						<line number="109" hits="1" branch="true" condition-coverage="100% (2/2)"/>
+						<line number="110" hits="1"/>
+						<line number="112" hits="1" branch="true" condition-coverage="100% (2/2)"/>
+						<line number="113" hits="1"/>
+						<line number="114" hits="1"/>
 						<line number="116" hits="1"/>
-						<line number="118" hits="1"/>
-						<line number="119" hits="1" branch="true" condition-coverage="100% (2/2)"/>
-						<line number="120" hits="1" branch="true" condition-coverage="50% (1/2)" missing-branches="123"/>
-						<line number="121" hits="1"/>
-						<line number="123" hits="0"/>
-						<line number="124" hits="1" branch="true" condition-coverage="50% (1/2)" missing-branches="111"/>
-						<line number="125" hits="1" branch="true" condition-coverage="100% (2/2)"/>
+						<line number="117" hits="1" branch="true" condition-coverage="100% (2/2)"/>
+						<line number="118" hits="1" branch="true" condition-coverage="50% (1/2)" missing-branches="121"/>
+						<line number="119" hits="1"/>
+						<line number="121" hits="0"/>
+						<line number="122" hits="1" branch="true" condition-coverage="50% (1/2)" missing-branches="109"/>
+						<line number="123" hits="1" branch="true" condition-coverage="100% (2/2)"/>
+						<line number="124" hits="1"/>
 						<line number="126" hits="1"/>
 						<line number="128" hits="1"/>
-						<line number="130" hits="1"/>
-						<line number="133" hits="1"/>
-						<line number="162" hits="1"/>
-						<line number="164" hits="1" branch="true" condition-coverage="50% (1/2)" missing-branches="165"/>
-						<line number="165" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="166,176"/>
-						<line number="166" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="165,167"/>
-						<line number="167" hits="0"/>
+						<line number="131" hits="1"/>
+						<line number="160" hits="1"/>
+						<line number="162" hits="1" branch="true" condition-coverage="50% (1/2)" missing-branches="163"/>
+						<line number="163" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="164,174"/>
+						<line number="164" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="163,165"/>
+						<line number="165" hits="0"/>
+						<line number="166" hits="0"/>
+						<line number="167" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="164,168"/>
 						<line number="168" hits="0"/>
-						<line number="169" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="166,170"/>
+						<line number="169" hits="0"/>
 						<line number="170" hits="0"/>
-						<line number="171" hits="0"/>
-						<line number="172" hits="0"/>
-						<line number="173" hits="1" branch="true" condition-coverage="50% (1/2)" missing-branches="176"/>
-						<line number="174" hits="1"/>
-						<line number="176" hits="1" branch="true" condition-coverage="100% (2/2)"/>
-						<line number="177" hits="1" branch="true" condition-coverage="100% (2/2)"/>
-						<line number="178" hits="1"/>
-						<line number="179" hits="1" branch="true" condition-coverage="50% (1/2)" missing-branches="180"/>
-						<line number="180" hits="0"/>
-						<line number="182" hits="1"/>
-						<line number="183" hits="1" branch="true" condition-coverage="50% (1/2)" missing-branches="184"/>
-						<line number="184" hits="0"/>
-						<line number="186" hits="1" branch="true" condition-coverage="50% (1/2)" missing-branches="187"/>
-						<line number="187" hits="0"/>
-						<line number="188" hits="0"/>
-						<line number="190" hits="1" branch="true" condition-coverage="100% (2/2)"/>
-						<line number="191" hits="1"/>
-						<line number="192" hits="1" branch="true" condition-coverage="50% (1/2)" missing-branches="193"/>
-						<line number="193" hits="0"/>
+						<line number="171" hits="1" branch="true" condition-coverage="50% (1/2)" missing-branches="174"/>
+						<line number="172" hits="1"/>
+						<line number="174" hits="1" branch="true" condition-coverage="100% (2/2)"/>
+						<line number="175" hits="1" branch="true" condition-coverage="100% (2/2)"/>
+						<line number="176" hits="1"/>
+						<line number="177" hits="1" branch="true" condition-coverage="50% (1/2)" missing-branches="178"/>
+						<line number="178" hits="0"/>
+						<line number="180" hits="1"/>
+						<line number="181" hits="1" branch="true" condition-coverage="50% (1/2)" missing-branches="182"/>
+						<line number="182" hits="0"/>
+						<line number="184" hits="1" branch="true" condition-coverage="50% (1/2)" missing-branches="185"/>
+						<line number="185" hits="0"/>
+						<line number="186" hits="0"/>
+						<line number="188" hits="1" branch="true" condition-coverage="100% (2/2)"/>
+						<line number="189" hits="1"/>
+						<line number="190" hits="1" branch="true" condition-coverage="50% (1/2)" missing-branches="191"/>
+						<line number="191" hits="0"/>
+						<line number="192" hits="1"/>
+						<line number="193" hits="1" branch="true" condition-coverage="100% (2/2)"/>
 						<line number="194" hits="1"/>
-						<line number="195" hits="1" branch="true" condition-coverage="100% (2/2)"/>
-						<line number="196" hits="1"/>
+						<line number="195" hits="1"/>
+						<line number="196" hits="1" branch="true" condition-coverage="50% (1/2)" missing-branches="199"/>
 						<line number="197" hits="1"/>
-						<line number="198" hits="1" branch="true" condition-coverage="50% (1/2)" missing-branches="201"/>
-						<line number="199" hits="1"/>
-						<line number="200" hits="1"/>
-						<line number="201" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="177,202"/>
+						<line number="198" hits="1"/>
+						<line number="199" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="175,200"/>
+						<line number="200" hits="0"/>
+						<line number="201" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="202,203"/>
 						<line number="202" hits="0"/>
-						<line number="203" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="204,205"/>
-						<line number="204" hits="0"/>
-						<line number="205" hits="0"/>
-						<line number="208" hits="1"/>
-						<line number="250" hits="1"/>
-						<line number="251" hits="1" branch="true" condition-coverage="100% (2/2)"/>
-						<line number="252" hits="1" branch="true" condition-coverage="100% (2/2)"/>
-						<line number="253" hits="1" branch="true" condition-coverage="50% (1/2)" missing-branches="252"/>
+						<line number="203" hits="0"/>
+						<line number="206" hits="1"/>
+						<line number="248" hits="1"/>
+						<line number="249" hits="1" branch="true" condition-coverage="100% (2/2)"/>
+						<line number="250" hits="1" branch="true" condition-coverage="100% (2/2)"/>
+						<line number="251" hits="1" branch="true" condition-coverage="50% (1/2)" missing-branches="250"/>
+						<line number="252" hits="1"/>
+						<line number="253" hits="1" branch="true" condition-coverage="100% (2/2)"/>
 						<line number="254" hits="1"/>
 						<line number="255" hits="1" branch="true" condition-coverage="100% (2/2)"/>
 						<line number="256" hits="1"/>
-						<line number="257" hits="1" branch="true" condition-coverage="100% (2/2)"/>
-						<line number="258" hits="1"/>
-						<line number="261" hits="1"/>
-						<line number="262" hits="0"/>
+						<line number="259" hits="1"/>
+						<line number="260" hits="0"/>
+						<line number="265" hits="0"/>
+						<line number="266" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="exit,267"/>
 						<line number="267" hits="0"/>
-						<line number="268" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="exit,269"/>
-						<line number="269" hits="0"/>
-						<line number="272" hits="1"/>
+						<line number="270" hits="1"/>
+						<line number="291" hits="1"/>
+						<line number="292" hits="1"/>
 						<line number="293" hits="1"/>
-						<line number="294" hits="1"/>
+						<line number="294" hits="1" branch="true" condition-coverage="100% (2/2)"/>
 						<line number="295" hits="1"/>
-						<line number="296" hits="1" branch="true" condition-coverage="100% (2/2)"/>
+						<line number="296" hits="1"/>
 						<line number="297" hits="1"/>
-						<line number="298" hits="1"/>
 						<line number="299" hits="1"/>
-						<line number="301" hits="1"/>
+						<line number="302" hits="1"/>
+						<line number="303" hits="1"/>
 						<line number="304" hits="1"/>
 						<line number="305" hits="1"/>
 						<line number="306" hits="1"/>
-						<line number="307" hits="1"/>
-						<line number="308" hits="1"/>
+						<line number="311" hits="0"/>
 						<line number="313" hits="0"/>
+						<line number="314" hits="0"/>
 						<line number="315" hits="0"/>
 						<line number="316" hits="0"/>
 						<line number="317" hits="0"/>
 						<line number="318" hits="0"/>
 						<line number="319" hits="0"/>
-						<line number="320" hits="0"/>
-						<line number="321" hits="0"/>
-						<line number="323" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="324,401"/>
-						<line number="324" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="325,339"/>
-						<line number="325" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="326,328"/>
+						<line number="321" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="322,387"/>
+						<line number="322" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="323,325"/>
+						<line number="323" hits="0"/>
+						<line number="325" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="326,336"/>
 						<line number="326" hits="0"/>
-						<line number="328" hits="0"/>
-						<line number="339" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="340,350"/>
-						<line number="340" hits="0"/>
-						<line number="341" hits="0"/>
-						<line number="342" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="339,343"/>
-						<line number="343" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="342,344"/>
-						<line number="344" hits="0"/>
-						<line number="345" hits="0"/>
-						<line number="346" hits="0"/>
-						<line number="347" hits="0"/>
+						<line number="327" hits="0"/>
+						<line number="328" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="325,329"/>
+						<line number="329" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="328,330"/>
+						<line number="330" hits="0"/>
+						<line number="331" hits="0"/>
+						<line number="332" hits="0"/>
+						<line number="333" hits="0"/>
+						<line number="334" hits="0"/>
+						<line number="336" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="337,342"/>
+						<line number="337" hits="0"/>
+						<line number="342" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="343,355"/>
+						<line number="343" hits="0"/>
 						<line number="348" hits="0"/>
-						<line number="350" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="351,356"/>
-						<line number="351" hits="0"/>
-						<line number="356" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="357,369"/>
-						<line number="357" hits="0"/>
-						<line number="362" hits="0"/>
-						<line number="369" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="370,377"/>
-						<line number="370" hits="0"/>
-						<line number="377" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="378,391"/>
-						<line number="378" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="exit,377"/>
-						<line number="391" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="392,394"/>
-						<line number="392" hits="0"/>
-						<line number="394" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="323,395"/>
-						<line number="395" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="394,396"/>
-						<line number="396" hits="0"/>
-						<line number="397" hits="0"/>
-						<line number="398" hits="0"/>
-						<line number="399" hits="0"/>
-						<line number="401" hits="0"/>
-						<line number="402" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="403,405"/>
-						<line number="403" hits="0"/>
-						<line number="405" hits="0"/>
-						<line number="406" hits="0"/>
-						<line number="409" hits="1" branch="true" condition-coverage="50% (1/2)" missing-branches="411"/>
-						<line number="411" hits="0"/>
+						<line number="355" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="356,363"/>
+						<line number="356" hits="0"/>
+						<line number="363" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="364,377"/>
+						<line number="364" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="exit,363"/>
+						<line number="377" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="378,380"/>
+						<line number="378" hits="0"/>
+						<line number="380" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="321,381"/>
+						<line number="381" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="380,382"/>
+						<line number="382" hits="0"/>
+						<line number="383" hits="0"/>
+						<line number="384" hits="0"/>
+						<line number="385" hits="0"/>
+						<line number="387" hits="0"/>
+						<line number="388" hits="0"/>
+						<line number="389" hits="0"/>
+						<line number="390" hits="0"/>
+						<line number="393" hits="1" branch="true" condition-coverage="50% (1/2)" missing-branches="395"/>
+						<line number="395" hits="0"/>
 					</lines>
 				</class>
 			</classes>
 		</package>
-		<package name="text_dedup.utils" line-rate="0.9103" branch-rate="0.6042" complexity="0">
+		<package name="text_dedup.utils" line-rate="0.8621" branch-rate="0.5078" complexity="0">
 			<classes>
 				<class name="__init__.py" filename="text_dedup/utils/__init__.py" complexity="0" line-rate="1" branch-rate="1">
 					<methods/>
@@ -684,7 +800,28 @@
 						<line number="14" hits="1"/>
 						<line number="15" hits="1"/>
 						<line number="16" hits="1"/>
+						<line number="17" hits="1"/>
 						<line number="18" hits="1"/>
+						<line number="19" hits="1"/>
+						<line number="20" hits="1"/>
+						<line number="21" hits="1"/>
+						<line number="22" hits="1"/>
+						<line number="23" hits="1"/>
+						<line number="24" hits="1"/>
+						<line number="25" hits="1"/>
+						<line number="26" hits="1"/>
+						<line number="27" hits="1"/>
+						<line number="28" hits="1"/>
+						<line number="29" hits="1"/>
+						<line number="30" hits="1"/>
+						<line number="31" hits="1"/>
+						<line number="32" hits="1"/>
+						<line number="33" hits="1"/>
+						<line number="34" hits="1"/>
+						<line number="35" hits="1"/>
+						<line number="36" hits="1"/>
+						<line number="37" hits="1"/>
+						<line number="39" hits="1"/>
 					</lines>
 				</class>
 				<class name="analysis.py" filename="text_dedup/utils/analysis.py" complexity="0" line-rate="1" branch-rate="1">
@@ -722,16 +859,16 @@
 						<line number="114" hits="1"/>
 					</lines>
 				</class>
-				<class name="args.py" filename="text_dedup/utils/args.py" complexity="0" line-rate="0.8614" branch-rate="0.4107">
+				<class name="args.py" filename="text_dedup/utils/args.py" complexity="0" line-rate="0.8593" branch-rate="0.3906">
 					<methods/>
 					<lines>
 						<line number="4" hits="1"/>
 						<line number="5" hits="1"/>
-						<line number="7" hits="1"/>
+						<line number="6" hits="1"/>
 						<line number="8" hits="1"/>
 						<line number="9" hits="1"/>
-						<line number="12" hits="1" branch="true" condition-coverage="100% (2/2)"/>
-						<line number="13" hits="1"/>
+						<line number="10" hits="1"/>
+						<line number="13" hits="1" branch="true" condition-coverage="100% (2/2)"/>
 						<line number="14" hits="1"/>
 						<line number="15" hits="1"/>
 						<line number="16" hits="1"/>
@@ -745,7 +882,7 @@
 						<line number="24" hits="1"/>
 						<line number="25" hits="1"/>
 						<line number="26" hits="1"/>
-						<line number="28" hits="1"/>
+						<line number="27" hits="1"/>
 						<line number="29" hits="1"/>
 						<line number="30" hits="1"/>
 						<line number="31" hits="1"/>
@@ -756,40 +893,40 @@
 						<line number="36" hits="1"/>
 						<line number="37" hits="1"/>
 						<line number="38" hits="1"/>
-						<line number="43" hits="1"/>
+						<line number="39" hits="1"/>
 						<line number="44" hits="1"/>
 						<line number="45" hits="1"/>
 						<line number="46" hits="1"/>
 						<line number="47" hits="1"/>
-						<line number="53" hits="1"/>
+						<line number="48" hits="1"/>
 						<line number="54" hits="1"/>
-						<line number="55" hits="1" branch="true" condition-coverage="50% (1/2)" missing-branches="56"/>
-						<line number="56" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="exit,60"/>
-						<line number="58" hits="1"/>
-						<line number="59" hits="1" branch="true" condition-coverage="100% (2/2)"/>
-						<line number="60" hits="1"/>
-						<line number="62" hits="1"/>
-						<line number="65" hits="1" branch="true" condition-coverage="100% (2/2)"/>
-						<line number="66" hits="1"/>
+						<line number="55" hits="1"/>
+						<line number="56" hits="1" branch="true" condition-coverage="50% (1/2)" missing-branches="57"/>
+						<line number="57" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="exit,61"/>
+						<line number="59" hits="1"/>
+						<line number="60" hits="1" branch="true" condition-coverage="100% (2/2)"/>
+						<line number="61" hits="1"/>
+						<line number="63" hits="1"/>
+						<line number="66" hits="1" branch="true" condition-coverage="100% (2/2)"/>
 						<line number="67" hits="1"/>
 						<line number="68" hits="1"/>
+						<line number="69" hits="1"/>
 						<line number="70" hits="1"/>
-						<line number="71" hits="1"/>
 						<line number="72" hits="1"/>
 						<line number="73" hits="1"/>
 						<line number="74" hits="1"/>
 						<line number="75" hits="1"/>
 						<line number="76" hits="1"/>
-						<line number="77" hits="1" branch="true" condition-coverage="50% (1/2)" missing-branches="78"/>
-						<line number="78" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="exit,82"/>
-						<line number="80" hits="1"/>
-						<line number="81" hits="1" branch="true" condition-coverage="100% (2/2)"/>
-						<line number="82" hits="1"/>
-						<line number="84" hits="1"/>
-						<line number="87" hits="1" branch="true" condition-coverage="100% (2/2)"/>
-						<line number="88" hits="1"/>
-						<line number="89" hits="1"/>
-						<line number="90" hits="1"/>
+						<line number="77" hits="1"/>
+						<line number="78" hits="1"/>
+						<line number="79" hits="1"/>
+						<line number="80" hits="1" branch="true" condition-coverage="50% (1/2)" missing-branches="81"/>
+						<line number="81" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="exit,85"/>
+						<line number="83" hits="1"/>
+						<line number="84" hits="1" branch="true" condition-coverage="100% (2/2)"/>
+						<line number="85" hits="1"/>
+						<line number="87" hits="1"/>
+						<line number="90" hits="1" branch="true" condition-coverage="100% (2/2)"/>
 						<line number="91" hits="1"/>
 						<line number="92" hits="1"/>
 						<line number="93" hits="1"/>
@@ -797,100 +934,140 @@
 						<line number="95" hits="1"/>
 						<line number="96" hits="1"/>
 						<line number="97" hits="1"/>
+						<line number="98" hits="1"/>
 						<line number="99" hits="1"/>
 						<line number="100" hits="1"/>
-						<line number="101" hits="1"/>
 						<line number="102" hits="1"/>
 						<line number="103" hits="1"/>
-						<line number="109" hits="1"/>
-						<line number="110" hits="1"/>
-						<line number="111" hits="1"/>
+						<line number="104" hits="1"/>
+						<line number="105" hits="1"/>
+						<line number="106" hits="1"/>
 						<line number="112" hits="1"/>
 						<line number="113" hits="1"/>
 						<line number="114" hits="1"/>
-						<line number="120" hits="1"/>
-						<line number="128" hits="1"/>
-						<line number="129" hits="1"/>
-						<line number="130" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="131,139"/>
-						<line number="131" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="exit,141"/>
-						<line number="139" hits="0"/>
-						<line number="140" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="exit,141"/>
-						<line number="141" hits="0"/>
-						<line number="143" hits="1"/>
-						<line number="146" hits="1" branch="true" condition-coverage="100% (2/2)"/>
-						<line number="147" hits="1"/>
-						<line number="148" hits="1"/>
-						<line number="149" hits="1"/>
+						<line number="115" hits="1"/>
+						<line number="116" hits="1"/>
+						<line number="117" hits="1"/>
+						<line number="123" hits="1"/>
+						<line number="131" hits="1"/>
+						<line number="132" hits="1"/>
+						<line number="133" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="134,142"/>
+						<line number="134" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="exit,144"/>
+						<line number="142" hits="0"/>
+						<line number="143" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="exit,144"/>
+						<line number="144" hits="0"/>
+						<line number="146" hits="1"/>
+						<line number="149" hits="1" branch="true" condition-coverage="100% (2/2)"/>
 						<line number="150" hits="1"/>
 						<line number="151" hits="1"/>
+						<line number="152" hits="1"/>
 						<line number="153" hits="1"/>
 						<line number="154" hits="1"/>
-						<line number="155" hits="1"/>
 						<line number="156" hits="1"/>
 						<line number="157" hits="1"/>
+						<line number="158" hits="1"/>
+						<line number="159" hits="1"/>
 						<line number="160" hits="1"/>
-						<line number="161" hits="1"/>
-						<line number="167" hits="1"/>
-						<line number="168" hits="1"/>
-						<line number="169" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="170,178"/>
-						<line number="170" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="exit,180"/>
-						<line number="178" hits="0"/>
-						<line number="179" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="exit,180"/>
-						<line number="180" hits="0"/>
-						<line number="182" hits="1"/>
-						<line number="185" hits="1" branch="true" condition-coverage="100% (2/2)"/>
-						<line number="186" hits="1"/>
-						<line number="187" hits="1"/>
-						<line number="188" hits="1"/>
+						<line number="163" hits="1"/>
+						<line number="164" hits="1"/>
+						<line number="170" hits="1"/>
+						<line number="171" hits="1"/>
+						<line number="172" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="173,181"/>
+						<line number="173" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="exit,183"/>
+						<line number="181" hits="0"/>
+						<line number="182" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="exit,183"/>
+						<line number="183" hits="0"/>
+						<line number="185" hits="1"/>
+						<line number="188" hits="1" branch="true" condition-coverage="100% (2/2)"/>
 						<line number="189" hits="1"/>
+						<line number="190" hits="1"/>
 						<line number="191" hits="1"/>
 						<line number="192" hits="1"/>
-						<line number="193" hits="1"/>
 						<line number="194" hits="1"/>
-						<line number="200" hits="1"/>
-						<line number="206" hits="1"/>
+						<line number="195" hits="1"/>
+						<line number="196" hits="1"/>
+						<line number="197" hits="1"/>
+						<line number="203" hits="1"/>
 						<line number="209" hits="1"/>
-						<line number="210" hits="1"/>
-						<line number="211" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="212,214"/>
-						<line number="212" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="exit,216"/>
-						<line number="214" hits="0"/>
-						<line number="215" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="exit,216"/>
-						<line number="216" hits="0"/>
-						<line number="218" hits="1"/>
-						<line number="221" hits="1" branch="true" condition-coverage="100% (2/2)"/>
-						<line number="222" hits="1"/>
-						<line number="223" hits="1"/>
-						<line number="224" hits="1"/>
+						<line number="212" hits="1"/>
+						<line number="213" hits="1"/>
+						<line number="214" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="215,217"/>
+						<line number="215" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="exit,219"/>
+						<line number="217" hits="0"/>
+						<line number="218" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="exit,219"/>
+						<line number="219" hits="0"/>
+						<line number="221" hits="1"/>
+						<line number="224" hits="1" branch="true" condition-coverage="100% (2/2)"/>
 						<line number="225" hits="1"/>
+						<line number="226" hits="1"/>
 						<line number="227" hits="1"/>
 						<line number="228" hits="1"/>
-						<line number="229" hits="1"/>
 						<line number="230" hits="1"/>
 						<line number="231" hits="1"/>
-						<line number="237" hits="1"/>
-						<line number="238" hits="1"/>
-						<line number="239" hits="1"/>
-						<line number="240" hits="1" branch="true" condition-coverage="50% (1/2)" missing-branches="241"/>
-						<line number="241" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="exit,247"/>
-						<line number="245" hits="1"/>
-						<line number="246" hits="1" branch="true" condition-coverage="100% (2/2)"/>
-						<line number="247" hits="1"/>
-						<line number="249" hits="1"/>
-						<line number="252" hits="1" branch="true" condition-coverage="100% (2/2)"/>
-						<line number="253" hits="1"/>
-						<line number="254" hits="1"/>
+						<line number="232" hits="1"/>
+						<line number="233" hits="1"/>
+						<line number="234" hits="1"/>
+						<line number="240" hits="1"/>
+						<line number="241" hits="1"/>
+						<line number="242" hits="1"/>
+						<line number="243" hits="1" branch="true" condition-coverage="50% (1/2)" missing-branches="244"/>
+						<line number="244" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="exit,250"/>
+						<line number="248" hits="1"/>
+						<line number="249" hits="1" branch="true" condition-coverage="100% (2/2)"/>
+						<line number="250" hits="1"/>
+						<line number="252" hits="1"/>
+						<line number="255" hits="1" branch="true" condition-coverage="100% (2/2)"/>
 						<line number="256" hits="1"/>
 						<line number="257" hits="1"/>
-						<line number="258" hits="1"/>
 						<line number="259" hits="1"/>
-						<line number="265" hits="1"/>
-						<line number="266" hits="1"/>
-						<line number="267" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="268,272"/>
-						<line number="268" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="exit,274"/>
-						<line number="272" hits="0"/>
-						<line number="273" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="exit,274"/>
-						<line number="274" hits="0"/>
-						<line number="276" hits="1"/>
+						<line number="260" hits="1"/>
+						<line number="261" hits="1"/>
+						<line number="262" hits="1"/>
+						<line number="268" hits="1"/>
+						<line number="269" hits="1"/>
+						<line number="270" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="271,275"/>
+						<line number="271" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="exit,277"/>
+						<line number="275" hits="0"/>
+						<line number="276" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="exit,277"/>
+						<line number="277" hits="0"/>
+						<line number="279" hits="1"/>
+						<line number="282" hits="1" branch="true" condition-coverage="100% (2/2)"/>
+						<line number="283" hits="1"/>
+						<line number="284" hits="1"/>
+						<line number="285" hits="1"/>
+						<line number="286" hits="1"/>
+						<line number="287" hits="1"/>
+						<line number="288" hits="1"/>
+						<line number="289" hits="1"/>
+						<line number="290" hits="1"/>
+						<line number="291" hits="1"/>
+						<line number="292" hits="1"/>
+						<line number="294" hits="1"/>
+						<line number="295" hits="1"/>
+						<line number="296" hits="1"/>
+						<line number="297" hits="1"/>
+						<line number="298" hits="1"/>
+						<line number="299" hits="1"/>
+						<line number="300" hits="1"/>
+						<line number="301" hits="1"/>
+						<line number="302" hits="1"/>
+						<line number="308" hits="1"/>
+						<line number="309" hits="1"/>
+						<line number="310" hits="1"/>
+						<line number="311" hits="1"/>
+						<line number="312" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="313,317"/>
+						<line number="313" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="exit,319"/>
+						<line number="317" hits="0"/>
+						<line number="318" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="exit,319"/>
+						<line number="319" hits="0"/>
+						<line number="321" hits="1"/>
+					</lines>
+				</class>
+				<class name="const.py" filename="text_dedup/utils/const.py" complexity="0" line-rate="1" branch-rate="1">
+					<methods/>
+					<lines>
+						<line number="1" hits="1"/>
+						<line number="2" hits="1"/>
 					</lines>
 				</class>
 				<class name="ftfy_utils.py" filename="text_dedup/utils/ftfy_utils.py" complexity="0" line-rate="1" branch-rate="1">
@@ -943,7 +1120,60 @@
 						<line number="247" hits="1"/>
 					</lines>
 				</class>
-				<class name="preprocess.py" filename="text_dedup/utils/preprocess.py" complexity="0" line-rate="0.9091" branch-rate="0.5">
+				<class name="inspect.py" filename="text_dedup/utils/inspect.py" complexity="0" line-rate="0.3571" branch-rate="0">
+					<methods/>
+					<lines>
+						<line number="1" hits="1"/>
+						<line number="2" hits="1"/>
+						<line number="4" hits="1"/>
+						<line number="6" hits="1"/>
+						<line number="9" hits="1"/>
+						<line number="16" hits="0"/>
+						<line number="17" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="18,20"/>
+						<line number="18" hits="0"/>
+						<line number="20" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="exit,21"/>
+						<line number="21" hits="0"/>
+						<line number="22" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="exit,23"/>
+						<line number="23" hits="0"/>
+						<line number="24" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="22,25"/>
+						<line number="25" hits="0"/>
+					</lines>
+				</class>
+				<class name="load.py" filename="text_dedup/utils/load.py" complexity="0" line-rate="0.8125" branch-rate="0.375">
+					<methods/>
+					<lines>
+						<line number="1" hits="1"/>
+						<line number="2" hits="1"/>
+						<line number="3" hits="1"/>
+						<line number="5" hits="1"/>
+						<line number="6" hits="1"/>
+						<line number="7" hits="1"/>
+						<line number="10" hits="1"/>
+						<line number="27" hits="1" branch="true" condition-coverage="50% (1/2)" missing-branches="28"/>
+						<line number="28" hits="0"/>
+						<line number="30" hits="1"/>
+						<line number="41" hits="1" branch="true" condition-coverage="50% (1/2)" missing-branches="exit"/>
+						<line number="42" hits="1"/>
+						<line number="43" hits="1" branch="true" condition-coverage="50% (1/2)" missing-branches="44"/>
+						<line number="44" hits="0"/>
+						<line number="45" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="exit,46"/>
+						<line number="46" hits="1"/>
+					</lines>
+				</class>
+				<class name="memory.py" filename="text_dedup/utils/memory.py" complexity="0" line-rate="1" branch-rate="1">
+					<methods/>
+					<lines>
+						<line number="1" hits="1"/>
+						<line number="4" hits="1"/>
+						<line number="9" hits="1"/>
+						<line number="11" hits="1"/>
+						<line number="12" hits="1"/>
+						<line number="14" hits="1"/>
+						<line number="15" hits="1"/>
+						<line number="16" hits="1"/>
+					</lines>
+				</class>
+				<class name="preprocess.py" filename="text_dedup/utils/preprocess.py" complexity="0" line-rate="0.6471" branch-rate="0.5">
 					<methods/>
 					<lines>
 						<line number="5" hits="1"/>
@@ -957,9 +1187,15 @@
 						<line number="36" hits="1"/>
 						<line number="37" hits="1"/>
 						<line number="38" hits="1"/>
+						<line number="41" hits="1"/>
+						<line number="55" hits="0"/>
+						<line number="56" hits="0"/>
+						<line number="57" hits="0"/>
+						<line number="58" hits="0"/>
+						<line number="59" hits="0"/>
 					</lines>
 				</class>
-				<class name="timer.py" filename="text_dedup/utils/timer.py" complexity="0" line-rate="0.9412" branch-rate="0.5">
+				<class name="timer.py" filename="text_dedup/utils/timer.py" complexity="0" line-rate="0.95" branch-rate="0.75">
 					<methods/>
 					<lines>
 						<line number="4" hits="1"/>
@@ -979,6 +1215,9 @@
 						<line number="35" hits="1"/>
 						<line number="37" hits="1"/>
 						<line number="61" hits="1"/>
+						<line number="63" hits="1"/>
+						<line number="64" hits="1" branch="true" condition-coverage="100% (2/2)"/>
+						<line number="65" hits="1"/>
 					</lines>
 				</class>
 				<class name="tokenization.py" filename="text_dedup/utils/tokenization.py" complexity="0" line-rate="1" branch-rate="1">
@@ -998,32 +1237,45 @@
 						<line number="45" hits="1"/>
 					</lines>
 				</class>
-				<class name="union_find.py" filename="text_dedup/utils/union_find.py" complexity="0" line-rate="0.913" branch-rate="0.75">
+				<class name="union_find.py" filename="text_dedup/utils/union_find.py" complexity="0" line-rate="0.6944" branch-rate="0.4286">
 					<methods/>
 					<lines>
 						<line number="4" hits="1"/>
-						<line number="7" hits="1"/>
-						<line number="45" hits="1"/>
-						<line number="46" hits="1"/>
-						<line number="49" hits="1"/>
+						<line number="5" hits="1"/>
+						<line number="6" hits="1"/>
+						<line number="9" hits="1"/>
+						<line number="47" hits="1"/>
+						<line number="48" hits="1"/>
 						<line number="51" hits="1"/>
-						<line number="52" hits="1"/>
-						<line number="54" hits="1" branch="true" condition-coverage="100% (2/2)"/>
-						<line number="55" hits="1"/>
-						<line number="56" hits="1"/>
+						<line number="53" hits="1"/>
+						<line number="54" hits="1"/>
+						<line number="56" hits="1" branch="true" condition-coverage="100% (2/2)"/>
+						<line number="57" hits="1"/>
 						<line number="58" hits="1"/>
 						<line number="60" hits="1"/>
 						<line number="62" hits="1"/>
-						<line number="63" hits="1"/>
 						<line number="64" hits="1"/>
-						<line number="68" hits="1" branch="true" condition-coverage="50% (1/2)" missing-branches="69"/>
-						<line number="69" hits="0"/>
-						<line number="71" hits="1" branch="true" condition-coverage="100% (2/2)"/>
-						<line number="74" hits="1"/>
-						<line number="75" hits="1"/>
-						<line number="78" hits="1" branch="true" condition-coverage="50% (1/2)" missing-branches="81"/>
-						<line number="79" hits="1"/>
-						<line number="81" hits="0"/>
+						<line number="65" hits="1"/>
+						<line number="66" hits="1"/>
+						<line number="70" hits="1" branch="true" condition-coverage="50% (1/2)" missing-branches="71"/>
+						<line number="71" hits="0"/>
+						<line number="73" hits="1" branch="true" condition-coverage="100% (2/2)"/>
+						<line number="76" hits="1"/>
+						<line number="77" hits="1"/>
+						<line number="80" hits="1" branch="true" condition-coverage="50% (1/2)" missing-branches="83"/>
+						<line number="81" hits="1"/>
+						<line number="83" hits="0"/>
+						<line number="85" hits="1"/>
+						<line number="86" hits="0"/>
+						<line number="87" hits="0"/>
+						<line number="89" hits="1"/>
+						<line number="90" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="91,95"/>
+						<line number="91" hits="0"/>
+						<line number="92" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="93,97"/>
+						<line number="93" hits="0"/>
+						<line number="95" hits="0"/>
+						<line number="97" hits="0" branch="true" condition-coverage="0% (0/2)" missing-branches="exit,98"/>
+						<line number="98" hits="0"/>
 					</lines>
 				</class>
 			</classes>
diff --git a/tests/test_benchmark_core.py b/tests/benchmark_core.py
similarity index 100%
rename from tests/test_benchmark_core.py
rename to tests/benchmark_core.py
diff --git a/tests/test_benchmark_news.py b/tests/benchmark_news.py
similarity index 100%
rename from tests/test_benchmark_news.py
rename to tests/benchmark_news.py
diff --git a/tests/core_simhash_results.tsv b/tests/core_simhash_results.tsv
deleted file mode 100644
index 0a0deb0..0000000
--- a/tests/core_simhash_results.tsv
+++ /dev/null
@@ -1,31 +0,0 @@
-Algorithm	Precision (Duplicates)	Recall (Duplicates)	Precision (Non Duplicates)	Recall (Non Duplicates)	Macro F1 score	Accuracy	Time	bit_diff	ngram
-SimHash	0.9041246513623686	0.7209794696321642	0.791953693073096	0.9328512396694215	0.8480391722177323	0.83211	660.7345383167267	7	3
-SimHash	0.9031564438318401	0.7007165009089937	0.7804158493526874	0.9340219738942623	0.8417861465922638	0.82389	521.5012052059174	7	4
-SimHash	0.9048940464177598	0.6893510708718584	0.7738324731049064	0.9361846188568527	0.8393632597613332	0.81982	478.519406080246	7	5
-SimHash	0.9006558587206496	0.6786470701495411	0.7681192979206224	0.9342997164691965	0.834387578320636	0.81371	253.9916753768921	6	3
-SimHash	0.9020347508001829	0.6746462617022186	0.7658442037903027	0.9355808621791258	0.8339394772952429	0.81266	509.02215027809143	7	6
-SimHash	0.903674655047204	0.6635029646376317	0.7594052611513534	0.9375682494257634	0.8315399580992787	0.80832	521.268883228302	7	7
-SimHash	0.9015530479292694	0.6618061485909479	0.758580224335528	0.9363243039879608	0.8300666361323987	0.80703	209.40148067474365	6	4
-SimHash	0.9030407679475548	0.6583315553659057	0.7567407452416035	0.9376435159043854	0.8298907565945792	0.80603	547.1693751811981	7	8
-SimHash	0.9013889298457728	0.6527365521364966	0.7539378716579158	0.9371085742227906	0.8276634007518443	0.80334	213.39266991615295	6	5
-SimHash	0.9009602938077607	0.6384717126034645	0.7462302151809647	0.9380694224832468	0.8235952544943627	0.79708	207.158132314682	6	6
-SimHash	0.9013104137033562	0.6348482264665757	0.7441641650611587	0.9385736889692586	0.8227372893822574	0.79548	60.34354829788208	5	3
-SimHash	0.9021779028508503	0.6279862027849934	0.7404171866642896	0.9396990609797489	0.8212975447575699	0.79294	204.3841519355774	6	7
-SimHash	0.9017967019443761	0.624190800681431	0.738532653786891	0.9398190045248869	0.8201646778656335	0.79114	229.03749799728394	6	8
-SimHash	0.9007131439813107	0.6243102162565249	0.7386464694373629	0.9391312541223028	0.8196798067093368	0.79084	51.68418741226196	5	4
-SimHash	0.9023949108145192	0.6156235374207548	0.7340281457928517	0.9409367098162056	0.8182115283036855	0.78765	50.14804434776306	5	5
-SimHash	0.9021569935512564	0.6035021357077587	0.7277039155879219	0.9418242260544359	0.8149304545695892	0.78232	49.01416015625	5	6
-SimHash	0.904700909440246	0.5991432328116385	0.7251497702553364	0.9436854255762025	0.8149253398477911	0.78088	24.663214445114136	4	3
-SimHash	0.9054171355087607	0.5968381121919173	0.7238696567240003	0.9442940185181679	0.8146433961163805	0.78005	50.44178080558777	5	7
-SimHash	0.9028739724253997	0.5919410965880156	0.7217012532198779	0.9432402784082312	0.8122876128226388	0.7773	50.281965255737305	5	8
-SimHash	0.9041430525698652	0.5885757903441257	0.7199919189587001	0.9443003955561444	0.8120674857642827	0.77626	23.02803683280945	4	4
-SimHash	0.9058266473760358	0.5831251852165446	0.7169914353049376	0.9457143940255506	0.8114090413404866	0.77417	24.0515878200531	4	5
-SimHash	0.9048858630356428	0.5738169812917971	0.7124621623165229	0.9459695154318647	0.8086740126760829	0.7699	24.691195964813232	4	6
-SimHash	0.9081697916316019	0.5696699676935746	0.7100707040530352	0.9481772762675481	0.8091202478423185	0.76872	25.0836443901062	4	7
-SimHash	0.909447620336231	0.5669879162361079	0.7084912758919318	0.9490880736387669	0.8089694481140814	0.76771	17.250157594680786	3	3
-SimHash	0.9066820276497696	0.5652780125063377	0.7080637839064805	0.9477062129728088	0.807372905778125	0.76651	25.85455298423767	4	8
-SimHash	0.9088453516599994	0.5606859601754978	0.7056379234802764	0.9493078795254031	0.8072416375701379	0.76497	18.530534744262695	3	4
-SimHash	0.9104704097116844	0.5560118784355847	0.7031012337333108	0.9505702698071175	0.8067858217224976	0.76306	19.220607042312622	3	5
-SimHash	0.9104560816696282	0.5501031535514294	0.7002622757682436	0.9510457541239666	0.8053591787189359	0.76044	20.553274869918823	3	6
-SimHash	0.9129719128668488	0.5479213081676405	0.6989474568205358	0.9525962382205944	0.8059596848436923	0.75993	21.3585786819458	3	7
-SimHash	0.9138330757341576	0.5463614407224614	0.6980372420734776	0.9531736184022144	0.8059351589038176	0.75938	22.101569414138794	3	8
diff --git a/tests/news_simhash_results.tsv b/tests/news_simhash_results.tsv
deleted file mode 100644
index 5b163ff..0000000
--- a/tests/news_simhash_results.tsv
+++ /dev/null
@@ -1,49 +0,0 @@
-ARI	time	bit_diff	ngram
-0.6822147107954453	12.525881052017212	12	5
-0.675185246041429	5.931649446487427	11	4
-0.6732026066460217	5.965769052505493	10	4
-0.6708917788705451	12.546626567840576	14	8
-0.6637238676788538	12.817933082580566	14	9
-0.6522571909180018	12.567753314971924	13	6
-0.630860315439797	12.620974779129028	13	8
-0.6293158559575469	12.495429515838623	12	6
-0.6220587533491597	5.83250093460083	11	5
-0.6212963580344466	12.526573181152344	12	7
-0.6105532231167057	38.34381318092346	15	8
-0.5964268349580873	12.600701093673706	13	9
-0.5706028925112692	12.653830766677856	14	10
-0.5617146279647695	12.598326444625854	13	7
-0.5474046009449512	12.553319454193115	13	5
-0.5442163045802813	5.9313647747039795	11	6
-0.543946526243722	12.49471664428711	12	8
-0.5399553395495874	5.94044041633606	11	7
-0.5376902189864985	5.817416667938232	10	5
-0.5358110222191643	38.36264395713806	15	9
-0.5300801453038461	38.55435395240784	15	10
-0.5021251623600166	12.63725996017456	13	10
-0.4976895857667319	12.62915849685669	12	9
-0.4564912425443016	12.69089412689209	14	7
-0.4505990754372845	5.907226800918579	10	6
-0.4374959951652071	12.729954242706299	12	10
-0.4355602238623215	6.023991823196411	11	8
-0.39976431697615106	5.911164283752441	10	7
-0.38398141106324357	6.0631513595581055	11	9
-0.34822125655862574	6.080265045166016	11	10
-0.346061974061667	5.9928224086761475	10	8
-0.3328310471696863	12.489759922027588	14	6
-0.30390143723768814	38.99505019187927	15	7
-0.3022484069911815	6.055165529251099	10	9
-0.22891970231583927	6.0675036907196045	10	10
-0.15511192127369075	13.053264617919922	12	4
-0.10248533847317527	6.086925506591797	10	3
-0.08391493975721878	12.538282632827759	14	5
-0.053372269805519144	38.39644193649292	15	6
-0.04762594558725042	12.583284139633179	13	4
-0.0288788685718963	5.963608503341675	11	3
-0.02689731257283987	39.12379431724548	15	5
-0.014885685897021182	12.797574996948242	14	4
-0.01057028536897794	12.928021430969238	12	3
-0.005034380255319022	13.08185863494873	13	3
-0.00488625777725783	38.875048875808716	15	4
-0.0023038646093864255	13.152316570281982	14	3
-0.0008913682980693251	41.63720178604126	15	3
diff --git a/tests/test_ccnet.py b/tests/test_ccnet.py
new file mode 100644
index 0000000..767f655
--- /dev/null
+++ b/tests/test_ccnet.py
@@ -0,0 +1,37 @@
+import subprocess  # nosec
+
+
+def test_exact_hash():
+    result = subprocess.run(
+        [
+            "python",
+            "-m",
+            "text_dedup.ccnet",
+            "--path",
+            "allenai/c4",
+            "--name",
+            "xh",
+            "--split",
+            "train",
+            "--cache_dir",
+            ".cache",
+            "--output",
+            ".temp-output",
+            "--column",
+            "text",
+            "--batch_size",
+            "10000",
+        ],
+        capture_output=True,
+        text=True,
+    )  # nosec
+
+    # check the output
+    print(f"Output:\n{result.stdout}")
+    assert (
+        "69048" in result.stdout and "68221" in result.stdout
+    ), f"Expected before and after are not present in the output: {result.stdout}"
+
+    # remove the output and input
+    # subprocess.run(["rm", "-rf", ".cache"])  # nosec
+    subprocess.run(["rm", "-rf", ".temp-output"])  # nosec
diff --git a/tests/test_unisim.py b/tests/test_unisim.py
new file mode 100644
index 0000000..1283be6
--- /dev/null
+++ b/tests/test_unisim.py
@@ -0,0 +1,36 @@
+import subprocess  # nosec
+
+
+def test_minhash():
+    result = subprocess.run(
+        [
+            "python",
+            "-m",
+            "text_dedup.ann_unisim",
+            "--path",
+            "truthful_qa",
+            "--name",
+            "generation",
+            "--split",
+            "validation",
+            "--cache_dir",
+            ".cache",
+            "--output",
+            ".temp-output",
+            "--column",
+            "question",
+            "--batch_size",
+            "24",
+        ],
+        capture_output=True,
+        text=True,
+    )  # nosec
+
+    # check the output
+    assert (
+        "817" in result.stdout and "788" in result.stdout
+    ), f"Expected before and after are not present in the output: {result.stdout}"
+
+    # remove the output and input
+    # subprocess.run(["rm", "-rf", ".cache"])  # nosec
+    subprocess.run(["rm", "-rf", ".temp-output"])  # nosec
diff --git a/text_dedup/ann_unisim.py b/text_dedup/ann_unisim.py
index 1fb0234..7b78e32 100644
--- a/text_dedup/ann_unisim.py
+++ b/text_dedup/ann_unisim.py
@@ -1,6 +1,5 @@
 import inspect
 import os
-import pickle  # nosec
 import random
 from pathlib import Path
 
@@ -12,14 +11,18 @@
 from unisim.embedder import Embedder
 
 from text_dedup import logger
-from text_dedup.utils.args import IOArgs
-from text_dedup.utils.args import MetaArgs
-from text_dedup.utils.args import UniSimArgs
-from text_dedup.utils.inspect import random_samples
-from text_dedup.utils.load import load_hf_dataset
-from text_dedup.utils.memory import DisableReferenceCount
-from text_dedup.utils.timer import Timer
-from text_dedup.utils.union_find import UnionFind
+from text_dedup.utils import CLUSTER_COLUMN
+from text_dedup.utils import INDEX_COLUMN
+from text_dedup.utils import DisableReferenceCount
+from text_dedup.utils import IOArgs
+from text_dedup.utils import MetaArgs
+from text_dedup.utils import Timer
+from text_dedup.utils import UnionFind
+from text_dedup.utils import UniSimArgs
+from text_dedup.utils import load_hf_dataset
+from text_dedup.utils import random_samples
+
+EMBEDDING_COLUMN = "__embeddings__"
 
 
 class WrapInferenceSession:
@@ -67,26 +70,16 @@ def main(io_args: IOArgs, meta_args: MetaArgs, unisim_args: UniSimArgs):
 
     with timer("Total"):
         with timer("Loading"):
-            ds = load_hf_dataset(io_args)
-            if meta_args.idx_column is not None:
-                original_idx = ds[meta_args.idx_column]
-            else:
-                original_idx = list(range(len(ds)))
-
-            ds = ds.map(lambda x, i: {"__idx__": i}, with_indices=True, num_proc=io_args.num_proc)
-            meta_args.idx_column = "__idx__"
-            id2id = {new: old for new, old in zip(ds["__idx__"], original_idx)}
+            ds, id2id = load_hf_dataset(io_args=io_args, meta_args=meta_args)
 
         with timer("Embedding"):
             ds = ds.map(
                 lambda batch: {
-                    "__embeddings__": text_sim.embedder.embed(batch[meta_args.column]),
+                    EMBEDDING_COLUMN: text_sim.embedder.embed(batch[meta_args.column]),
                 },
                 num_proc=io_args.num_proc,
                 batched=True,
                 batch_size=meta_args.batch_size,
-                new_fingerprint="Thisisatestb",
-                cache_file_name="Thisisatestb.b",
                 load_from_cache_file=True,
             )
 
@@ -103,8 +96,8 @@ def main(io_args: IOArgs, meta_args: MetaArgs, unisim_args: UniSimArgs):
                 shard = ds.shard(
                     num_shards=NUM_SHARDS, index=batch_idx, contiguous=True, writer_batch_size=meta_args.batch_size
                 )
-                batch_indices = shard[meta_args.idx_column]
-                batch_embedds = shard["__embeddings__"]
+                batch_indices = shard[INDEX_COLUMN]
+                batch_embedds = shard[EMBEDDING_COLUMN]
                 text_sim.indexer.add(batch_embedds, batch_indices)
                 if unisim_args.store_data:
                     text_sim.indexed_data.extend(shard[meta_args.column])
@@ -121,8 +114,8 @@ def main(io_args: IOArgs, meta_args: MetaArgs, unisim_args: UniSimArgs):
                     num_shards=NUM_SHARDS, index=batch_idx, contiguous=True, writer_batch_size=meta_args.batch_size
                 )
 
-                remain_embedds = shard["__embeddings__"]
-                remain_indices = shard[meta_args.idx_column]
+                remain_embedds = shard[EMBEDDING_COLUMN]
+                remain_indices = shard[INDEX_COLUMN]
                 shard_results = [[] for _ in remain_indices]
                 k = 20
                 while remain_embedds and remain_indices:
@@ -151,7 +144,7 @@ def main(io_args: IOArgs, meta_args: MetaArgs, unisim_args: UniSimArgs):
 
                     k *= 2
 
-                results.extend(zip(shard[meta_args.idx_column], shard_results))
+                results.extend(zip(shard[INDEX_COLUMN], shard_results))
 
         with timer("Clustering"):
             for idx, matches in tqdm(results):
@@ -160,15 +153,15 @@ def main(io_args: IOArgs, meta_args: MetaArgs, unisim_args: UniSimArgs):
 
         with timer("Filtering"), DisableReferenceCount():
             ds = ds.map(
-                function=lambda _, idx: {"__cluster__": uf.find(idx)},
-                with_indices=True,
+                function=lambda record: {CLUSTER_COLUMN: uf.find(record[INDEX_COLUMN])},
+                with_indices=False,
                 num_proc=io_args.num_proc,  # type: ignore
                 new_fingerprint=str(random.getrandbits(128)),  # type: ignore
                 desc="Finding clusters...",  # type: ignore
             )
             final_data = ds.filter(
-                function=lambda record, idx: record["__cluster__"] == idx,
-                with_indices=True,
+                function=lambda record: record[CLUSTER_COLUMN] == record[INDEX_COLUMN],
+                with_indices=False,
                 num_proc=io_args.num_proc,
                 desc="Filtering clusters...",
             )
@@ -180,12 +173,7 @@ def main(io_args: IOArgs, meta_args: MetaArgs, unisim_args: UniSimArgs):
             final_data = final_data.remove_columns(["__cluster__"])
             final_data.save_to_disk(io_args.output)
             if io_args.debug:
-                with open(os.path.join(io_args.output, "uf.pkl"), "wb") as f:
-                    # use the original index instead of the new one
-                    new_uf = UnionFind()
-                    for key in uf.parent:
-                        new_uf.union(id2id[key], id2id[uf.find(key)])
-                    pickle.dump(new_uf, f, protocol=pickle.HIGHEST_PROTOCOL)
+                uf.dump(os.path.join(io_args.output, "uf.pkl"), id2id=id2id)
 
         with timer("Cleaning"):
             if io_args.clean_cache:
diff --git a/text_dedup/bloom_filter.py b/text_dedup/bloom_filter.py
index 9c4c0c8..41d9f12 100644
--- a/text_dedup/bloom_filter.py
+++ b/text_dedup/bloom_filter.py
@@ -6,7 +6,6 @@
 
 import click
 import numpy as np
-from datasets import Dataset
 from pybloom_live import ScalableBloomFilter
 from tqdm import tqdm
 
@@ -50,7 +49,7 @@ def main(
 
     with timer("Total"):
         with timer("Loading"):
-            ds: Dataset = load_hf_dataset(io_args)
+            ds, _ = load_hf_dataset(io_args=io_args, meta_args=meta_args)
 
         LEN_DATASET = len(ds)
         NUM_SHARDS = int(np.ceil(LEN_DATASET / meta_args.batch_size))
diff --git a/text_dedup/ccnet.py b/text_dedup/ccnet.py
index 4be0301..19d8a79 100644
--- a/text_dedup/ccnet.py
+++ b/text_dedup/ccnet.py
@@ -12,24 +12,26 @@
 
 import click
 import numpy as np
-from datasets import Dataset
 from tqdm import tqdm
 
 from text_dedup import logger
+from text_dedup.utils import INDEX_COLUMN
+from text_dedup.utils import DisableReferenceCount
 from text_dedup.utils import ExactHashArgs
 from text_dedup.utils import IOArgs
 from text_dedup.utils import MetaArgs
-from text_dedup.utils.hashfunc import md5_digest
-from text_dedup.utils.hashfunc import sha256_digest
-from text_dedup.utils.hashfunc import xxh3_64_digest
-from text_dedup.utils.hashfunc import xxh3_128_digest
-from text_dedup.utils.load import load_hf_dataset
-from text_dedup.utils.memory import DisableReferenceCount
-from text_dedup.utils.preprocess import normalize as normalize_for_dedup
-from text_dedup.utils.timer import Timer
+from text_dedup.utils import Timer
+from text_dedup.utils import load_hf_dataset
+from text_dedup.utils import md5_digest
+from text_dedup.utils import normalize as normalize_for_dedup
+from text_dedup.utils import sha256_digest
+from text_dedup.utils import xxh3_64_digest
+from text_dedup.utils import xxh3_128_digest
 
 HASH_SIZE = np.uint64(0).nbytes  # 8 bytes
 mp.set_start_method("fork", force=True)
+HASH_COLUMN = "__hash__"
+ID_COLUMN = "__id__"
 
 
 def compute_hashes(
@@ -61,9 +63,9 @@ def compute_hashes(
     n = len(lines)
     hashes = [hash_func(bytes(normalize_for_dedup(line), encoding="utf-8")) for line in lines]
     return {
-        "__hash__": hashes,
-        "__id__": [idx for _ in range(n)],
-        "__idx__": list(range(n)),
+        HASH_COLUMN: hashes,
+        ID_COLUMN: [idx for _ in range(n)],
+        INDEX_COLUMN: list(range(n)),
     }
 
 
@@ -131,7 +133,7 @@ def xxh3_digest_sized(data: bytes) -> bytes:
 
     with timer("Total"):
         with timer("Loading"):
-            ds: Dataset = load_hf_dataset(io_args)
+            ds, _ = load_hf_dataset(io_args=io_args, meta_args=meta_args)
 
         LEN_DATASET = len(ds)
         hashes = set()
@@ -142,18 +144,17 @@ def xxh3_digest_sized(data: bytes) -> bytes:
                 compute_hashes,
                 batched=True,
                 batch_size=1,
-                with_indices=True if meta_args.idx_column is None else False,
+                with_indices=False,
                 num_proc=io_args.num_proc,
-                fn_kwargs={"column": meta_args.column, "hash_func": hash_func}
-                | ({"idx_column": meta_args.idx_column, "idx": None} if meta_args.idx_column is not None else {}),
-                remove_columns=ds.column_names,
+                fn_kwargs={"column": meta_args.column, "hash_func": hash_func, "idx_column": INDEX_COLUMN, "idx": None},
+                remove_columns=[c for c in ds.column_names if c != INDEX_COLUMN],
                 desc="Computing hashes...",
             )
             NUM_SHARDS = int(np.ceil(len(hashed) / meta_args.batch_size))
             for batch_idx in tqdm(range(0, NUM_SHARDS), desc="Processing..."):
                 ds_shard = hashed.shard(NUM_SHARDS, batch_idx, contiguous=True)
                 for h, id_, idx in tqdm(
-                    zip(ds_shard["__hash__"], ds_shard["__id__"], ds_shard["__idx__"]),
+                    zip(ds_shard[HASH_COLUMN], ds_shard[ID_COLUMN], ds_shard[INDEX_COLUMN]),
                     leave=False,
                 ):
                     if h in hashes:
diff --git a/text_dedup/exact_hash.py b/text_dedup/exact_hash.py
index fc33170..6f8254a 100644
--- a/text_dedup/exact_hash.py
+++ b/text_dedup/exact_hash.py
@@ -6,7 +6,6 @@
 
 import click
 import numpy as np
-from datasets import Dataset
 from tqdm import tqdm
 
 from text_dedup import logger
@@ -46,7 +45,7 @@ def main(
 
     with timer("Total"):
         with timer("Loading"):
-            ds: Dataset = load_hf_dataset(io_args)
+            ds, _ = load_hf_dataset(io_args=io_args, meta_args=meta_args)
 
         LEN_DATASET: int = len(ds)
         NUM_SHARDS = int(np.ceil(LEN_DATASET / meta_args.batch_size))
diff --git a/text_dedup/minhash.py b/text_dedup/minhash.py
index e4a46fb..33b0f17 100644
--- a/text_dedup/minhash.py
+++ b/text_dedup/minhash.py
@@ -5,7 +5,6 @@
 
 import multiprocessing as mp
 import os
-import pickle  # nosec
 import random
 import re
 from collections import defaultdict
@@ -15,22 +14,23 @@
 import click
 import datasets
 import numpy as np
-from datasets import Dataset
 from tqdm import tqdm
 
 from text_dedup import logger
+from text_dedup.utils import CLUSTER_COLUMN
+from text_dedup.utils import INDEX_COLUMN
+from text_dedup.utils import DisableReferenceCount
+from text_dedup.utils import IOArgs
+from text_dedup.utils import MetaArgs
+from text_dedup.utils import MinHashArgs
+from text_dedup.utils import Timer
 from text_dedup.utils import UnionFind
+from text_dedup.utils import load_hf_dataset
 from text_dedup.utils import ngrams
-from text_dedup.utils.analysis import optimal_param
-from text_dedup.utils.args import IOArgs
-from text_dedup.utils.args import MetaArgs
-from text_dedup.utils.args import MinHashArgs
-from text_dedup.utils.hashfunc import sha1_hash
-from text_dedup.utils.hashfunc import xxh3_16hash
-from text_dedup.utils.hashfunc import xxh3_32hash
-from text_dedup.utils.load import load_hf_dataset
-from text_dedup.utils.memory import DisableReferenceCount
-from text_dedup.utils.timer import Timer
+from text_dedup.utils import optimal_param
+from text_dedup.utils import sha1_hash
+from text_dedup.utils import xxh3_16hash
+from text_dedup.utils import xxh3_32hash
 
 SEED = 42
 RNG = np.random.RandomState(SEED)
@@ -40,6 +40,7 @@
 # is not copied to child processes as long as it is not modified.
 mp.set_start_method("fork", force=True)
 uf = UnionFind()
+SIGNATURE_COLUMN = "__signatures__"
 
 
 def embed_func(
@@ -106,9 +107,9 @@ def embed_func(
     ...     max_hash=max_hash,
     ...     modulo_prime=modulo_prime,
     ... )
-    >>> len(res["__signatures__"])
+    >>> len(res[SIGNATURE_COLUMN])
     10
-    >>> res["__id__"]
+    >>> res[INDEX_COLUMN]
     0
     """
     # a, b are each np.ndarray arrays containing {num_perm} pairs of random numbers used for building new hashes
@@ -133,7 +134,7 @@ def embed_func(
     # keeping  for backward compatibility, even though theoretically and empirically
     # it doesnt matter if it is there or not. github.com/ekzhu/datasketch/issues/114
     Hs: list[bytes] = [bytes(hashvalues[start:end].byteswap().data) for start, end in hashranges]
-    return {"__signatures__": Hs, "__id__": idx}
+    return {SIGNATURE_COLUMN: Hs, INDEX_COLUMN: idx}
 
 
 @click.command
@@ -213,7 +214,7 @@ def hash_func(byte_data):
 
     with timer("Total"):
         with timer("Loading"):
-            ds: Dataset = load_hf_dataset(io_args)
+            ds, id2id = load_hf_dataset(io_args=io_args, meta_args=meta_args)
             ds = ds.filter(
                 lambda x: len(NON_ALPHA.split(x[meta_args.column].lower())) >= minhash_args.min_length,
                 num_proc=io_args.num_proc,
@@ -235,12 +236,10 @@ def hash_func(byte_data):
                     "max_hash": MAX_HASH,
                     "modulo_prime": MODULO_PRIME,
                 },
-                input_columns=(
-                    [meta_args.column] if meta_args.idx_column is None else [meta_args.column, meta_args.idx_column]
-                ),
-                remove_columns=ds.column_names,
+                input_columns=[meta_args.column, INDEX_COLUMN],
+                remove_columns=[col for col in ds.column_names if col != INDEX_COLUMN],
                 num_proc=io_args.num_proc,
-                with_indices=True if meta_args.idx_column is None else False,
+                with_indices=False,
                 desc="Fingerprinting...",
             )
             LEN_EMBEDDED = len(embedded)
@@ -259,7 +258,7 @@ def hash_func(byte_data):
                     contiguous=True,
                     writer_batch_size=meta_args.batch_size,
                 )
-                for key, Hs in zip(embedded_shard["__id__"], embedded_shard["__signatures__"]):
+                for key, Hs in zip(embedded_shard[INDEX_COLUMN], embedded_shard[SIGNATURE_COLUMN]):
                     for i, H in enumerate(Hs):
                         HASH_TABLES[i][H].add(key)
 
@@ -277,8 +276,8 @@ def hash_func(byte_data):
 
         with timer("Filtering"), DisableReferenceCount():
             ds = ds.map(
-                function=lambda _, idx: {"__cluster__": uf.find(idx)},
-                with_indices=True,
+                function=lambda record: {CLUSTER_COLUMN: uf.find(record[INDEX_COLUMN])},
+                with_indices=False,
                 num_proc=io_args.num_proc,
                 new_fingerprint=str(random.getrandbits(128)),
                 desc="Finding clusters...",
@@ -287,18 +286,17 @@ def hash_func(byte_data):
             # Since there is no easy groupby in datasets
             # I will use this simple filter for now
             final_data = ds.filter(
-                function=lambda record, idx: record["__cluster__"] == idx,
-                with_indices=True,
+                function=lambda record: record[CLUSTER_COLUMN] == record[INDEX_COLUMN],
+                with_indices=False,
                 num_proc=io_args.num_proc,
                 desc="Filtering clusters...",
             )
 
         with timer("Saving"):
-            final_data = final_data.remove_columns(["__cluster__"])
+            final_data = final_data.remove_columns([CLUSTER_COLUMN, INDEX_COLUMN])
             final_data.save_to_disk(io_args.output)
             if io_args.debug:
-                with open(os.path.join(io_args.output, "uf.pkl"), "wb") as f:
-                    pickle.dump(uf, f, protocol=pickle.HIGHEST_PROTOCOL)
+                uf.dump(os.path.join(io_args.output, "uf.pkl"), id2id=id2id)
 
         with timer("Cleaning"):
             if io_args.clean_cache:
diff --git a/text_dedup/simhash.py b/text_dedup/simhash.py
index 7ea5224..a6806c3 100644
--- a/text_dedup/simhash.py
+++ b/text_dedup/simhash.py
@@ -6,7 +6,6 @@
 import math
 import multiprocessing as mp
 import os
-import pickle  # nosec
 import random
 from collections import defaultdict
 from itertools import permutations
@@ -18,24 +17,27 @@
 import numpy as np
 from bitarray import bitarray
 from bitarray import frozenbitarray
-from datasets import Dataset
 from tqdm import tqdm
 
 from text_dedup import logger
+from text_dedup.utils import CLUSTER_COLUMN
+from text_dedup.utils import INDEX_COLUMN
+from text_dedup.utils import DisableReferenceCount
 from text_dedup.utils import IOArgs
 from text_dedup.utils import MetaArgs
 from text_dedup.utils import SimHashArgs
+from text_dedup.utils import Timer
 from text_dedup.utils import UnionFind
+from text_dedup.utils import load_hf_dataset
 from text_dedup.utils import ngrams
-from text_dedup.utils.hashfunc import xxh3_64_digest
-from text_dedup.utils.hashfunc import xxh3_128_digest
-from text_dedup.utils.load import load_hf_dataset
-from text_dedup.utils.memory import DisableReferenceCount
-from text_dedup.utils.timer import Timer
+from text_dedup.utils import xxh3_64_digest
+from text_dedup.utils import xxh3_128_digest
 
 mp.set_start_method("fork", force=True)
 datasets.logging.set_verbosity_error()
 uf = UnionFind()
+KEY_COLUMN = "__keys__"
+SIGNATURE_COLUMN = "__signature__"
 
 
 def _hamming_distance(a: bitarray, b: bitarray) -> int:
@@ -204,7 +206,6 @@ def _create_permutations(f: int, k: int, b: int) -> list[Permutation]:
             y = (f - x * max_block_size) // min_block_size
             break
 
-    logger.info(f"{x=} w/ {max_block_size}, {y=} w/ {min_block_size}")
     assert (
         x * max_block_size + y * min_block_size == f
     ), f"{x=} w/ {max_block_size}, {y=} w/ {min_block_size} are invalid"
@@ -330,9 +331,9 @@ def embed_func(
     Examples
     --------
     >>> res = embed_func("hello world", 0, ngram=3, permutations=None, hash_func=xxh3_64_digest)
-    >>> res["__id__"]
+    >>> res[INDEX_COLUMN]
     0
-    >>> len(res["__signature__"])
+    >>> len(res[SIGNATURE_COLUMN])
     8
     """
     tokens = {bytes("".join(ng).lower(), "utf-8") for ng in ngrams(list(content), n=ngram)}
@@ -346,7 +347,7 @@ def embed_func(
                     (permutation.permute(sig) & permutation.search_mask).tobytes(),
                 )
             )
-    return {"__id__": idx, "__keys__": keys, "__signature__": sig.tobytes()}
+    return {INDEX_COLUMN: idx, KEY_COLUMN: keys, SIGNATURE_COLUMN: sig.tobytes()}
 
 
 @click.command
@@ -369,7 +370,7 @@ def main(
 
     with timer("Total"):
         with timer("Loading"):
-            ds: Dataset = load_hf_dataset(io_args)
+            ds, id2id = load_hf_dataset(io_args=io_args, meta_args=meta_args)
 
         LEN_DATASET = len(ds)  # type: ignore
 
@@ -381,12 +382,10 @@ def main(
                     "permutations": PERMUTATIONS,
                     "hash_func": hash_func,
                 },
-                input_columns=(
-                    [meta_args.column] if meta_args.idx_column is None else [meta_args.column, meta_args.idx_column]
-                ),
+                input_columns=[meta_args.column, INDEX_COLUMN],
                 remove_columns=[meta_args.column],
                 num_proc=io_args.num_proc,  # type: ignore
-                with_indices=True if meta_args.idx_column is None else False,
+                with_indices=False,
                 desc="SimHashing...",  # type: ignore
             )
 
@@ -404,7 +403,7 @@ def main(
                     num_shards=NUM_SHARDS, index=batch_idx, contiguous=True, writer_batch_size=meta_args.batch_size
                 )
                 for idx, keys, sig in tqdm(
-                    zip(embedded_shard["__id__"], embedded_shard["__keys__"], embedded_shard["__signature__"]),
+                    zip(embedded_shard[INDEX_COLUMN], embedded_shard[KEY_COLUMN], embedded_shard[SIGNATURE_COLUMN]),
                     desc="Indexing...",
                     leave=False,
                     total=len(embedded_shard),
@@ -429,8 +428,8 @@ def main(
 
         with timer("Filtering"), DisableReferenceCount():
             ds = ds.map(
-                function=lambda _, idx: {"__cluster__": uf.find(idx)},
-                with_indices=True,
+                function=lambda record: {CLUSTER_COLUMN: uf.find(record[INDEX_COLUMN])},
+                with_indices=False,
                 num_proc=io_args.num_proc,  # type: ignore
                 new_fingerprint=str(random.getrandbits(128)),  # type: ignore
                 desc="Finding clusters...",  # type: ignore
@@ -439,18 +438,17 @@ def main(
             # Since there is no easy groupby in datasets
             # I will use this simple filter for now
             final_data = ds.filter(
-                function=lambda record, idx: record["__cluster__"] == idx,
-                with_indices=True,
+                function=lambda record: record[CLUSTER_COLUMN] == record[INDEX_COLUMN],
+                with_indices=False,
                 num_proc=io_args.num_proc,
                 desc="Filtering clusters...",
             )
 
         with timer("Saving"):
-            final_data = final_data.remove_columns(["__cluster__"])
+            final_data = final_data.remove_columns([CLUSTER_COLUMN, INDEX_COLUMN])
             final_data.save_to_disk(io_args.output)
             if io_args.debug:
-                with open(os.path.join(io_args.output, "uf.pkl"), "wb") as f:
-                    pickle.dump(uf, f, protocol=pickle.HIGHEST_PROTOCOL)
+                uf.dump(path=os.path.join(io_args.output, "uf.pkl"), id2id=id2id)
 
         with timer("Cleaning"):
             if io_args.clean_cache:
diff --git a/text_dedup/suffix_array.py b/text_dedup/suffix_array.py
index b695add..3fe7b4d 100644
--- a/text_dedup/suffix_array.py
+++ b/text_dedup/suffix_array.py
@@ -16,7 +16,6 @@
 
 import click
 import datasets
-from datasets import Dataset
 
 from text_dedup import logger
 from text_dedup.utils import IOArgs
@@ -321,7 +320,7 @@ def main(
 
     with timer("Total"):
         with timer("Loading"):
-            ds: Dataset = load_hf_dataset(io_args)
+            ds, _ = load_hf_dataset(io_args=io_args, meta_args=meta_args)
 
         with timer("Preprocessing"):
             offsets: list[slice] = []
diff --git a/text_dedup/utils/__init__.py b/text_dedup/utils/__init__.py
index 84f7460..f82b532 100644
--- a/text_dedup/utils/__init__.py
+++ b/text_dedup/utils/__init__.py
@@ -2,6 +2,7 @@
 # @Date    : 2022-12-26 15:42:09
 # @Author  : Chenghao Mou (mouchenghao@gmail.com)
 
+from text_dedup.utils.analysis import optimal_param
 from text_dedup.utils.args import BloomFilterArgs
 from text_dedup.utils.args import ExactHashArgs
 from text_dedup.utils.args import IOArgs
@@ -10,8 +11,27 @@
 from text_dedup.utils.args import SAArgs
 from text_dedup.utils.args import SimHashArgs
 from text_dedup.utils.args import UniSimArgs
+from text_dedup.utils.const import CLUSTER_COLUMN
+from text_dedup.utils.const import INDEX_COLUMN
+from text_dedup.utils.hashfunc import md5
+from text_dedup.utils.hashfunc import md5_digest
+from text_dedup.utils.hashfunc import md5_hexdigest
 from text_dedup.utils.hashfunc import sha1_hash
+from text_dedup.utils.hashfunc import sha256
+from text_dedup.utils.hashfunc import sha256_digest
+from text_dedup.utils.hashfunc import sha256_hexdigest
+from text_dedup.utils.hashfunc import xxh3_16hash
+from text_dedup.utils.hashfunc import xxh3_32hash
+from text_dedup.utils.hashfunc import xxh3_64
+from text_dedup.utils.hashfunc import xxh3_64_digest
+from text_dedup.utils.hashfunc import xxh3_128
+from text_dedup.utils.hashfunc import xxh3_128_digest
 from text_dedup.utils.hashfunc import xxh3_hash
+from text_dedup.utils.inspect import random_samples
+from text_dedup.utils.load import load_hf_dataset
+from text_dedup.utils.memory import DisableReferenceCount
+from text_dedup.utils.preprocess import news_copy_preprocessing
+from text_dedup.utils.preprocess import normalize
 from text_dedup.utils.timer import Timer
 from text_dedup.utils.tokenization import ngrams
 from text_dedup.utils.union_find import UnionFind
@@ -30,4 +50,26 @@
     "UnionFind",
     "sha1_hash",
     "xxh3_hash",
+    "load_hf_dataset",
+    "DisableReferenceCount",
+    "random_samples",
+    "normalize",
+    "news_copy_preprocessing",
+    "INDEX_COLUMN",
+    "CLUSTER_COLUMN",
+    "md5",
+    "sha256",
+    "sha1_hash",
+    "xxh3_64",
+    "xxh3_64_digest",
+    "xxh3_128",
+    "xxh3_128_digest",
+    "xxh3_hash",
+    "xxh3_16hash",
+    "xxh3_32hash",
+    "optimal_param",
+    "md5_digest",
+    "md5_hexdigest",
+    "sha256_digest",
+    "sha256_hexdigest",
 ]
diff --git a/text_dedup/utils/hashfunc.py b/text_dedup/utils/hashfunc.py
index 244a45c..2cab4d0 100644
--- a/text_dedup/utils/hashfunc.py
+++ b/text_dedup/utils/hashfunc.py
@@ -255,4 +255,8 @@ def xxh3_hash(data: bytes, d: int = 32) -> int:
     "xxh3_hash",
     "xxh3_16hash",
     "xxh3_32hash",
+    "md5_digest",
+    "md5_hexdigest",
+    "sha256_digest",
+    "sha256_hexdigest",
 ]
diff --git a/text_dedup/utils/load.py b/text_dedup/utils/load.py
index 779f191..0715e42 100644
--- a/text_dedup/utils/load.py
+++ b/text_dedup/utils/load.py
@@ -2,10 +2,12 @@
 from datasets import load_dataset
 from datasets import load_from_disk
 
-from text_dedup.utils.args import IOArgs
+from text_dedup.utils import INDEX_COLUMN
+from text_dedup.utils import IOArgs
+from text_dedup.utils import MetaArgs
 
 
-def load_hf_dataset(io_args: IOArgs) -> Dataset:
+def load_hf_dataset(io_args: IOArgs, meta_args: MetaArgs) -> Dataset:
     """
     A simple wraper to load a huggingface dataset.
 
@@ -13,6 +15,8 @@ def load_hf_dataset(io_args: IOArgs) -> Dataset:
     ----------
     io_args : IOArgs
         The arguments for the dataset to load.
+    meta_args : MetaArgs
+        The arguments for the meta parameters of the dataset to load.
 
     Returns
     -------
@@ -34,5 +38,9 @@ def load_hf_dataset(io_args: IOArgs) -> Dataset:
             num_proc=io_args.num_proc,
             token=io_args.use_auth_token,
         )
-
-    return ds
+    ds = ds.map(lambda x, i: {INDEX_COLUMN: i}, with_indices=True, num_proc=io_args.num_proc)
+    id2id = None
+    if meta_args.idx_column is not None:
+        original_index = ds[meta_args.idx_column]
+        id2id = {idx: oid for idx, oid in zip(ds[INDEX_COLUMN], original_index)}
+    return ds, id2id
diff --git a/text_dedup/utils/union_find.py b/text_dedup/utils/union_find.py
index 99fa0cf..b306b57 100644
--- a/text_dedup/utils/union_find.py
+++ b/text_dedup/utils/union_find.py
@@ -1,7 +1,9 @@
 #!/usr/bin/env python
 # @Date    : 2022-12-26 15:37:44
 # @Author  : Chenghao Mou (mouchenghao@gmail.com)
+import pickle  # nosec
 from collections import Counter
+from pathlib import Path
 
 
 class UnionFind:
@@ -83,3 +85,14 @@ def union(self, x, y):
     def reset(self):
         self.parent = {}
         self.rank = Counter()
+
+    def dump(self, path: str | Path, id2id=None):
+        if id2id is not None:
+            new_uf = UnionFind()
+            for i in self.parent:
+                new_uf.union(id2id[i], id2id[self.find(i)])
+        else:
+            new_uf = self
+
+        with open(path, "wb") as f:
+            pickle.dump(new_uf, f, protocol=pickle.HIGHEST_PROTOCOL)