The text displayed may contain some errors. The text of this document has been generated automatically by an optical character recognition (OCR) program. The
+estimated recognition rate for this document is 0%.
SOMMAIRE DE FIGARO PAGE 2. Les Cours, les Ambassades, le Monde et la Ville. LesEchos. La fin du Bulletin vert. 1929-1930.
PAGE 3. La Dernière Heure. Avant la Conférence de La Haye. Les méfaits de la tempête.
PAGE 4. La Vie sportive. Revue de la Presse. Anne Douglas Sedgwick Marthe Ludérac.
PAGE 5. Henri Rebois L'Art espagnol à l'Exposition de Barcelone. Robert Brussel Le Mouvement musical. Guy de Passillé Les Etrennes. Jacques Patin Les Premières. Les Alguazils Courrier des Lettres. Marc Hélys Revues étrangères. PAGE 6. La Bourse La Cote des Valeurs. Le Programme des spectacles.
PAGE 7. Courrier des théâtres. Les Courses LA POLITIQUE
Ladiplomatie
diff --git a/backend/corpora/gallica/tests/data/figaro/Years.xml b/backend/corpora/gallica/tests/data/figaro/Years.xml
new file mode 100644
index 000000000..4ca05725c
--- /dev/null
+++ b/backend/corpora/gallica/tests/data/figaro/Years.xml
@@ -0,0 +1,102 @@
+
+
+1854
+1855
+1856
+1857
+1858
+1859
+1860
+1861
+1862
+1863
+1864
+1865
+1866
+1867
+1868
+1869
+1870
+1871
+1872
+1873
+1874
+1875
+1876
+1877
+1878
+1879
+1880
+1881
+1882
+1883
+1884
+1885
+1886
+1887
+1888
+1889
+1890
+1891
+1892
+1893
+1894
+1895
+1896
+1897
+1898
+1899
+1900
+1901
+1902
+1903
+1904
+1905
+1906
+1907
+1908
+1909
+1910
+1911
+1912
+1913
+1914
+1915
+1916
+1917
+1918
+1919
+1920
+1921
+1922
+1923
+1924
+1925
+1926
+1927
+1928
+1929
+1930
+1931
+1932
+1933
+1934
+1935
+1936
+1937
+1938
+1939
+1940
+1941
+1942
+1944
+1945
+1946
+1947
+1948
+1949
+1950
+1951
+1952
+1953
+
diff --git a/backend/corpora/gallica/tests/test_import.py b/backend/corpora/gallica/tests/test_import.py
new file mode 100644
index 000000000..72ad4bb36
--- /dev/null
+++ b/backend/corpora/gallica/tests/test_import.py
@@ -0,0 +1,33 @@
+from datetime import datetime
+import requests
+
+from conftest import mock_response
+from addcorpus.python_corpora.load_corpus import load_corpus_definition
+
+
+target_documents = [
+ {
+ "content": "SOMMAIRE DE FIGARO PAGE 2. Les Cours, les Ambassades, le Monde et la Ville. Les Echos. La fin du Bulletin vert. 1929-1930. PAGE 3. La Dernière Heure. Avant la Conférence de La Haye. Les méfaits de la tempête. PAGE 4. La Vie sportive. Revue de la Presse. Anne Douglas Sedgwick Marthe Ludérac. PAGE 5. Henri Rebois L'Art espagnol à l'Exposition de Barcelone. Robert Brussel Le Mouvement musical. Guy de Passillé Les Etrennes. Jacques Patin Les Premières. Les Alguazils Courrier des Lettres. Marc Hélys Revues étrangères. PAGE 6. La Bourse La Cote des Valeurs. Le Programme des spectacles. PAGE 7. Courrier des théâtres. Les Courses LA POLITIQUE La diplomatie ",
+ "contributor": [
+ "Villemessant, Hippolyte de (1810-1879). Directeur de publication",
+ "Jouvin, Benoît (1810-1886). Directeur de publication",
+ ],
+ "date": "1930-01-01",
+ "id": "bpt6k296099q",
+ "issue": "01 janvier 19301930/01/01 (Numéro 1).",
+ "url": "https://gallica.bnf.fr/ark:/12148/bpt6k296099q",
+ }
+]
+
+def test_gallica_import(monkeypatch, gallica_corpus_settings):
+ monkeypatch.setattr(requests, "get", mock_response)
+ corpus_def = load_corpus_definition("figaro")
+ sources = corpus_def.sources(
+ start=datetime(year=1930, month=1, day=1),
+ end=datetime(year=1930, month=12, day=31),
+ )
+ documents = list(corpus_def.documents(sources))
+ assert len(documents) == 1
+ for document, target in zip(documents, target_documents):
+ for target_key in target.keys():
+ assert document.get(target_key) == target.get(target_key)
diff --git a/backend/requirements.txt b/backend/requirements.txt
index be911bd7c..3ac3fa29f 100644
--- a/backend/requirements.txt
+++ b/backend/requirements.txt
@@ -132,7 +132,7 @@ h11==0.14.0
# wsproto
humanize==4.9.0
# via flower
-ianalyzer-readers==0.2.1
+ianalyzer-readers==0.2.2
# via -r requirements.in
idna==3.4
# via
@@ -249,7 +249,9 @@ pygments==2.16.1
# rich
# seleniumbase
pyjwt[crypto]==2.8.0
- # via django-allauth
+ # via
+ # django-allauth
+ # pyjwt
pynose==1.4.8
# via seleniumbase
pyopenssl==23.2.0