Skip to content

Úložiště

Rudolf edited this page Feb 6, 2017 · 1 revision

Popis úložšitě

Takhle to vypadá na úložišti, u nějaké netypicky malé sklizně:

Kořenová složka by měla mít sklizené .*arc/warc.gz a složku logs, složka log u starých sklizní není. Jmené konvence jednotlivých arc/warc se měnili v průběhu času.

[root@war 13]# ls -1 serials/Serials-2013-07-1M_ArchiveIt/
logs
Serials-2013-07-1M_ArchiveIt-20130722150002470-00000-5644~crawler00.webarchiv.cz~7778.warc.gz
Serials-2013-07-1M_ArchiveIt-20130722150008042-00001-5637~crawler02.webarchiv.cz~7778.warc.gz
Serials-2013-07-1M_ArchiveIt-20130722150033856-00002-5644~crawler00.webarchiv.cz~7778.warc.gz
...
Serials-2013-07-1M_ArchiveIt-20130725181227778-00016-5637~crawler02.webarchiv.cz~7778.warc.gz

Výpis složky logs

[root@war 13]# ls -1 serials/Serials-2013-07-1M_ArchiveIt/logs/
crawl
dmdsec
index
Serials-2013-07-1M_ArchiveItharvest.xml

Složka: crawl obsahuje logy z Heritrixu
Složka: index obsahuje nesetřízené CDX (soupis URL pro OpenWayback, jeden warc = jeden CDX).
Složka: dmdsec obsahuje popis zpřístupněných webů (více ví Jára). Kořenový soubor s xml obsahuje metadata sklizně. Tahle struktura je potřebná, aby šlo sklizeň importovat do LTP. Imho zajímavé informace by byla, kdyby nám Grainer řekl, které sklizně jsou LTP-ready a které ne - případně, co jim chybí.

[root@war 13]# ls -1 serials/Serials-2013-07-1M_ArchiveIt/logs/*
serials/Serials-2013-07-1M_ArchiveIt/logs/Serials-2013-07-1M_ArchiveItharvest.xml

serials/Serials-2013-07-1M_ArchiveIt/logs/crawl:
Serials-2013-07-1M_ArchiveIt-crawler00.tar.gz
Serials-2013-07-1M_ArchiveIt-crawler01.tar.gz
Serials-2013-07-1M_ArchiveIt-crawler02.tar.gz

serials/Serials-2013-07-1M_ArchiveIt/logs/dmdsec:
Mets_abclinuxu.cz.xml
Mets_aerofilms.cz.xml
...
Mets_aeroweb.cz.xml

serials/Serials-2013-07-1M_ArchiveIt/logs/index:
Serials-2013-07-1M_ArchiveIt-20130722150002470-00000-5644~crawler00.webarchiv.cz~7778.warc.gz.cdx
Serials-2013-07-1M_ArchiveIt-20130722150008042-00001-5637~crawler02.webarchiv.cz~7778.warc.gz.cdx
...
Serials-2013-07-1M_ArchiveIt-20130725181227778-00016-5637~crawler02.webarchiv.cz~7778.warc.gz.cdx
Clone this wiki locally