-
Notifications
You must be signed in to change notification settings - Fork 0
Úložiště
Rudolf edited this page Feb 6, 2017
·
1 revision
Kořenová složka by měla mít sklizené .*arc/warc.gz a složku logs, složka log u starých sklizní není. Jmené konvence jednotlivých arc/warc se měnili v průběhu času.
[root@war 13]# ls -1 serials/Serials-2013-07-1M_ArchiveIt/
logs
Serials-2013-07-1M_ArchiveIt-20130722150002470-00000-5644~crawler00.webarchiv.cz~7778.warc.gz
Serials-2013-07-1M_ArchiveIt-20130722150008042-00001-5637~crawler02.webarchiv.cz~7778.warc.gz
Serials-2013-07-1M_ArchiveIt-20130722150033856-00002-5644~crawler00.webarchiv.cz~7778.warc.gz
...
Serials-2013-07-1M_ArchiveIt-20130725181227778-00016-5637~crawler02.webarchiv.cz~7778.warc.gz
Výpis složky logs
[root@war 13]# ls -1 serials/Serials-2013-07-1M_ArchiveIt/logs/
crawl
dmdsec
index
Serials-2013-07-1M_ArchiveItharvest.xml
Složka: crawl obsahuje logy z Heritrixu
Složka: index obsahuje nesetřízené CDX (soupis URL pro OpenWayback, jeden warc = jeden CDX).
Složka: dmdsec obsahuje popis zpřístupněných webů (více ví Jára).
Kořenový soubor s xml obsahuje metadata sklizně. Tahle struktura je potřebná, aby šlo sklizeň importovat do LTP. Imho zajímavé informace by byla, kdyby nám Grainer řekl, které sklizně jsou LTP-ready a které ne - případně, co jim chybí.
[root@war 13]# ls -1 serials/Serials-2013-07-1M_ArchiveIt/logs/*
serials/Serials-2013-07-1M_ArchiveIt/logs/Serials-2013-07-1M_ArchiveItharvest.xml
serials/Serials-2013-07-1M_ArchiveIt/logs/crawl:
Serials-2013-07-1M_ArchiveIt-crawler00.tar.gz
Serials-2013-07-1M_ArchiveIt-crawler01.tar.gz
Serials-2013-07-1M_ArchiveIt-crawler02.tar.gz
serials/Serials-2013-07-1M_ArchiveIt/logs/dmdsec:
Mets_abclinuxu.cz.xml
Mets_aerofilms.cz.xml
...
Mets_aeroweb.cz.xml
serials/Serials-2013-07-1M_ArchiveIt/logs/index:
Serials-2013-07-1M_ArchiveIt-20130722150002470-00000-5644~crawler00.webarchiv.cz~7778.warc.gz.cdx
Serials-2013-07-1M_ArchiveIt-20130722150008042-00001-5637~crawler02.webarchiv.cz~7778.warc.gz.cdx
...
Serials-2013-07-1M_ArchiveIt-20130725181227778-00016-5637~crawler02.webarchiv.cz~7778.warc.gz.cdx
Postup extrakce provozních metadat
Grainery frontend