V současné době Národní knihovna České republiky začala ukládat shromážděná data z archivu českého webu do úložiště dlouhodobé ochrany digitálních dokumentů. Článek se věnuje výstupu projektu Institucionální vědy a výzkumu, který má za cíl vytvořit plán pro retrospektivní analýzu souborových formátů nad celým webovým archivem a zmapovat nástroje, které tuto identifikaci provádějí. Podrobná znalost archivovaných dat umožní jejich kontrolu, která poskytne možnost vytvořit budoucí strategii jejich dlouhodobé ochrany. V neposlední řadě výstupy analýzy mohou vést ke zlepšení podmínek zpřístupnění archivovaných dat koncovému uživateli.
National Library of the Czech Republic just begun to ingest harvested data from web archiving project into Long-term Preservation System. This article is output of Institutional Science and Research project aiming to implement retrospective file format recognition framework for harvested data and map tools related to file format recognition. Precise knowledge of archived data is cornerstone for building Long-term Preservation Strategy. Such analysis may also improve conditions of end-user access.
souborové formáty; web archiv; dlouhodobá ochrana digitálních dokumentů; Heritrix; archivace; Národní digitální knihovna; ARC; WARC
file formats; web archive; long term preservation; Heritrix; archiving; National digital library; ARC; WARC
[3]
Co je WebArchiv?. WebArchiv: archiv českého webu [online]. [cit. 2013-06-21]. Dostupné z:
http://www.webarchiv.cz/
[4] CUBR, Ladislav. Dlouhodobá ochrana digitálních dokumentů. 1. vyd. Praha: Národní knihovna České republiky, 2010, 154 s. ISBN 978-80-7050-588-5.
[5] DAY, Michal. The Long-Term Preservation of Web Content. MASANÈS, Julien. Web archiving. Online-Ausg. New York: Springer, c2006, s. 177-199. ISBN 3540233385-.
[7] HUTAŘ, Jan, Marek MELICHAR a Bohdana STOKLASOVÁ. Národní digitální knihovna. Knihovna. 2009, roč. 20, č. 1, s. 6-21.
[9] ROSENTHAL, Colin, Asger BLEKINGE-RASMUSSEN a Jan HUTAŘ. Průvodce plánem důvěryhodného digitálního repozitáře (PLATTER). 1. vyd. Praha: Národní knihovna České republiky, 2009, 51 s. ISBN 978-807-0505-694.