No mundo atual, Arquivamento da web é um tema que tem ganhado relevância em diversas áreas da sociedade. Da política à cultura popular, Arquivamento da web captou a atenção de milhões de pessoas em todo o mundo. O seu impacto tem-se reflectido nas discussões académicas, nos debates políticos e na vida quotidiana das pessoas. Neste artigo, exploraremos as diferentes facetas de Arquivamento da web e como ela moldou e transformou a maneira como vivemos, pensamos e nos relacionamos com o mundo que nos rodeia.
Arquivamento da web ou arquivamento da internet é o processo de coleta e preservação de porções da internet em um arquivo, como um site de arquivamento, para futuros pesquisadores, historiadores e ao público interessado em visualizar versões de páginas antigas ou não mais existentes. Devido à volatilidade da Web, a maioria da informação deixa de estar disponível passado pouco tempo. Após um ano, apenas 20% dos endereços se mantém válidos. E devido ao enorme tamanho da internet, os arquivistas normalmente empregam web crawlers, programas para realizar o processo automaticamente. A maior organização de arquivamento da internet com base em abordagem de rastreamento é a Internet Archive, que se esforça para manter um arquivo de toda a internet. Bibliotecas e arquivos nacionais, consórcios e vários tipos de organizações também estão envolvidos no arquivamento de conteúdo culturalmente importante. Programas e serviços comerciais de arquivamento também estão disponíveis para organizações e empresas que necessitam arquivar seus próprios conteúdos para propósitos patrimoniais, regulamentais ou legais.
Geralmente, arquivistas da internet arquivam todos os tipos de conteúdo, incluindo páginas HTML, folhas de estilo, JavaScript, imagens e vídeos. Também arquivam metadados sobre o conteúdo coletado, tais como data e hora de acesso, tipo MIME e tamanho. Esses metadados são úteis para estabelecer a autenticidade e procedência da coleção arquivada.
A técnica mais comum de arquivamento usa web crawlers para automatizar o processo de coleta de páginas. Web crawlers tipicamente visualizam páginas da web da mesma forma que os usuários visualizam com navegadores e, portanto, fornecem um método relativamente simples de colheita remota do conteúdo. Exemplos de web crawlers usados para arquivamento da web incluem:
Existem numerosos serviços que podem ser usados para arquivar conteúdo "on-demand" (sob demanda), utilizando técnicas de web crawling.
Refere-se ao arquivamento do conteúdo subjacente de sites que funcionam baseados em bancos de dados. Geralmente requer a extração do conteúdo do banco de dados, muitas vezes usando XML. Uma vez armazenados em um formato padrão, o conteúdo de várias bases de dados arquivado pode então ser disponibilizado, utilizando um sistema de acesso único. Esta abordagem é exemplificada pelas ferramentas DeepArc e Xinq, desenvolvidas pela Biblioteca Nacional da França e pela Biblioteca Nacional da Austrália, respectivamente. A ferramenta DeepArc permite que a estrutura de um banco de dados seja mapeado em um esquema XML, e o conteúdo exportado em um documento XML. Xinq, então, permite que o conteúdo seja disponibilizado online. Embora o layout e comportamento original do site não possam ser preservados com exatidão, Xinq permite que a consulta e as funcionalidades básicas sejam replicadas.
Arquivos da Web que dependem do rastreio automatizado como seu principal meio de arquivamento são influenciados por dificuldades de rastreamento automatizado:
No entanto, é importante notar que um arquivo da internet em formato nativo, ou seja, um arquivo totalmente navegável, com links funcionais, mídia e etc., só é realmente possível utilizando tecnologias de crawlers.
A internet é tão grande que o rastreamento de uma parcela significativa exige um grande monte de recursos técnicos. A internet está mudando tão rapidamente que partes de um site podem mudar antes mesmo de um rastreador terminar o arquivamento.
Não só com desafios técnicos os arquivistas da internet devem lidar, eles também devem lidar com as leis de propriedade intelectual. Peter Lyman afirma que "embora a Web seja considerada popularmente como um conteúdo de domínio público, ela tem direitos de autor, assim, os arquivistas não têm nenhum direito legal de copiar a Web". No entanto, bibliotecas nacionais em muitos países têm o direito legal de copiar partes da Web em uma extensão de depósito legal.
Alguns arquivos privados sem fins lucrativos, que são publicamente acessíveis, como WebCite ou o Internet Archive, permitem aos donos de conteúdo esconder ou remover conteúdo arquivado. Outros arquivos só são acessíveis a partir de determinados locais ou têm uso regulamentado. WebCite cita uma recente ação judicial contra o cache do Google, que o Google ganhou.
Curadoria da internet, como qualquer curadoria digital, implica:
Assim, além da discussão sobre os métodos de arquivamento da Web, também a discussão a respeito do fornecimento de acesso, certificação e organização deve ser incluída. Há um conjunto de ferramentas populares que aborda estes passos de curadoria:
Um conjunto de ferramentas para curadoria da Web do International Internet Preservation Consortium:
Outras ferramentas de código aberto para manipulação de arquivos da web: