ıllı Internet y Tecnologías de la Información (2018)

internet, Hosting, dominios, seo, antivirus, banco de imágenes, páginas web, tiendas online

[Enciclopedia Online Gratuita] Diccionario de Internet y Tecnologías de la Información y la Comunicación (TIC):

ıllı PADICAT wiki: info, historia y vídeos

videos internet

salud  PADICAT 


Web de PADICAT 2011

El PADICAT nació el dos mil cinco siguiendo la tendencia de otras bibliotecas nacionales en la creación de ficheros web, y como contestación a la publicación por la parte de la UNESCO de las Indicaciones para la preservación del patrimonio digital.


Hay abundantes ficheros web en funcionamiento. Los más conocidos son asimismo los que hicieron los primeros pasos el año 1996: el sueco Kulturarw3; el australiano Pandora, y el conocido repositorio web de alcance internacional, Internet Archive.


El análisis de estas experiencias vanguardistas y de siguientes, dan paso a la planificación del proyecto PADICAT siguiendo la tendencia extendida en el mundo entero de un modelo híbrido de funcionamiento, complementando la atrapa periódica de un dominio geográfico entero (en un caso así el .cat), con acciones selectivas, y ampliando esta cobertura a diferentes sucesos de interés social que producen una actividad intensa en internet (procesos electorales, por servirnos de un ejemplo) o bien con bultos web agrupados por una misma temática (museos de Cataluña, músicafolk rock catalana en internet, etcétera). En el caso de PADICAT, esto se complementa con las aportaciones ciudadanas mediante las webs recomendadas.


En junio de dos mil cinco la Biblioteca de Catalunya empezó la fase preliminar, de planificación, en la que se efectuó el análisis de los proyectos y recursos existentes, los agentes implicados en la producción de webs en Cataluña y los aspectos legales que condicionan las prácticas que se quieren realizar.


Sobre la base de unos factores definidos por la Biblioteca de Catalunya, el veintiuno de julio de dos mil seis se comenzaron a compilar de forma automatizada las webs susceptibles de ser parte del patrimonio digital de Cataluña. El once de septiembre de dos mil seis, coincidiendo con la celebración de la Diada Nacional de Catalunya, el portal web de PADICAT se abrió al público, con treinta webs guardadas.


El periodo dos mil seis-ocho representa la fase de producción, del plan conduzco del proyecto, la fase de explotación de PADICAT: la atrapa sistemática de las páginas de Cataluña.


El periodo dos mil nueve-dos mil once ha tolerado a la BC contar con un escenario inmejorable en el que este sistema, que es vanguardista en España y de referencia en Europa, marcha a máximo rendimiento. En paralelo, se han cerrado pactos de colaboración con más de cuatrocientos cincuenta instituciones de todo género, y se ha garantizado el acceso en abierto, on-line, a toda la compilación.


El once de septiembre de dos mil once, coincidiendo nuevamente con la Diada Nacional de Catalunya y con el quinto aniversario de la puesta en funcionamiento de su página web, se ha estrenado una nueva versión del portal web de acceso a los contenidos depositados en PADICAT.


En data de noviembre de dos mil doce, PADICAT ya tiene preservadas cincuenta y ocho y ciento veintidos webs, doscientos cuarenta y nueve mil seiscientos nueve atrapas, trescientos cuarenta y nueve millones de archivos y trece Tb de espacio que son consultables de forma libre y gratis.


Misión y objetivos


La misión de PADICAT es atrapar, preservar y propagar el patrimonio digital de Cataluña natural de Internet. Sus objetivos son:



  • Compilar de forma masiva el dominio .cat, merced al acuerdo firmado con la Fundació puntCAT.
  • Impulsar el depósito sistemático de la producción web de las entidades y las compañías de Cataluña.
  • Promover líneas de investigación procesando de forma monográfica los recursos de acontecimientos de la vida pública catalana, como campañes electorales en Internet, el fenómeno de la música on-line, o bien los museos en Internet.

Después de unas etapas de nacimiento (dos mil cinco-dos mil seis), desarrollo (dos mil siete-dos mil ocho) y consolidación (dos mil nueve-dos mil once), desde el dos mil doce se persigue sistematizar la capacidad de desarrollo con la meta de agregar anualmente unas setenta y cinco y setecientos versiones de más o menos treinta y dos páginas, procedentes de:



  • Compilación semestral de treinta.000 recursos del dominio.cat.
  • Compilación semestral de quinientos cincuenta recursos de las más de cuatrocientos cincuenta entidades con las que se ha llegado a un acuerdo de colaboración.
  • Compilación semestral de los recursos provenientes de las recomendaciones de los usuarios.
  • Compilación diaria de una parte substancial de treinta publicaciones seriadas on line.

A estas metas específicas se agregan 4 ejes permanentes de trabajo:



  • Definición de las estrategias de preservación digital para el patrimonio natural de Internet. PADICAT da radiografías periódicas de la página web catalana; advierte los formatos que experimentan en un corto plazo inconvenientes de ilegibilidad; identifica los lenguajes más utilizados, etc.
  • Impulso a líneas de investigación desde la creación de compilaciones monográficas que cuentan con la implicación de especialistas de cada materia.
  • Creación y mantenimiento de la hemeroteca digital en Internet, con la atrapa sistematizada de publicaciones digitales en serie. En nuestros días, con una muestra representativa en lo que se refiere a tipos y contenidos, eligiendo las nacidas digitales, sin equivalente analógico.
  • Cooperación con otros ficheros web y depósitos de preservación digital, de bibliotecas, ficheros y museos, para dar una contestación eficaz a los desafíos de preservación digital y acceso a los recursos depositados.

Funcionamiento

Funcionamiento del software de PADICAT

El sistema se fundamenta en la aplicación de una serie de programas informáticos que dejan la atrapa, el almacenaje, la organización y el acceso permanente a las webs publicadas en Internet. Más tarde a la fase de análisis y test de software se determinó que se emplearía el programa informático Heritrix, empleado en la mayoría de proyectos de atrapa de recursos digitales. Este es el programa encargado de compendiar las webs como las ve el usuario que navega por Internet y guardarlas en ficheros comprimidos en formato .arc o bien WARC. Ahora, el programa Heritrix se complementa con NutchWax, o la combinación de Haddoop y Wayback, que hacen unos procesos de indexación de la información compilada que dejan, después, usar estos índices para encontrar los recursos en la compilación a través de sus respectivas interfaces de consulta: Wera, que deja la busca por palabras clave por medio de los índices generados por NutchWax; y Wayback, que deja la consulta directa por URL en los índices generados por Hadoop y exactamente el mismo Wayback.


Se ha aprovechado el programa Web Curator Tool, desarrollado por la National Library of New Zealand y la Biblioteca Británica, como sistema de administración reportaje que deja la asignación de metadatos a una parte significativa de la compilación, con la pretensión de poder integrar, en el futuro, el fondo del depósito a la busca en otros catálogos, tanto de la Biblioteca de Cataluña, como de otras instituciones. Hoy en día, ya se efectúa la catalogación de las páginas usando el software CAT efectuado por los técnicos del CESCA de manera expresa para el proyecto.

Servidores de PADICAT en el CESCA

Respecto al hardware que mantiene el sistema, se cuenta con 6 nodos HP ProLiant DL360 G4p, encargados de las labores de recolección y también indexación de las webs. De la busca y la visualización de resultados en la interfaz web, se hace cargo de ello un clúster Linux de alta disponibilidad con peculiaridades de balanceo de carga de solicitudes y de tolerancia de fallos en el caso de desastre técnico de nódulos que integran la plataforma. Una cabina NetApp FAS3170 presenta un espacio de 19TB de disco vía NFS a estos nodos.


Los nodos están conectados a través de fibra a una Storage Área Network (SAN) y el sistema se completa con un robot donde se guardan, en cinta, copias de respaldo de los datos.


Está prevista la inclusión paralela de los contenidos depositados en PADICAT al sistema COFRE (COnservem per al Futur Recursos Electrònics), un instrumento de preservación en alta seguridad creado desde la propia experiencia de la Biblioteca de Catalunya.


  ELIGE TU TEMA DE INTERÉS: 


autoayuda.es   Internet y Tecnologias 

Está aquí: Inicio > [ INTERNET ] > ıllı PADICAT wiki: info, historia y vídeos

Las cookies nos permiten ofrecer nuestros servicios. Al utilizar nuestros servicios, aceptas el uso que hacemos de las cookies. Ver políticas