[Enciclopedia Online Gratuita] Diccionario de Internet y Tecnologías de la Información y la Comunicación (TIC):
ıllı Estándar de exclusión de robots : que es, definición y significado, descargar videos y fotos.
La información contenida en esta web debe ser considerada como información general, de carácter formativo, educativo o divulgativo, y no puede ser utilizada o interpretada como consejo o diagnótico médico, psicológico o de ningún otro tipo. Es posible que algunos datos mostrados no esten actualizados. Por ello, en caso de duda lo recomentable es consultar a un experto cualificado.
- Detalles
- Categoría: INTERNET
ıllı Estándar de exclusión de robots : que es, definición y significado, descargar videos y fotos.
El estándar de exclusión de robots, asimismo conocido como el protocolo de la exclusión de robots o bien protocolo de robots.txt es un procedimiento para eludir que algunos bots que examinan los sitios Web o bien otros robots que estudian todo o bien parte del acceso de un lugar Web, público o bien privado, añadan información superflua a los resultados de la búsqueda. Los robots son de empleo usual por los buscadores web para clasificar ficheros de los sitios Webs, o bien por los administradores web para corregir o bien filtrar el código fuente. Un fichero robots.txt en un sitio va a funcionar como una solicitud que detalla que ciertos robots no hagan caso a ficheros o bien directorios concretos en su busca. Esto puede efectuarse, por servirnos de un ejemplo, para dejar fuera de una preferencia los resultados de una busca avanzada, o bien de la creencia que el contenido de los directorios escogidos puede ser ilusorio o bien inaplicable a la clasificación del lugar en su totalidad. Este protocolo es consultivo. Confía en la colaboración de los robots del lugar Web, de forma que marca una o bien más áreas de un lugar fuera de los límites de busca con el empleo de un fichero robots.txt, si bien este no necesariamente garantice aislamiento completo. Ciertos administradores de sitios Web usan el fichero robots.txt para hacer ciertas secciones privadas, invisibles al resto del planeta, mas puesto que los ficheros están libres en forma pública, su contenido podría ser visto de todas y cada una formas por cualquier persona con un navegador Web y conocimientos mínimamente avanzados.En ciertos casos el incluir un directorio en este fichero le anuncia su presencia a posibles piratas informáticos, de esta forma pueden determinar de manera fácil ciertos softwares utilizados en el lugar a través de buscar "huellas habituales" en el robots.txt. Cabe resaltar que el comodín (*) significa "ALL" (en castellano «todos») Cabe resaltar que el comodín (/), le niega el acceso la entrada al bot. El resto de ficheros del directorio proseguirán estando disponibles Los robots de los buscadores web son sensibles a las mayúsculas y minúsculas, es esencial añadirlos como aparecen listados en el servidor, para una buena programación y comprensión (robot-servidor).El fichero robots.txt
User-agent: *Disallow:
User-agent: *Disallow: /
User-agent: Unsolobot # Donde Unsolobot es el nombre del bot al que le queremos permitir el accesoDisallow: Usuario-agent: *Disallow: /
User-agent: *Disallow: /cgi-bin/Disallow: /images/Disallow: /tmp/Disallow: /private/
User-agent: BadBot # reemplazar 'BadBot' con el nombre del botDisallow: /private/
User-agent: *Disallow: /directory/file.html
# Los comentarios aparecen tras el símbolo "#"al principio de una línea o bien al final de un directorioUser-agent: * # todos y cada uno de los botsDisallow: / # impedir su entrada
robots.txt de una página ficticia
User-agent: *Disallow:/portal/Disallow:/portal/Disallow:/wp-*Disallow:/?FICTICIA=LADRONES=MONOPOLIODisallow:/?MonopolioDisallow:/?FicticiaDisallow:/?Disallow:/?*Disallow:/author/Disallow:/category/Disallow:/portal/Disallow:/search/Disallow:/home2/Disallow:/sg0-no-tocar/Disallow:/sg1-no-tocar/Disallow:/sg2-no-tocar/Disallow:/sg3-no-tocar/Disallow:/sg4-no-tocar/Disallow:/sg5-no-tocar/Disallow:/sg-cinco-no-tocar/Disallow:/sg-cuatro-no-tocar/Disallow:/sg-tres-no-tocar/Disallow:/sg-dos-no-tocar/Disallow:/sg-1-no-tocar/Disallow:/sg*Disallow:/search/search-es.jsp?texto=<a href="/">ladrones</a>Disallow:/search/search-es.jsp?texto= por ciento 3Cscript por ciento 3Ealert( por ciento 22efectivamente, por ciento 20somos por ciento 20unos por ciento 20ladrones por ciento 22); por ciento 3C/script por ciento 3EDisallow:/search/search-es.jsp?texto= por ciento 3Ch1 por ciento 3ESomos por ciento 20unos por ciento 20ladrones por ciento 20salgamos por ciento 20primeros por ciento 20en por ciento 20google por ciento 20o por ciento 20no por ciento 3C/h1 por ciento 3EDisallow:/search/search-es.jsp?texto= por ciento 3Ca por ciento 20href= por ciento 22 por ciento 22 por ciento 3Eladrones por ciento 3C/a por ciento 3EDisallow:/?utm_source=example.com/blog
Observaciones
Véase también
Enlaces externos