Descargate un Sitio Web! Completa!

Descargate un Sitio Web! Completa!








Puede que siempre has descargado una pagina web, la que fuera... Por falta de tiempo y para personas que no tenemos internet en casa... 
Pero no seria acaso interezante descargar todas las paginas web de un sitio web con todo su contenido la que fuera?. 


Hoy traigo a IDENTI: HTTrack... 


Aclaro términos: 

*Sitio Web: Conjunto de páginas web enlazadas por hipervínculos internos y externos. 
*Página Web: Una sola pagina donde puede haber texto, imágenes, videos, links, animaciones, etc. 
*Mirror(Espejo): Proceso mediante el cual se descarga un sitio web, utilizando la metáfora "espejo". 


Información


Httrack es un programa libre distribución y muy sencillo de usar. Te permite descargar un sitio web completo, con todas sus imágenes, videos, archivos de descarga (siempre y cuando sean de propio servidor; no MEGA, RAPIDSHARE, MEDIAFIRE etc). 


Es una herramienta potente para usuario offline, porque al descargar todo el sitio web, accediendo a ella desde una Pc Offline (Sin Internet), puedes utilizar el sitio como si fuera que estas conectado; porque todos links funcionan.  


Me ha servido bastante para utilizar algunos diseños de páginas para modificarlos, y practicar con html. 



Tutorial de Uso y algunas aclaraciones.


1. Project Name; colocas el nombre del proyecto; ej: "Projecto de Descarga de elsitio.com", 

1.2 Base Path; está la ruta del directorio donde se guardará el sitio web. 


Obs:En el caso de no haber terminado un Projecto anterior, buscar el nombre del Projecto a seguir. 



Next: Siguiente 



2. Action:Selecciona la accion a realizar. 


2.1 Download Web Site(s): Es la accion mas comun en este programa, la cual sirve para descargar el sitio web. 

2.2 Download web site(s) + questions: Descarga el sitio web, y pide confirmacion para la descarga de otros links. 

2.3 Get individual files: Descarga archivos separados de el sitio web. (Ej: archivos Zip, rar, doc, etc) 

2.4 Download all sites in pages (multiple mirror): Descarga todas las paginas web que mencione el sitio web a descargar. 

2.5 Test links in pages (bookmark test): Prueba los link de las paginas si no estan caidas. (ejemplo 404 no found). 

2.6 * Continue interrupted download: Continuas la descarga de un sitio web que a fallado (Crash, interrupciones). 

2.7 * Update existing download: En el caso que tengas un sitio web descargado; actualizas los contenidos. 



3. Web Addresses: (URL): Colocas la URL (direccion del sitio web. Ej; www.elsitio.com) del sitio a descargar. Puede ser una o varias paginas. 


3.1 Set Options: Para establecer opciones para el projecto. 


3.1.1 Proxy: 


3.1.1.1 Proxy; Ingresas un Proxy manualmente, y un puerto. (ej: proxy.myisp.com:8080). 

3.1.1.2 Use proxy for FTP transfers: El motor puede utilizar por defecto del proxy HTTP para todas las FTP (ftp://) las transferencias. La mayoría de los proxies permiten esto, y si estás detrás de un cortafuegos, esta opción le permitirá capturar fácilmente todos los enlaces ftp. Además, las transferencias FTP gestionado por el proxy son más confiables que el motor por defecto cliente FTP. 


Esta opción está activada de forma predeterminada. 


3.1.1.3 Configure: Haga clic en este botón para configurar el proxy. 

Si el proxy necesita autenticación que puede definir el nombre de usuario nombre de usuario / contraseña. 

3.1.1.4 Hide password: Úsalo si no desea mostrar la contraseña (oculta el nombre del proxy) 



3.1.2 Scan Rules: Filtros (exploración reglas) son la opción más importante y poderosa que se puede utilizar: se puede excluir o aceptar subdirectorios, saltar ciertos tipos de archivos, etc .. Si tiene los archivos que faltan (las imágenes en directorios de nivel superior, por ejemplo) el uso de filtros puede ayudarle!.  


3.1.2.1 Exclude link(s): Este botón permite agregar un filtro para excluir un directorio, un dominio, un cierto tipo de archivo. 

3.1.2.2 Include link(s): Este botón permite agregar un filtro para autorizar a un directorio, un dominio, un cierto tipo de archivo ... 


Véase más abajo para saber cómo añadir una regla de filtrado. 


3.1.2.3 Como agregar reglas. 


3.1.2.3.1 Criterio: Seleccionar una regla. 

3.1.2.3.2 String: colocar las palabras claves. 

3.1.2.3.3 Add: Agregar la regla. 



3.1.3 Limits: Limites. 


3.1.3.1 Maximum mirror depth: Definir la profundidad será el motor busca en el sitio de una profundidad de 3 significa que usted cogerá todas las páginas que han indicado, además de todo lo que se puede acceder haciendo doble click en cualquier enlace 


Nota: Esta opción no se llena de manera predeterminada, por lo que la profundidad es infinita. Pero debido a que el motor se mantendrá en el sitio que se indica, sólo los sitios deseados se reflejará, y no todos la web! 


3.1.3.2 Maximum external depth: Definir la profundidad será el motor busca en sitios externos, o en las direcciones que estaban prohibidos. 



Normalmente, HTTrack no va a los sitios externos de forma predeterminada (excepto si está autorizado por los filtros), y evitará las direcciones prohibidas por los filtros. Puede reemplazar este comportamiento, y decirle al motor para recibir cantidades de N "externa" sitios. 


Nota: Utilice esta opción con mucho cuidado, ya que es primordial todas las demás opciones (filtros y el limitador del motor por defecto) 


Nota: Esta opción no se llena de manera predeterminada, por lo que la profundidad es igual a cero. 


3.1.3.3 Maximum size of an HTML file: Definir el mayor archivo HTML se permite que el motor de captura. Esta opción le permite evitar archivos de gran tamaño si no quieres descargarlos. 

3.1.3.4 Max size of a non-HTML file: Definir el mayor archivo no HTML (imágenes, archivos ZIP ..) se permite que el motor de captura. 

Esta opción le permite evitar archivos de gran tamaño si no quieres descargarlos. 

3.1.3.5 Site size limit: Esta opción limita la cantidad total de bytes que se pueden descargar en el espejo actual. 

3.1.3.6 Pause after downloading: Esta opción permite que el motor de hacer una pausa cada vez que se ha recuperado una cantidad específica de bytes. Es útil si va a reflejar un sitio más grande que el espacio disponible: se puede entonces copia de seguridad y borrar los archivos descargados durante la pausa. 

3.1.3.7 Max time overall: Esta opción limita la cantidad total de tiempo que puede ser gastado en el espejo actual.

3.1.3.8 Max transfer rate: Esta opción limita la velocidad de transferencia en el espejo actual 

Útil si no quieres HTTrack de monopolizar el ancho de banda!.  

3.1.3.9 Max connections / seconds: Esta opción limita el número de conexiones por segundo para el espejo actual. Este número puede ser un número de coma flotante (por ejemplo, 0.1 == una conexión por 10 segundos) 


Útiles para limitar la carga del servidor. 


El valor por defecto es 10, pero se puede desactivar con un valor de 0 - ESTO NO ES INFORMADO A MENOS QUE SABE LO QUE ESTÁ HACIENDO (riesgo de sobrecarga del servidor). 


3.1.3.10 Maximum number of links: El número máximo de enlaces que pueden ser analizados, es decir, descarga, o no descargar. No establezca un límite demasiado bajo para que, porque una vez que se alcanza el límite, el motor se detendrá inmediatamente. No establezca un límite demasiado alto, demasiado, porque se parte de la memoria .. 100.000 conexiones (por defecto) es generalmente suficiente. 



3.1.4 Flow Control: Control de Flujo 


3.1.4.1 Number of connections: Definir el número de conexiones simultáneas que puede ser iniciado por el motor. 

Se recomienda limitar este número a 1 o 2 si son archivos grandes reflejo en un sitio, más en los sitios estándar (8, se recomienda, hasta 42 si es respaldada por el sistema). 

3.1.4.2 TimeOut: Definir a qué hora el motor tiene que esperar si no hay respuesta si se le da por un servidor. 

120 segundos, se recomienda (menos de tuberías rápido, más si la conexión es descuidado) 

Si lo desea, puede saltarse todos los enlaces de una serie que ha generado un tiempo de espera.


 

Advertencia: es esta casilla está seleccionada, un tiempo de espera será eliminar todos los enlaces del servidor de origen. 



3.1.4.3 Retries: Número de reintentos si un error no fatal ocurrió (tiempo de espera, por ejemplo) 

Tenga en cuenta que esto no va a resolver errores graves, tales como "Not Found " páginas y así sucesivamente!. 

3.1.4.4 Min Transfer Rate: Tasa mínima de transferencia tolerado en un sitio. Si la tasa de transferencia más lento que si el valor definido, entonces el vínculo se salta. 

Si lo desea, puede saltarse todos los enlaces de una serie que ha generado un "demasiado lento" de error. Advertencia: es esta casilla está seleccionada, un "demasiado lento" errores eliminará todos los enlaces del servidor de origen. 



3.1.5 Links 


3.1.5.1 Attempt to detect all links: Pide el motor para tratar de detectar todos los enlaces en una página, incluso para las etiquetas desconocidas o código javascript desconocido. Esto puede generar solicitudes de mala o error en las páginas, pero puede ser útil para capturar todos los enlaces deseados 

Útil, por ejemplo, en páginas con muchos trucos de Javascript. 

3.1.5.2 Get non-html files related to a link: Esta opción le permite captar todas las referencias de archivo capturado en archivos HTML, incluso los externos 

Por ejemplo, si una imagen en una página HTML tiene su origen en otro sitio web, esta imagen será capturada juntos.. 

3.1.5.3 Test validity of all links: Esta opción obliga al motor a prueba todos los enlaces en las páginas de arañas, es decir, para comprobar si todos los eslabones no es válido o realizando una petición al servidor. Si ha ocurrido un error, se informa al error de archivo de registro. 

Útiles para poner a prueba todos los enlaces externos en una página web. 

3.1.5.4 Get HTML files first: Con esta opción activada, el motor intenta descargar todos los archivos HTML, y luego descargar otros (imágenes) archivos. Esto puede acelerar el proceso de análisis, de manera eficiente analice la estructura de HTML. 



3.1.6 Links: 


3.1.6.1 Local Structure Type: Permite definir la estructura local del sitio. 

El valor por defecto es "la estructura del sitio": usted recibirá la misma carpeta / nombres de archivos y la estructura que el original 

Puede, sin embargo, poner todas las imágenes en una sola carpeta, html en otro y así sucesivamente. 

3.1.6.2 DOS Names: Fuerza el motor para generar nombres de DOS (ocho caracteres para el nombre, 3 para el tipo). 

3.1.6.3 ISO9660 Names: Fuerza de la enginForce el motor para generar nombres compatibles ISO9660-para almacenar en medios como CD-ROM o DVD-ROM. 

3.1.6.4 No error pages: No generar páginas de error (si es un error 404 se produjo, por ejemplo) 

Si una página no se encuentra en el sitio remoto, no habrá ninguna advertencia en el sitio local. 

3.1.6.5 No external pages: No generar páginas de error (si es un error 404 occuredRewrite todos los enlaces externos (links que necesita una conexión a Internet), de modo que no puede haber una página de advertencia antes ("Advertencia, usted necesita estar en línea para ir a este enlace ..". Es útil si desea separar el ámbito local y en línea. 

3.1.6.6 Hide passwords: No incluya nombre de usuario y contraseña para los sitios protegidos en el código, cuando una conexión no van a detener. Esto permite mantener los datos de acceso privado. 

3.1.6.7 Hide query strings: No se incluyen cadenas de consulta para los enlaces locales. Las cadenas de consulta (foo = 45 & bar = 67?) generalmente no son necesarios para la local (file: / /) los archivos, pero las cadenas de consulta pueden ser útiles para mostrar información de varias (por ejemplo: la página-4.html indice = Historia). Sin embargo, algunos navegadores de base no puede entender que (los navegadores inalámbricas, especialmente), y ocultar las cadenas de consulta podría ser una buena idea en este caso. 

3.1.6.8 Do not purge old files: No purga, después de una actualización, los archivos locales que ya no existen en el sitio remoto, o que han sido omitidos. 



3.1.7 Spider. 


3.1.7.1 Accept cookies: Aceptar cookies generadas por el servidor remoto 

Si usted no acepta cookies, algunas "generada por sesión" páginas no se recuperará. 

3.1.7.2 Check document type: Define when the engine has to check document type 

The engine must know the document type, to rewrite the file types. For example, if a link called /cgi-bin/gen_image.cgi generates a gif image, the generated file will not be called "gen_image.cgi" but "gen_image.gif" 

Avoid "never", because the local mirror could be bogus. 

3.1.7.3 Parse java files: Debe analizar el motor. java (clases java) para buscar nombres de archivos incluidos? 

Se comprueba de forma predeterminada. 

3.1.7.4 Spider: Debe seguir las reglas del motor a distancia robots.txt cuando existen? 

El valor predeterminado es "seguir". 

3.1.7.5 Update hack: Intento de limitar las transferencias de ajuste conocido las respuestas falsas de los servidores. Por ejemplo, las páginas con el mismo tamaño se considerará como "al día", aunque la marca de tiempo parece ser diferente. Esto puede ser útil para muchas páginas generadas dinámicamente, pero esto también puede hacer que las páginas no-actualizado en casos excepcionales. 

3.1.7.6 Tolerant requests: Tolerar el tamaño de archivo incorrecto, y hacer las solicitudes cumplen con los servidores de edad 

No está marcada por defecto, ya que esta opción puede provocar que los archivos a ser falsos. 

3.1.7.7 Force old HTTP/1.0 requests: Esta opción obliga al motor a utilizar peticiones HTTP/1.0, y evitar las peticiones HEAD. 

Útil para algunos sitios con versiones de servidor de edad, o con muchas páginas generadas dinámicamente. 




3.1.8 MIME Types 


3.1.8.1 MIME Tipes: 

Una nueva característica importante para algunas personas. Este panel le dice al motor que si una relación se encuentra, con un tipo específico (. cgi,. asp, o. php3 por ejemplo), debe asumir que este vínculo tiene siempre el mismo tipo de MIME, por ejemplo, el "text / html "MIME. Esto es muy importante para acelerar muchos espejos. Algunos grandes archivos HTML que muchos enlaces de tipo desconocido incrustado, por ejemplo ". asp", hacer que el motor para poner a prueba todos los enlaces, y esto ralentiza el analizador. 


En este caso, usted puede decir HTTrack: "las páginas ASP, de hecho, las páginas HTML." 

Esto es posible, mediante: 


Tipo de archivo: asp MIME identidad: text / html 


Puede declarar múltiples definiciones, o declarar varios tipos Separados por "", como en: 

Tipo de archivo: asp, php, php3 identidad MIME: text / html 


La mayoría de los tipos MIME importantes son: 

text / html archivos HTML, analizado por HTTrack 

image / gif archivos GIF 

image / jpeg archivos JPEG 

image / png archivos PNG 

application / x-zip. zip 

application/x-mp3. mp3 

application / x-loquesea. archivos loquesea 

application / octet-stream desconocido archivos 


Puede cambiar el nombre de archivos en un espejo. Si usted sabe que todos los "dat" los archivos son de hecho "zip " en nombre "dat", puede decirle a HTTrack: 

Tipo de archivo: identidad dat MIME: application / x-zip 


También puede "nombre" un tipo de archivo, con su tipo MIME original, si este tipo no es conocido por HTTrack. Esto evitará una prueba cuando el enlace se puede alcanzar: 

Tipo de archivo: identidad foo MIME: application / octet-stream 


En este caso, HTTrack no comprobará el tipo, porque ha aprendido que "foo" es un tipo conocido, o el tipo MIME "application / octet-stream". Por lo tanto, dejará intacto el "foo" tipo. 




3.1.9 Browser ID 


3.1.9.1 Browser "Identity": Escriba aquí el nombre del motor, ya que será visto por los servidores Web 

Por ejemplo, si escribe "Mozilla/4.5 (compatible; MSIE 4.01; Windows 98)" se disfrazan HTTrack en un navegador estándar MSIE4 

Este campo es para fines estadísticos, y se puede introducir lo que quieras, un nombre del navegador que no existe ni siquiera el nombre de su abuela 

Sin embargo, ten en cuenta que varios sitios pueden ofrecer un contenido diferente si el navegador se llama "Netscape" o "Explorer" .. algunos más elitista incluso negarse a entregar nada en función del nombre del navegador. Este caso es raro, por suerte.  


3.1.9.2 HTML Footer: Escriba aquí el texto optionnal que se incluirá como un comentario en cada archivo HTML para hacer el archivo más fácil 

La cadena de entrada es generalmente un comentario HTML (<!-- comentario HTML -> con% s optionnal, que se transformará en una información de la cadena específica: 

% s # 1: nombre de host (por ejemplo, www.someweb.com) 

% s # 2: Nombre del archivo (por ejemplo, / index.html) 

% s # 3: Fecha del espejo 

Ejemplo: <- Página espejo de% s, archivo% s. Fecha del archivo:% s -> 

Nota: Puede seleccionar (ninguno), en este caso no hay comentarios serán añadidos a las páginas. Sin embargo, esto no se recomienda como es posible que desee saber en el futuro en el que la página se ha tenido, cuándo y por qué. 




3.1.10 Log files, Index, Cache 


3.1.10.1 Force to store all files in cache: Fuerza para almacenar todos los archivos en el caché, incluso archivos gif, zip, etc .. 

Sin esta opción, el motor sólo se guardará en caché de archivos HTML para actualizar / continuar propósito. 

Puede ser útil, sin embargo, para mantener todos los archivos en el caché si se desea en el futuro para cambiar la estructura del sitio 



¡Atención! Esta opción apreciablemente inflar el caché que llegará a ser tan grande como el propio espejo!. 



3.1.10.2 Do not re-download locally erased files: This option prevents HTTrack from re-asking a file that exists locally with null size, or that has been erased by the user 

(If the user erased the file, this option will create a null-file to prevent the engine to catch the file next time) 

Useful if you are erasing progressively large files on the local mirror and do not want to reload them!. 

3.1.10.3 Create Log files: Crear archivo de registro en la información, el error y las advertencias sobre el espejo actual se guardarán 

Si no se generan archivos de registro, usted no será capaz de conocer lo que se han producido errores!


 

Se recomienda dejar esta opción activada 


Nota: Puede definir el nivel de depuración de los archivos de registro. El valor predeterminado es "normal".


 

3.1.10.4 Make an index: Generar un index.html en la parte superior de la guía. Muy útil. 

3.1.10.5 Make a word database: Generar una base de datos index.txt en la parte superior de la guía. Muy útil para el análisis lingüístico, esta característica le permitirá a la lista de todas las palabras de todas las páginas reflejado en el proyecto actual. 

Con este archivo de índice, que será capaz de lista de palabras que se han detectado, y dónde. 



3.1.11 Expert Options: 


Consejo: dejar estas opciones con los valores por defecto!  


3.1.11.1 Use a cache for updates: Esta opción deberá ser fijado si desea actualizar el sitio más tarde, o si usted quiere tener la oportunidad de continuar un espejo se estrelló 

Deshabilitar sólo si desea guardar pocos kilobytes, pero se equivocan, una vez más, no se recomienda deshabilitar esta opción!. 

3.1.11.2 Primary filter (scan mode): Que los archivos deben ser salvo? 

Usted puede elegir en HTML y / o no en HTML, o ninguno (esta última opción se ajusta automáticamente para escanear). 

3.1.11.3 Travel mode: Establecer el valor predeterminado rastreo dirección 

El valor predeterminado es coger todos los archivos en el mismo nivel y niveles más bajos, que es la más lógica. 

3.1.11.4 Global travel mode: Establecer el valor predeterminado dirección rastreo global 

El valor predeterminado es permanecer en la misma dirección si no hay autorización específica ha sido entregada.

3.1.11.5 Activate debug mode: Permite a algunas informaciones de depuración extra, como cabeceras de depuración y algunas informaciones de interfaz (para la depuración único propósito). 


*Usted también puede añadir una dirección URL haciendo clic en el botón Agregar una dirección URL. 

*Esta opción le permite definir parámetros adicionales (nombre de usuario / contraseña) para la dirección, o capturar una URL compleja desde el navegador. 



Haga clic en el botón NEXT. 



Ahora estamos listos para comenzar!...  


Si quieren, puede conectar inmediatamente o demorar el espejo. 


Si usted no selecciona nada, HTTrack supone que usted ya está conectado a Internet y que desea iniciar la acción espejo ahora. 


4. Connect to this provider: Puede seleccionar aquí un proveedor específico para conectarse a al comenzar el espejo si no está ya conectado a Internet. 

5. Disconnect when finished: Haga clic en esta casilla para pedir HTTrack para desconectar de la red cuando el espejo está terminado. 

6. Shutdown PC when finished: Haga clic en esta casilla para pedir HTTrack para apagar el ordenador cuando el espejo está terminado. 

7. On Hold: Puede introducir aquí la hora del comienzo del espejo. Usted puede retrasar hasta 24 horas en un espejo de utilizar esta función. 



Haga clic en el botón Finish para Comenzar el Mirror!.  


Ahora nos queda esperar...    


Usted puede cancelar en cualquier momento el espejo, o cancelar los archivos descargados en la actualidad por cualquier motivo (archivo demasiado grande, por ejemplo) 

Las opciones se pueden cambiar durante el espejo: los límites de número máximo de conexiones, ... 



Ahora ver los resultados  


Revise los archivos de registro: 


Usted puede revisar el archivo de registro de error, que podría contener información útil si se han producido errores. 



Observación Final


Sobre los links: Habran dos Links.

- Primer link: Sistema Operativo Windows 2000/XP/Vista/Seven (32bits/x86)
- Segundo link: Sistema Operativo Windows Vista/Seven (64bits/x64).


Cualquier duda o consulta, en los comentarios.

Gracias...[/size][/color]













Enlaces De Descarga
Descargate un Sitio Web! Completa!
55 Puntos Score: 6.9/10
Visitas: 3015 Favoritos: 18
Ver los usuarios que votaron...
13 Comentarios Descargate un Sitio Web! Completa!
pero baja todos los enlaces o los tenemos que cargar primero, osea, entrar a todos y despues hace la descarga? Quiero bajar una pagina con unos textos para la univ pero son un buen de enlaces. Besos
Osea este programa hubiera servido para Guardar toda la pagina de cartoon network cuando aun era bueno?
ya que en el 2006 la pagina tenia buenos juegos y buen dise?
Cita Andreavdf: Mostrar

Tienes que colocar el home o pagina de inicio de la web que quieres descargar.

Ej. www.biblioteca.com

y te descarga completo el sitio web, todos las paginas, subpaginas, los DOC, PDF, PPT, bla bla bla...

Tendrias el Sitio Web, pero offline, sin necesidad de internet para acceder a ella. Una version portable del Sitio Web.
Cita uilp__44a: Mostrar
Cita Shadows_PY: Mostrar
muy interesante...
Muy bueno! tremendo post. Saludos! +10
gracias amigo excelente +10  
Muchas gracias, lo tengo pero el tutorial me aclaro como lo tenia que usar
Para dejar un comentario Registrate! o.. eres ya usuario? Accede!