ene 7 2012
Busquedas avanzadas con un poco de Google Hacking
Hola estimados lectores! espero se encuentren bien, antes de comenzar les deseamos un gran 2012!!!
El día de hoy aprenderemos cómo mejorar la calidad de nuestras búsquedas en la red utilizando lo que se llama “Google Hacking”: conocer la forma de buscar aprovechando los parámetros que Google ofrece que pocas [y hasta raras] veces son empleados, también se hace referencia al dar “otros usos” al buscador, como si fuera un proxy por ejemplo, en este caso la lógica era: “si los spiders de indexan todo el sitio y al usuario lo restringen para validarse, porqué no mejor utilizar el buscador como un ByPass?” – No estoy seguro si todavía sigue vigente pero tiempo atrás era utilizado.
De acuerdo con la ética, la moral y todo ese asunto, el presente post tiene solamente fines educativos, nadie del presente blog se responsabiliza por cosas indebidas que puedan ocasionar; una vez redactado el descargo de responsabilidad y ahora que han aceptado las condiciones de lectura, procedemos a dar inicio con el tema!
Cuando realizamos una consulta debemos tener en cuenta la forma de redacción para ser lo más exactos posibles, evitando obtener resultados que no tienen mucho que ver (pensando que existen varios millones de sitios en la red).
Y así comienza la historia
Primero, deben añadir su website a la indexación mediante http://www.google.com/addurl . Luego los visitará un bot el cual recorrerá todo su sitio y bueno [más info de los robots aquí], para medir la popularidad del sitio, Google tiene un sistema denominado PageRank; a continuación una lista, con algunos criterios que utiliza Google para tener una mayor presencia en la red:
- Utilización de palabras clave en el título de la página.
- Textos existentes en los enlaces, es decir, tiene en cuenta el texto que se encuentra dentro de la etiqueta “Anchor Text” de las páginas.
- Cantidad de enlaces que contiene una página.
- Cantidad de palabras clave en la página.
- Relación con la temática de las webs que enlazan a la página respecto a la palabra clave.
- Popularidad, establecida según la cantidad de links existentes dentro de una comunidad temática.
- Cantidad de enlaces globales de otras webs a la página a posicionar.
Ahora que conocemos cómo es la nuez, veamos lo interesante del “Google Hacking”
Operadores iniciales
- AND: Establecido por el caracter: “+”, busca todos los parámetros de la consulta.
- OR: Definido por el caracter: “|”, busca uno u otro o ambos.
- NOT: Determinado por el caracter “-“ busca todo menos ese término.
- Comillas: “ ” empleado para obtener frases exactas.
Nota: cuando no utilizamos algún caracter especial, se entiende como si fuera un AND.
Operadores avanzados
Existen operadores que se pueden combinar con otros para tener un mejor filtrado, sin embargo hay algunos que *carecen de dicha combinación. A diferencia del bloque de operadores básicos anteriormente descritos, éstos tienen una sintaxis para poder utilizarlos la cual es Operador:términos de la búsqueda. Debemos tener en cuenta que luego de los dos puntos no debe existir espacio en blanco, va todo junto [valga la redundancia]
| Operador | Descripción | Ejemplo para googlear |
| filetype | Realiza búsquedas por tipo de archivos,tales como: pdf, doc, xls, txt, entre otros. | filetype:pdf redes de computadoras |
| inurl | Busca cadenas en la URL de una página | inurl:ifxperu csharp |
| allinurl | *Consulta todos los términos en la url | allinurl:programacion ifxperu |
| intitle | Busca cadenas en el título de una página | intitle:ifx informatrix |
| allintitle | *Consulta todos los términos en el título de la página | allintitle:ifxperu |
| site | Muy útil cuando se trata de revisar la data de un solo sitio | site:ifxperu.com Twitter |
| define | Se obtiene la definición del término a buscar | define:informático |
| caché | Al aprovechar la caché de Google, nuestras IPs no se registran como visitantes. | cache:ifxperu.com |
| info | Ofrece la información resumen de un sitio web | info:ifxperu.com |
| allintext | *Busca en el texto de un website todos los términos | allintext:ifx informatrix |
Protegiéndonos de GH
Hay tanta información que subimos a la red, información “clasificada” y hasta “confidencial”, así que tener mucho cuidado en definir permisos a los spiders debes tener. A continuación unas recomendaciones para estar más seguros:
- Listar directorios/ficheros, esta opción en su WebServer debe estar deshabilitada.
- Asignar contraseña a los archivos/directorios para evitar que los bots de los buscadores los indexen.
- Realizar auditorias a nuestros sitios para ver que tan vulnerables son, encontrar fallos y parcharlos antes que otros se aprovechen de ello.
- Tener en cuenta el archivo “robots.txt”, revisar a qué agentes [bots] se da permiso, y establecer cuáles son los directorios que deben y que no deben ser indexados [más info de los robots aquí]
Saludos!em




