Con
el objetivo de presentar un conjunto de elementos teóricos y prácticos,
útiles para conocer el funcionamiento de los llamados motores de búsqueda
en Internet, se revisó la literatura existente en la red sobre el tema
mediante los conocidos buscadores Google, Infoseek, WebCrawler, entre otros. Se
presentan las características generales de los motores de búsqueda
y sus componentes, con un énfasis especial en el empleo de los operadores
booleanos y su utilización en cada uno de los motores estudiados para realizar
búsquedas de diferentes grados de complejidad.
Descriptores
(DeCS): INTERNET; ALMACENAMIENTO Y RECUPERACION DE LA INFORMACION; INFORMATICA
MEDICA
Descriptores (DeCI): INTERNET; MOTORES DE BUSQUEDA/utilizacion;
RECUPERACION DE LA INFORMACION
Aimed at introducing
a group of useful theoric and practical elements to understand the functioning
of search engines in Internet, a review of the literature on this topic was carried
out using the well known searchers: Google, Infoseek, MetaCrawler among others..The
main features of search engines and its components are presented, with special
emphasis in the use of boolean operators and its use in every search engine studied
to carry out information search with various degrees of complexity.
Subject
headings (DeCS): INTERNET; INFORMATION STORAGE AND RETRIEVAL; MEDICAL INFORMATICS
Subject headings (DeCI): INTERNET; SEARCH ENGINE/utilization; INFORMATION
RETRIEVAL
Durante las últimas décadas, la búsqueda en línea de la literatura científica se ha convertido en una necesidad para los profesionales de la salud. Aquello, que habitualmente ocurría entre las paredes de una biblioteca con publicaciones en blanco y negro, así como en las interconsultas a expertos o colegas en el recinto hospitalario, ha cambiado como resultado del desarrollo de Internet. Ahora, los expertos pueden comunicarse vía correo electrónico, a partir de servicios de charlas, foros y mensajería instantánea.1
Hoy, con solo teclear algunas palabras claves en la interfaz de un motor de búsqueda (MB), puede un individuo informarse con rapidez sobre nuevos medicamentos y enfermedades, sus características y tratamientos; obtener imágenes y videos ilustrativos, revistas médicas y literatura en general; asimismo, puede visitar múltiples instituciones médicas y científicas, consultar sus bibliotecas y fondos, etcétera.1-4
Los MB son herramientas que permiten a los usuarios localizar información disponible en Internet de manera interactiva. Sus bases de datos son una especie de inventario de archivos existentes en Internet. Constan de un programa que registra estos archivos sin utilizar criterios específicos de selección y, con ellos, forma un índice de búsqueda que otro programa consulta cuando el usuario realiza su solicitud. Los MB proporcionan formularios y diversas interfaz mediante las cuales el interesado puede realizar su demanda de información; como resultado, el solicitante recibe una lista de referencias que responden a su pedido.1-3
Dicha interfaz, entre el programa y el usuario, permite introducir un grupo de palabras claves (una palabra, una frase, etc.) para seleccionar la información; relacionarla; escoger o acotar periodos de tiempo o fechas, así como determinar los tipos de documentos que desea, según sus formatos (.xls, .html, .doc, .pdf u otro), entre otras facilidades.
Como resultado de la exploración, el MB presenta una lista ordenada de documentos que cumplen completa o parcialmente los criterios exigidos por el usuario. El orden de aparición de los registros depende de una calificación que otorga el programa a cada página web cuando realiza la búsqueda. De manera general, el orden responde a la cantidad de veces que la página contiene la palabra introducida, aunque este criterio varía para cada buscador.
Los MB han devenido en importantes herramientas para localizar información. Cerca del 85% de los usuarios de la red, los utilizan para buscar la información que necesitan.5,6 Pero, comúnmente, sus usuarios emplean una gran cantidad de tiempo para localizar información en un ciberespacio inmenso y desorganizado. Los MB, a su vez, sólo entregan una pequeña fracción de la información disponible y relevante, cuando cotejan las palabras solicitadas contra un índice que puede tener artículos más o menos recientes.1,6 Además, muchas de estas páginas suelen estar faltas de actualización.
Por otra parte, existe también una gran variedad de MB. Entre los más empleados, se encuentran: AllTheWeb.com (FAST), AltaVista, AOL Search, Ask Jeeves, Excite, Google, HotBot, Infoseek, LookSmart, Teoma, Yahoo y otros.1-4,7-10
Aunque el ejercicio de la búsqueda constante desarrolla las habilidades necesarias para utilizar los MB, conocer cómo funcionan previamente ahorra un tiempo muy necesario. Su dominio es imprescindible para realizar un uso eficaz de ellos, con vistas a obtener información con rapidez y exactitud.
El presente trabajo pretende proporcionar un conocimiento general sobre los MB, con un énfasis particular en el uso de los operadores, con vistas a posibilitar una explotación más completa de estos importantes recursos en Internet.
A
partir de las búsquedas realizadas en varios motores de búsqueda
muy conocidos, a saber: Google, Webcrawler, Infoseek, entre otros, se identificaron
un conjunto de documentos que trataban una serie de elementos teóricos
y prácticos comunes a la mayoría de buscadores en Internet. Pero
además, por medio de ellos, fue posible la ejecución de búsquedas
con diferentes grados de complejidad, comprobar el uso de los operadores booleanos
referidos en los documentos consultados.
La exploración del tema objeto
de estudio se realizó con diferentes palabras clave como: motores de búsqueda,
operadores booleanos, operadores lógicos, entre otras, en idioma español
e inglés.
Los MB tienen tres componentes fundamentales, comunes a todos ellos:1,10
Los elementos comunes que presenta la interfaz de usuario son:
Es un espacio en blanco que, en general,
se encuentra en la parte superior de la página y que el usuario activa
con un "clic" del ratón. En ella, se teclean las palabras o frases
que definen el criterio de búsqueda.
Es un botón que se encuentra comúnmente a la derecha del formulario de entrada o caja de texto con el nombre de SEARCH, BUSCAR, SUBMIT, GO, GET, SEEK y que debe pulsarse para enviar los criterios de búsqueda al motor.
Los MB presentan como respuesta entre 10 y 100 documentos que satisfacen el criterio del usuario (tabla 1). Los documentos se ordenan según su relevancia con el criterio de exploración empleado. Al principio de la lista aparecerán las páginas que el MB considera las más relevantes, según el criterio de búsqueda introducido por el usuario. Habitualmente, presentan por defecto el título del documento y unas pocas líneas que informan sobre su contenido y ubicación en la red (URL). En las referencias que ofrecen los motores de búsqueda, pueden aparecer algunos de los siguientes datos:
- Título de página.
- Palabras clave ocultas: las claves en metaetiquetas del código fuente (no se muestran en la página).
- Vínculos: número de otras páginas que se vinculan con ella.
- Frecuencia: número de veces que se utiliza la palabra buscada en la página.
- Ubicación: cuán cerca de la parte superior se usa una palabra buscada.
- Cercanía: cuán próxima está de la otra palabra (para búsquedas con múltiples palabras).
- Número de accesos que presenta la página.
- Pago: algunos pocos MB solicitan un pago para garantizar una mayor cantidad de registros en la lista de resultados.
No debe olvidarse que los resultados cambian con el decursar de los días debido a la aparición y desaparición constante de las páginas en la red.
La mayoría de los MB presentan como alternativa a la lista de recursos uno o varios directorios de sitios web, visitados por el personal del servicio de búsqueda y clasificados de forma similar a los directorios temáticos.
Es bastante útil. Generalmente permite conocer el funcionamiento del MB, así como los comandos para acotar la exploración. Dicha ayuda no siempre se explota correctamente.
Existen dos tipos de búsqueda. La búsqueda básica y la búsqueda avanzada. Esta última ofrece mecanismos que facilitan la ejecución de búsquedas más complejas y precisas, compuestas por varias palabras claves, combinadas con los diferentes operadores que permite el sistema.
Tabla 1. Número de referencias relacionadas por exploración, según buscador.
| Número de referencias | Buscador |
| 20 | AltaVista, AllTheWeb, Excite, Google,
HotBot, MSN |
| 50 | AltaVista,
AllTheWeb, Excite, Google, HotBot, MSN |
| 100 |
AllTheWeb, Google, HotBot, |
Nota: Es posible que algunas de estas cifras cambiaran desde el momento de su revisión, y que en la actualidad sean otras.
Como se conoce, Internet es una gran base de datos. Para hallar los artículos de interés, a menudo el usuario necesita emplear varias palabras claves y combinarlas de una forma tal que expresen con exactitud sus requisitos. Para ello, resulta frecuente el uso de los conocidos operadores lógicos. Gran parte de la búsqueda en la red recae sobre los principios de la lógica booleana. Estos principios hacen referencia a las relaciones lógicas que pueden existir entre los términos en una exploración. Su aparición se debe a los trabajos del británico George Boole, matemático del siglo XIX quien sugirió que el pensamiento lógico podía expresarse en forma algebraica. La búsqueda booleana comprende tres operadores lógicos: OR, AND y NOT (tabla2).2,8,10-13
Tabla 2. Operadores lógicos.
| Operador | Acción | Ejemplo |
| AND | Insertar este operador entre dos o más palabras permite la recuperación de todos los términos. Este puede ser sustituido por el símbolo "+". | Si busca asma en niños pudiera utilizar:Asma AND
niñosÓAsma + niños De esta forma se recuperan ambos términos. |
NOT | Al insertar este operador se excluye el término que lo sucede. Este operador puede ser sustituido por el símbolo "-". | Si busca asma, pero no se desea que aparezca en niños en la búsqueda
se pueden utilizar:Asma NOT niñosÓAsma - niños Con esto se recuperan páginas que contengan la palabra "asma" y no la palabra "niños". |
| OR | Se recupera cualesquiera de los términos entre los cuales se encuentre este operador. | Si busca documentos que contengan la palabra "asma" o la palabra "niños", pero no las dos palabras en el mismo documento se introduce:Asma OR niños |
Es oportuno señalar que en la medida que se combine una mayor cantidad de palabras con el operador lógico AND, se recuperará una menor cantidad de registros.
Existen también otros operadores que permiten establecer relaciones entre los diferentes términos empleados en una búsqueda (tabla 3).
Tabla 3. Operadores de adyacencia o vecindad
| Operador | Acción | Ejemplo |
| NEAR | Se utiliza entre dos palabras y las recupera siempre y cuando los términos se hallen a menos de 25 palabras en los documentos sin importar el orden en que se encuentren. | Si se buscan documentos que contengan las palabras "asma" y "niños", pero desea que las dos se encuentren cerca una de la otra en un mismo documento, se introduceAsma NEAR niños |
| NEAR/n | Igual que el anterior, pero n es el número máximo de palabras que separan a las dos empleadas. | Si se buscan documentos que contengan las palabras "asma" y "niños", pero desea que las dos se encuentren cerca una de la otra en un mismo documento a una distancia de 12 palabras, se introduce:Asma NEAR/12 niños |
| FAR | FAR es lo contrario de NEAR. Cuando se utiliza FAR, se localizan documentos en los que los términos de la búsqueda aparezcan con 25 palabras o más de distancia al menos en un caso. | Si se buscan documentos que contengan las palabras "asma" y "niños", pero que las dos palabras se encuentren alejadas una de la otra en un mismo documento en 25 o más palabras de distancia, se introduce:Asma FAR niños |
| FAR/n | Igual que el anterior, pero n es el número mínimo de palabras que separan a las dos de interés. | Si se buscan documentos que contengan las palabras "asma" y "niños", pero que las dos se encuentren alejadas una de la otra en un mismo documento en 33 o más palabras de distancia, se introduce: Asma FAR/33 niños |
| ADJ | Se usa entre palabras y recupera aquellas que se encuentren juntas sin importar el orden en que se hallen. | Si buscamos documentos que contengan la palabra asma y la palabra niños, pero que las dos palabras se encuentren juntas una al lado de la otra en ese mismo documento sin importar el orden, se introduce:Asma ADJ niños |
| " " | Se usan para recuperar una frase | Si se buscan documentos que contengan la frase "asma en niños", se introduce:"Asma en niños" |
| ( ) | Los paréntesis se utilizan para agrupar partes de secuencias booleanas en consultas más complicadas | Si se buscan documentos que contengan las palabras "asma y niños", pero no "adultos y ancianos", se introduce: Asma AND niños NOT (adultos AND ancianos) |
| BEFORE | Funciona como el conocido AND. Su única diferencia es que los términos deben aparecer en el orden que usted especifique, pero pueden encontrarse a cualquier distancia en el mismo documento. | Si se buscan documentos que contengan las palabras "asma" y "niños", pero que la palabra "asma" aparezca antes que niños se introduceasma BEFORE niños. |
De los operadores expuestos en la última tabla, sólo BEFORE tiene presente el orden en que deben aparecer los términos. No obstante, se puede añadir esta capacidad de ordenamiento a NEAR, FAR y ADJ, si se les antepone la letra O. Así, "cardiopatía OADJ congénita" recuperará los recursos que contengan "cardiopatía congénita", pero no "congénita cardiopatía". Asimismo, ONEAR y OFAR proporcionan resultados similares, pero sólo cuando los términos de la búsqueda aparecen en el mismo orden en que se escribieron.14
Cada MB acepta un grupo de operadores específicos (tabla 4).
Tabla 4. Uso de los operadores booleanos, según buscadores
| Operador | Buscador |
| OR | AltaVista, AOL Search, Excite, Google,Inktomi (HotBot, MSN), Lycos, Northern Light, Webcrawler |
| AND | AltaVista, AOL Search, Excite,Inktomi (HotBot, MSN) Lycos, Northern Light, Webcrawler |
| NOT | AltaVista, AOL Search, Excite, Inktomi (HotBot),Lycos, Northern Light, Webcrawler |
| ( ) | AltaVista, AOL Search, Excite, Inktomi (MSN), Northern Light, Webcrawler |
| NEAR | AltaVista (10 words), AOL Search (specify number), Lycos (25 words), Webcrawler |
| + | Lo acepta la mayoría |
| - | Lo acepta la mayoría |
| " " | Lo acepta la mayoría |
Nota: Es posible que algunos de estos operadores no se estuvieran empleando por los buscadores relacionados en el momento de su revisión, y que en la actualidad estén activos.
A consecuencia del gran número de MB existentes en Internet, sólo se referirán algunos de ellos con el objetivo de proporcionar una idea sobre sus características y funcionamiento.
Infoseek
http://www.infoseek.com/
Es uno de los buscadores más rápidos. Tiene una base de
datos de 31 millones de páginas. Permite una búsqueda exacta, por
ejemplo, si se escriben las palabras de la búsqueda en mayúsculas,
suministra como resultado páginas que las contienen sólo en mayúsculas,
en cambio si se emplean minúsculas, genera referencias con los términos
en minúscula y mayúscula.2,3
El operador por defecto es OR y si se colocan varias palabras en el formulario de búsqueda, el espacio entre las palabras se interpretará como un OR. Este buscador no utiliza operadores booleanos, solo lista las páginas principales de cada sitio y una muestra de las demás. No es el más adecuado para hallar temas muy específicos o raros.
Permite buscar
y refinar la búsqueda sin necesidad de conocer lógica booleana;
obtener resultados precisos, desglosados en forma de campos: título, URL,
vínculos y sitio. Por su facilidad de uso y sencillez es adecuado para
usuarios no expertos.
Al momento de mostrar los resultados de la búsqueda,
considera el índice de cita de la página. Por ello, las páginas
más recomendadas en otros sitios generalmente aparecen entre las primeras.
Esta es una característica interesante de este buscador.
Al igual que en otros MB, si teclea el término o los términos a buscar y a continuación el botón Seek, como resultado aparecerán los primeros 10 vínculos que corresponden a las páginas con mayor calificación.
La búsqueda se puede acotar con nuevos términos en la caja de texto y la casilla "?search only within these xxxxxx pages", o mediante una nueva búsqueda, con sólo introducir nuevas palabras y seleccionar "?new search".
Google
http://www.google.com/
Es un buscador con robot que indiza páginas en todo Internet (2.07 billones).
Actualmente trabaja en varios idiomas: Alemán, Chino (simplificado), Chino
(tradicional), Coreano, Danés, Español, Finlandés, Francés,
Holandés, Inglés, Italiano, Japonés, Noruego, Portugués,
Sueco.2,3
Al igual que otros MB, las temáticas
aparecen en la pagina principal. Este MB es la mayor base de datos existente e
incluso, presta sus servicios de buscador a Yahoo y se actualiza con una gran
regularidad.
La búsqueda en Google sólo devuelve páginas
que incluyen los términos introducidos por el usuario. A diferencia de
muchos otros MB, produce resultados que corresponden a todos los términos
utilizados para la búsqueda.
Otra característica que
lo diferencia de los demás MB, es que analiza la proximidad de las expresiones
empleadas para la búsqueda en las páginas. Dichas páginas
poseen prioridad al momento de mostrar los resultados. Así también,
en lugar de resúmenes de páginas, este MB muestra el texto coincidente
del documento recuperado con las palabras claves solicitadas en los términos
de búsqueda en negritas, el total de páginas encontradas y el tiempo
que le tomó realizar la exploración.
Google también
dispone de un botón denominado "I feel lucky" (Me siento afortunado),
que lleva al visitante directamente a la página de la primera referencia
resultante de la búsqueda.
Para introducir una consulta, sólo
es necesario escribir algunas palabras descriptivas y presionar la tecla Entrar,
o hacer clic en el botón de búsqueda.
Google añade automáticamente "AND" entre las palabras que se escriban en la caja de texto, de modo que, devuelve sólo las páginas que incluyan todos los términos utilizados para la búsqueda. Este MB prefiere las páginas en las que los términos de consulta relacionados se encuentran próximos, una ventaja importante, porque sin utilizar el operador NEAR, ofrece resultados que consideran la cercanía entre los términos.
No
admite el operador lógico "OR". No existe forma alguna de indicarle
que busque páginas que contengan un término u otro a la vez. Igualmente,
no admite tampoco búsquedas de la palabra raíz ni búsquedas
con comodines; tampoco distingue las mayúsculas de las minúsculas.
Para buscar frases, pueden utilizarse comillas como se explicó anteriormente.
Ciertos caracteres sirven como conectores de frases como las comillas, por ejemplo:
asma-bronquial-en-niños es lo mismo que "asma bronquial en niños".
Google presenta una tecnología desarrollada por PageRankTM que aprovecha
la estructura del web, donde cada página puede vincularse con otra, de
manera instantánea, directa y sin terceros. De cierta forma, esta estructura,
soportada en el vínculo, elimina la jerarquía y permite que la información
transite sin dificultades por la red.
A continuación, se presentan
los elementos principales que presenta la página de respuesta :
WebCrawler
http://www.webcrawler.com/
WebCrawler es un meta buscador, es decir, es un MB que utiliza otros motores de
búsqueda como FAST, About, Ask Jeeves, Inktomi, Lôôksmart,
entre otros. Uno de los motores que Webcrawler utiliza es FAST, que fue nombrado
el 17 de junio del 2002 por CNET como el motor de búsqueda más grande
al registrar 2.1 billones de páginas.
Webcrawler, como otros muchos
MB, se ha transformado en un portal y se auxilia de otros motores para acelerar
la búsqueda de páginas web. Brinda, al mismo tiempo, varios servicios
agrupados en categorías, a los que el usuario puede acceder con un "clic".
A diferencia de otros motores, sólo está disponible en el idioma
inglés.2
No dispone de la posibilidad de ejecutar una búsqueda avanzada, pero sí de recuperar la información deseada por medio de la búsqueda en un directorio al comenzar la exploración. Así es posible refinar la solicitud.
Por ejemplo, si se busca información sobre salud reproductiva en la adolescencia, al realizar la solicitud, con sólo teclear estas palabras, se obtendrá una increíble cantidad de información, pero la mayoría de las referencias no serán interesantes. Por el contrario, si en lugar de esto, el usuario limitara su investigación mediante la introducción en la barra de texto de una temática o categoría, seguido del signo (>) y el término deseado: Salud > Salud Reproductiva > Adolescencia, al realizar nuevamente la búsqueda, sin dejar de ser increíblemente voluminosos sus resultados, será más precisa que la búsqueda anterior.
También pueden realizarse búsquedas con los operadores booleanos (AND, OR, NOT). El operador por defecto en Webcrawler es "OR" y no "AND". Al ser un meta-buscador, buscará sólo en aquellos MB que soporten los operadores utilizados en la búsqueda.
Aunque, sus patrocinadores establecen que pueden utilizarse los operadores NEAR, ( ), FAR, BEFORE y ADJ, el MB no siempre los respeta y puede devolver resultados que, al no ser relevantes, ocasionen una pérdida de tiempo.
Recibido: 28 de septiembre del 2003.
Aprobado: 6 de octubre del 2003.
Dr. Jorge Oller Gómez. Policlínico
Mario Muñoz Monroy. Ave 269 s/n esq 280. Wajay, Ciudad de La Habana, Cuba.
Correo electrónico: joller@infomed.sld.cu
1Doctor en Medicina. Especialista de Primer Grado en Medicina General Integral.
Policlínico Mario Muñoz Monroy