Indice Anterior Siguiente


Artículos docentes

Elementos teórico-prácticos útiles para comprender el uso de los motores de búsqueda en Internet

Dr. Jorge Oller Gómez1

Resumen

Con el objetivo de presentar un conjunto de elementos teóricos y prácticos, útiles para conocer el funcionamiento de los llamados motores de búsqueda en Internet, se revisó la literatura existente en la red sobre el tema mediante los conocidos buscadores Google, Infoseek, WebCrawler, entre otros. Se presentan las características generales de los motores de búsqueda y sus componentes, con un énfasis especial en el empleo de los operadores booleanos y su utilización en cada uno de los motores estudiados para realizar búsquedas de diferentes grados de complejidad.

Descriptores (DeCS): INTERNET; ALMACENAMIENTO Y RECUPERACION DE LA INFORMACION; INFORMATICA MEDICA
Descriptores (DeCI): INTERNET; MOTORES DE BUSQUEDA/utilizacion; RECUPERACION DE LA INFORMACION


Abstract

Aimed at introducing a group of useful theoric and practical elements to understand the functioning of search engines in Internet, a review of the literature on this topic was carried out using the well known searchers: Google, Infoseek, MetaCrawler among others..The main features of search engines and its components are presented, with special emphasis in the use of boolean operators and its use in every search engine studied to carry out information search with various degrees of complexity.

Subject headings (DeCS): INTERNET; INFORMATION STORAGE AND RETRIEVAL; MEDICAL INFORMATICS
Subject headings (DeCI): INTERNET; SEARCH ENGINE/utilization; INFORMATION RETRIEVAL

Durante las últimas décadas, la búsqueda en línea de la literatura científica se ha convertido en una necesidad para los profesionales de la salud. Aquello, que habitualmente ocurría entre las paredes de una biblioteca con publicaciones en blanco y negro, así como en las interconsultas a expertos o colegas en el recinto hospitalario, ha cambiado como resultado del desarrollo de Internet. Ahora, los expertos pueden comunicarse vía correo electrónico, a partir de servicios de charlas, foros y mensajería instantánea.1

Hoy, con solo teclear algunas palabras claves en la interfaz de un motor de búsqueda (MB), puede un individuo informarse con rapidez sobre nuevos medicamentos y enfermedades, sus características y tratamientos; obtener imágenes y videos ilustrativos, revistas médicas y literatura en general; asimismo, puede visitar múltiples instituciones médicas y científicas, consultar sus bibliotecas y fondos, etcétera.1-4

Los MB son herramientas que permiten a los usuarios localizar información disponible en Internet de manera interactiva. Sus bases de datos son una especie de inventario de archivos existentes en Internet. Constan de un programa que registra estos archivos sin utilizar criterios específicos de selección y, con ellos, forma un índice de búsqueda que otro programa consulta cuando el usuario realiza su solicitud. Los MB proporcionan formularios y diversas interfaz mediante las cuales el interesado puede realizar su demanda de información; como resultado, el solicitante recibe una lista de referencias que responden a su pedido.1-3

Dicha interfaz, entre el programa y el usuario, permite introducir un grupo de palabras claves (una palabra, una frase, etc.) para seleccionar la información; relacionarla; escoger o acotar periodos de tiempo o fechas, así como determinar los tipos de documentos que desea, según sus formatos (.xls, .html, .doc, .pdf u otro), entre otras facilidades.

Como resultado de la exploración, el MB presenta una lista ordenada de documentos que cumplen completa o parcialmente los criterios exigidos por el usuario. El orden de aparición de los registros depende de una calificación que otorga el programa a cada página web cuando realiza la búsqueda. De manera general, el orden responde a la cantidad de veces que la página contiene la palabra introducida, aunque este criterio varía para cada buscador.

Los MB han devenido en importantes herramientas para localizar información. Cerca del 85% de los usuarios de la red, los utilizan para buscar la información que necesitan.5,6 Pero, comúnmente, sus usuarios emplean una gran cantidad de tiempo para localizar información en un ciberespacio inmenso y desorganizado. Los MB, a su vez, sólo entregan una pequeña fracción de la información disponible y relevante, cuando cotejan las palabras solicitadas contra un índice que puede tener artículos más o menos recientes.1,6 Además, muchas de estas páginas suelen estar faltas de actualización.

Por otra parte, existe también una gran variedad de MB. Entre los más empleados, se encuentran: AllTheWeb.com (FAST), AltaVista, AOL Search, Ask Jeeves, Excite, Google, HotBot, Infoseek, LookSmart, Teoma, Yahoo y otros.1-4,7-10

Aunque el ejercicio de la búsqueda constante desarrolla las habilidades necesarias para utilizar los MB, conocer cómo funcionan previamente ahorra un tiempo muy necesario. Su dominio es imprescindible para realizar un uso eficaz de ellos, con vistas a obtener información con rapidez y exactitud.

El presente trabajo pretende proporcionar un conocimiento general sobre los MB, con un énfasis particular en el uso de los operadores, con vistas a posibilitar una explotación más completa de estos importantes recursos en Internet.

Métodos

A partir de las búsquedas realizadas en varios motores de búsqueda muy conocidos, a saber: Google, Webcrawler, Infoseek, entre otros, se identificaron un conjunto de documentos que trataban una serie de elementos teóricos y prácticos comunes a la mayoría de buscadores en Internet. Pero además, por medio de ellos, fue posible la ejecución de búsquedas con diferentes grados de complejidad, comprobar el uso de los operadores booleanos referidos en los documentos consultados.
La exploración del tema objeto de estudio se realizó con diferentes palabras clave como: motores de búsqueda, operadores booleanos, operadores lógicos, entre otras, en idioma español e inglés.

Los motores de búsqueda

Componentes principales

Los MB tienen tres componentes fundamentales, comunes a todos ellos:1,10

Los elementos comunes que presenta la interfaz de usuario son:

Es un espacio en blanco que, en general, se encuentra en la parte superior de la página y que el usuario activa con un "clic" del ratón. En ella, se teclean las palabras o frases que definen el criterio de búsqueda.

Es un botón que se encuentra comúnmente a la derecha del formulario de entrada o caja de texto con el nombre de SEARCH, BUSCAR, SUBMIT, GO, GET, SEEK y que debe pulsarse para enviar los criterios de búsqueda al motor.

Los MB presentan como respuesta entre 10 y 100 documentos que satisfacen el criterio del usuario (tabla 1). Los documentos se ordenan según su relevancia con el criterio de exploración empleado. Al principio de la lista aparecerán las páginas que el MB considera las más relevantes, según el criterio de búsqueda introducido por el usuario. Habitualmente, presentan por defecto el título del documento y unas pocas líneas que informan sobre su contenido y ubicación en la red (URL). En las referencias que ofrecen los motores de búsqueda, pueden aparecer algunos de los siguientes datos:

- Título de página.
- Palabras clave ocultas: las claves en metaetiquetas del código fuente (no se muestran en la página).
- Vínculos: número de otras páginas que se vinculan con ella.
- Frecuencia: número de veces que se utiliza la palabra buscada en la página.
- Ubicación: cuán cerca de la parte superior se usa una palabra buscada.
- Cercanía: cuán próxima está de la otra palabra (para búsquedas con múltiples palabras).
- Número de accesos que presenta la página.
- Pago: algunos pocos MB solicitan un pago para garantizar una mayor cantidad de registros en la lista de resultados.

No debe olvidarse que los resultados cambian con el decursar de los días debido a la aparición y desaparición constante de las páginas en la red.

La mayoría de los MB presentan como alternativa a la lista de recursos uno o varios directorios de sitios web, visitados por el personal del servicio de búsqueda y clasificados de forma similar a los directorios temáticos.

Es bastante útil. Generalmente permite conocer el funcionamiento del MB, así como los comandos para acotar la exploración. Dicha ayuda no siempre se explota correctamente.

Existen dos tipos de búsqueda. La búsqueda básica y la búsqueda avanzada. Esta última ofrece mecanismos que facilitan la ejecución de búsquedas más complejas y precisas, compuestas por varias palabras claves, combinadas con los diferentes operadores que permite el sistema.

Tabla 1. Número de referencias relacionadas por exploración, según buscador.

Número de referencias
Buscador
20
AltaVista, AllTheWeb, Excite, Google, HotBot, MSN
50
AltaVista, AllTheWeb, Excite, Google, HotBot, MSN
100
AllTheWeb, Google, HotBot,

Nota: Es posible que algunas de estas cifras cambiaran desde el momento de su revisión, y que en la actualidad sean otras.

Los operadores

Como se conoce, Internet es una gran base de datos. Para hallar los artículos de interés, a menudo el usuario necesita emplear varias palabras claves y combinarlas de una forma tal que expresen con exactitud sus requisitos. Para ello, resulta frecuente el uso de los conocidos operadores lógicos. Gran parte de la búsqueda en la red recae sobre los principios de la lógica booleana. Estos principios hacen referencia a las relaciones lógicas que pueden existir entre los términos en una exploración. Su aparición se debe a los trabajos del británico George Boole, matemático del siglo XIX quien sugirió que el pensamiento lógico podía expresarse en forma algebraica. La búsqueda booleana comprende tres operadores lógicos: OR, AND y NOT (tabla2).2,8,10-13

 

Tabla 2. Operadores lógicos.

OperadorAcciónEjemplo
AND
Insertar este operador entre dos o más palabras permite la recuperación de todos los términos. Este puede ser sustituido por el símbolo "+".
Si busca asma en niños pudiera utilizar:Asma AND niñosÓAsma + niños
De esta forma se recuperan ambos términos.

NOT
Al insertar este operador se excluye el término que lo sucede. Este operador puede ser sustituido por el símbolo "-". Si busca asma, pero no se desea que aparezca en niños en la búsqueda se pueden utilizar:Asma NOT niñosÓAsma - niños
Con esto se recuperan páginas que contengan la palabra "asma" y no la palabra "niños".
OR Se recupera cualesquiera de los términos entre los cuales se encuentre este operador.Si busca documentos que contengan la palabra "asma" o la palabra "niños", pero no las dos palabras en el mismo documento se introduce:Asma OR niños

Es oportuno señalar que en la medida que se combine una mayor cantidad de palabras con el operador lógico AND, se recuperará una menor cantidad de registros.

Existen también otros operadores que permiten establecer relaciones entre los diferentes términos empleados en una búsqueda (tabla 3).

Tabla 3. Operadores de adyacencia o vecindad

Operador
Acción
Ejemplo
NEARSe utiliza entre dos palabras y las recupera siempre y cuando los términos se hallen a menos de 25 palabras en los documentos sin importar el orden en que se encuentren.Si se buscan documentos que contengan las palabras "asma" y "niños", pero desea que las dos se encuentren cerca una de la otra en un mismo documento, se introduceAsma NEAR niños
NEAR/nIgual que el anterior, pero n es el número máximo de palabras que separan a las dos empleadas.Si se buscan documentos que contengan las palabras "asma" y "niños", pero desea que las dos se encuentren cerca una de la otra en un mismo documento a una distancia de 12 palabras, se introduce:Asma NEAR/12 niños
FARFAR es lo contrario de NEAR. Cuando se utiliza FAR, se localizan documentos en los que los términos de la búsqueda aparezcan con 25 palabras o más de distancia al menos en un caso.Si se buscan documentos que contengan las palabras "asma" y "niños", pero que las dos palabras se encuentren alejadas una de la otra en un mismo documento en 25 o más palabras de distancia, se introduce:Asma FAR niños
FAR/nIgual que el anterior, pero n es el número mínimo de palabras que separan a las dos de interés.Si se buscan documentos que contengan las palabras "asma" y "niños", pero que las dos se encuentren alejadas una de la otra en un mismo documento en 33 o más palabras de distancia, se introduce: Asma FAR/33 niños
ADJ Se usa entre palabras y recupera aquellas que se encuentren juntas sin importar el orden en que se hallen.Si buscamos documentos que contengan la palabra asma y la palabra niños, pero que las dos palabras se encuentren juntas una al lado de la otra en ese mismo documento sin importar el orden, se introduce:Asma ADJ niños
" " Se usan para recuperar una frase Si se buscan documentos que contengan la frase "asma en niños", se introduce:"Asma en niños"
( )Los paréntesis se utilizan para agrupar partes de secuencias booleanas en consultas más complicadasSi se buscan documentos que contengan las palabras "asma y niños", pero no "adultos y ancianos", se introduce: Asma AND niños NOT (adultos AND ancianos)
BEFORE Funciona como el conocido AND. Su única diferencia es que los términos deben aparecer en el orden que usted especifique, pero pueden encontrarse a cualquier distancia en el mismo documento.Si se buscan documentos que contengan las palabras "asma" y "niños", pero que la palabra "asma" aparezca antes que niños se introduceasma BEFORE niños.


De los operadores expuestos en la última tabla, sólo BEFORE tiene presente el orden en que deben aparecer los términos. No obstante, se puede añadir esta capacidad de ordenamiento a NEAR, FAR y ADJ, si se les antepone la letra O. Así, "cardiopatía OADJ congénita" recuperará los recursos que contengan "cardiopatía congénita", pero no "congénita cardiopatía". Asimismo, ONEAR y OFAR proporcionan resultados similares, pero sólo cuando los términos de la búsqueda aparecen en el mismo orden en que se escribieron.14

Cada MB acepta un grupo de operadores específicos (tabla 4).

 

Tabla 4. Uso de los operadores booleanos, según buscadores

Operador Buscador
OR AltaVista, AOL Search, Excite, Google,Inktomi (HotBot, MSN), Lycos, Northern Light, Webcrawler
AND AltaVista, AOL Search, Excite,Inktomi (HotBot, MSN) Lycos, Northern Light, Webcrawler
NOT AltaVista, AOL Search, Excite, Inktomi (HotBot),Lycos, Northern Light, Webcrawler
( ) AltaVista, AOL Search, Excite, Inktomi (MSN), Northern Light, Webcrawler
NEAR AltaVista (10 words), AOL Search (specify number), Lycos (25 words), Webcrawler
+ Lo acepta la mayoría
- Lo acepta la mayoría
" "Lo acepta la mayoría

Nota: Es posible que algunos de estos operadores no se estuvieran empleando por los buscadores relacionados en el momento de su revisión, y que en la actualidad estén activos.


Caracterización de algunos motores de búsqueda esenciales

A consecuencia del gran número de MB existentes en Internet, sólo se referirán algunos de ellos con el objetivo de proporcionar una idea sobre sus características y funcionamiento.

Infoseek
http://www.infoseek.com/
Es uno de los buscadores más rápidos. Tiene una base de datos de 31 millones de páginas. Permite una búsqueda exacta, por ejemplo, si se escriben las palabras de la búsqueda en mayúsculas, suministra como resultado páginas que las contienen sólo en mayúsculas, en cambio si se emplean minúsculas, genera referencias con los términos en minúscula y mayúscula.2,3

El operador por defecto es OR y si se colocan varias palabras en el formulario de búsqueda, el espacio entre las palabras se interpretará como un OR. Este buscador no utiliza operadores booleanos, solo lista las páginas principales de cada sitio y una muestra de las demás. No es el más adecuado para hallar temas muy específicos o raros.

Permite buscar y refinar la búsqueda sin necesidad de conocer lógica booleana; obtener resultados precisos, desglosados en forma de campos: título, URL, vínculos y sitio. Por su facilidad de uso y sencillez es adecuado para usuarios no expertos.
Al momento de mostrar los resultados de la búsqueda, considera el índice de cita de la página. Por ello, las páginas más recomendadas en otros sitios generalmente aparecen entre las primeras. Esta es una característica interesante de este buscador.

Al igual que en otros MB, si teclea el término o los términos a buscar y a continuación el botón Seek, como resultado aparecerán los primeros 10 vínculos que corresponden a las páginas con mayor calificación.

La búsqueda se puede acotar con nuevos términos en la caja de texto y la casilla "?search only within these xxxxxx pages", o mediante una nueva búsqueda, con sólo introducir nuevas palabras y seleccionar "?new search".

Google
http://www.google.com/
Es un buscador con robot que indiza páginas en todo Internet (2.07 billones). Actualmente trabaja en varios idiomas: Alemán, Chino (simplificado), Chino (tradicional), Coreano, Danés, Español, Finlandés, Francés, Holandés, Inglés, Italiano, Japonés, Noruego, Portugués, Sueco.2,3

Al igual que otros MB, las temáticas aparecen en la pagina principal. Este MB es la mayor base de datos existente e incluso, presta sus servicios de buscador a Yahoo y se actualiza con una gran regularidad.

La búsqueda en Google sólo devuelve páginas que incluyen los términos introducidos por el usuario. A diferencia de muchos otros MB, produce resultados que corresponden a todos los términos utilizados para la búsqueda.

Otra característica que lo diferencia de los demás MB, es que analiza la proximidad de las expresiones empleadas para la búsqueda en las páginas. Dichas páginas poseen prioridad al momento de mostrar los resultados. Así también, en lugar de resúmenes de páginas, este MB muestra el texto coincidente del documento recuperado con las palabras claves solicitadas en los términos de búsqueda en negritas, el total de páginas encontradas y el tiempo que le tomó realizar la exploración.

Google también dispone de un botón denominado "I feel lucky" (Me siento afortunado), que lleva al visitante directamente a la página de la primera referencia resultante de la búsqueda.

Para introducir una consulta, sólo es necesario escribir algunas palabras descriptivas y presionar la tecla Entrar, o hacer clic en el botón de búsqueda.

Google añade automáticamente "AND" entre las palabras que se escriban en la caja de texto, de modo que, devuelve sólo las páginas que incluyan todos los términos utilizados para la búsqueda. Este MB prefiere las páginas en las que los términos de consulta relacionados se encuentran próximos, una ventaja importante, porque sin utilizar el operador NEAR, ofrece resultados que consideran la cercanía entre los términos.

No admite el operador lógico "OR". No existe forma alguna de indicarle que busque páginas que contengan un término u otro a la vez. Igualmente, no admite tampoco búsquedas de la palabra raíz ni búsquedas con comodines; tampoco distingue las mayúsculas de las minúsculas.

Para buscar frases, pueden utilizarse comillas como se explicó anteriormente. Ciertos caracteres sirven como conectores de frases como las comillas, por ejemplo: asma-bronquial-en-niños es lo mismo que "asma bronquial en niños".

Google presenta una tecnología desarrollada por PageRankTM que aprovecha la estructura del web, donde cada página puede vincularse con otra, de manera instantánea, directa y sin terceros. De cierta forma, esta estructura, soportada en el vínculo, elimina la jerarquía y permite que la información transite sin dificultades por la red.
A continuación, se presentan los elementos principales que presenta la página de respuesta :

WebCrawler
http://www.webcrawler.com/
WebCrawler es un meta buscador, es decir, es un MB que utiliza otros motores de búsqueda como FAST, About, Ask Jeeves, Inktomi, Lôôksmart, entre otros. Uno de los motores que Webcrawler utiliza es FAST, que fue nombrado el 17 de junio del 2002 por CNET como el motor de búsqueda más grande al registrar 2.1 billones de páginas.
Webcrawler, como otros muchos MB, se ha transformado en un portal y se auxilia de otros motores para acelerar la búsqueda de páginas web. Brinda, al mismo tiempo, varios servicios agrupados en categorías, a los que el usuario puede acceder con un "clic". A diferencia de otros motores, sólo está disponible en el idioma inglés.2

No dispone de la posibilidad de ejecutar una búsqueda avanzada, pero sí de recuperar la información deseada por medio de la búsqueda en un directorio al comenzar la exploración. Así es posible refinar la solicitud.

Por ejemplo, si se busca información sobre salud reproductiva en la adolescencia, al realizar la solicitud, con sólo teclear estas palabras, se obtendrá una increíble cantidad de información, pero la mayoría de las referencias no serán interesantes. Por el contrario, si en lugar de esto, el usuario limitara su investigación mediante la introducción en la barra de texto de una temática o categoría, seguido del signo (>) y el término deseado: Salud > Salud Reproductiva > Adolescencia, al realizar nuevamente la búsqueda, sin dejar de ser increíblemente voluminosos sus resultados, será más precisa que la búsqueda anterior.

También pueden realizarse búsquedas con los operadores booleanos (AND, OR, NOT). El operador por defecto en Webcrawler es "OR" y no "AND". Al ser un meta-buscador, buscará sólo en aquellos MB que soporten los operadores utilizados en la búsqueda.

Aunque, sus patrocinadores establecen que pueden utilizarse los operadores NEAR, ( ), FAR, BEFORE y ADJ, el MB no siempre los respeta y puede devolver resultados que, al no ser relevantes, ocasionen una pérdida de tiempo.

Referencias bibliográficas

  1. Stark NS. Motores de búsqueda en Internet. Disponible en: http://www.unlu.edu.ar/~tyr/TYR-motor/stark-motor.pdf Acceso: 5 de noviembre del 2002.
  2. Directorio de buscadores relacionados por Google. Disponible en: http://www.aunmas.com/buscador/directorios_buscadores_hispanos.php Acceso: 21 de diciembre del 2002.
  3. Lawrence S, Lee Giles C. Accessibility of information on the web. Nature 1999; 400:107-9.
  4. Knollenberg G. Effective Use of Search Engines. Disponible en: http://www.writerswrite.com/journal/may98/gak5.htm Acceso: 15 de diciembre del 2002.
  5. Al-Shahi R, Sadler M, Rees G, Bateman D. The internet. J Neurol Neurosurg Psychiatry 2002; 73(6):619-28.
  6. Lawrence Steve, Lee Giles C. Accessibility of information on the web. Nature 1999; 400:107-9.
  7. Abbott KC, Oliver DK, Boal TR, Gadiyak G, Boocks C, Yuan CM, Welch PG, Poropatich RK. International use of an academic nephrology World Wide Web site: from medical information resource to business tool. Mil Med 2002; 167(4):326-30.
  8. Sullivan D. Search Engine Results Chart. Disponible en: http://www.searchenginewatch.com/webmasters/article.php/2167981 Acceso: 14 de diciembre 2002.
  9. Sullivan D. The Major Search Engines. Disponible en: http://www.searchenginewatch.com/links/article.php/2156221 Acceso: 5 de noviembre del 2002.
  10. Greg R. Search Engine Features. Disponible en: http://www.searchengineshowdown.com/features/ Acceso: 5 de noviembre del 2002.
  11. Kunst H, Khan KS. Quality of web-based medical information on stable COPD: comparison of non-commercial and commercial websites. Health Info Libr J 2002; 19(1):42-8.
  12. Greenberg G.N. Internet resources for occupational and environmental health professionals. Toxicology 2002; 173(1-2):145-52.
  13. Bernie D. Motores de búsqueda y álgebra booleana. Disponible en: http://www.eduteka.org/tema_mes.php3?TemaID=0010 Acceso: 11 de junio del 2002.
  14. ABCdatos.com. Funcionamiento de los operadores booleanos. Disponible en: http://www.abcdatos.com/buscadores/operadores.html Acceso: 14 de diciembre del 2002.

Recibido: 28 de septiembre del 2003. Aprobado: 6 de octubre del 2003.
Dr. Jorge Oller Gómez. Policlínico Mario Muñoz Monroy. Ave 269 s/n esq 280. Wajay, Ciudad de La Habana, Cuba.
Correo electrónico: joller@infomed.sld.cu

 

1Doctor en Medicina. Especialista de Primer Grado en Medicina General Integral. Policlínico Mario Muñoz Monroy


Indice Anterior Siguiente