Autor: Néstor F. Oviedo
Análisis, Desarrollo y Servicios Informáticos | PrEBi
Los indexadores de texto son herramientas de software diseñadas especialmente para almacenar documentos textuales y proveer medios para su posterior recuperación a partir de palabras o frases de consulta. Una de las características destacables de estas herramientas es que en general están preparadas para lidiar con un volumen de documentos muy elevado (millones de documentos), proporcionando además una serie de características adicionales que permiten, entre otras cosas, tratar con problemas de heterogeneidad (en cierta medida), descartar palabras irrelevantes, dividir palabras, etc.
Si bien en la actualidad existen múltiples herramientas clasificadas como Indexadores de Texto, sólo algunas se destacan y marcan tendencias globales, siendo Apache Solr una de las principales herramientas de hoy en día. Este motor recibe documentos XML como entrada, los conduce a través de un conjunto de filtros y analizadores y genera un índice invertido sobre el cual se ejecutan los algoritmos de búsqueda. Esta forma de trabajo requiere en primera instancia la transformación de los documentos a indexar a un formato XML que respete el esquema (campos de datos contenidos en cada documento, como título, autor, fecha, etc) establecido en la configuración del motor, donde además se definen los filtros y analizadores por los cuales estos datos deben pasar antes de ser insertados en el índice.
Como se mencionó anteriormente, una de las principales características de los indexadores de texto es la capacidad para realizar búsquedas, destacándose por la gran velocidad de respuesta y el cálculo de relevancia de los documentos con respecto a la consulta ingresada, lo cual permite ordenar los resultados según este valor. Es decir, los documentos con contenido mas relevante aparecen en los primeros lugares de la respuesta.
En lo que respecta a la experiencia de SeDiCI, el uso de indexadores de texto (particularmente Apache Solr) ha permitido trabajar en la actualidad con mas de 20 millones de documentos recolectados desde repositorios externos, permitiendo búsquedas que demoran pocos segundos (o incluso milisegundos), y abriendo un amplio abanico de posibilidades en cuanto líneas de investigación, en pos de nuevos y mejores servicios para los usuarios.