Recuperación y acceso a la información

Recuperación y Acceso a la Información es un término muy reciente, que es acuñado en gran parte por la sociedad dominada por el Big Data en la que vivimos.

Por tanto, entendemos por este concepto, los tipos de mecanismos que nos permiten filtrar, recuperar y últimamente acceder a información relevante.

Un ejemplo podría ser un Un buscador web , en este caso hablamos de un sistema encargado de la búsqueda, recuperación y acceso a la información, en una base de datos o repositorio documental, de términos importantes para el usuario en base a una serie de criterios.

Otro ejemplo podría ser un buscador de películas en Netflix, que nos permita recuperar las películas que se adecúen más a nuestra información personal.

Optimización en motores de búsqueda
web (SEO/SEM)

¿Qué es SEO y SEM?

Search Engine Optimization (SEO) u optimización para motores de búsqueda es el procedimiento que se realiza en una web para conseguir que se posicione en los primeros resultados del motor de búsqueda gratuita. 

Search Engine Marketing (SEM) o el marketing para motores de búsqueda es una técnica para el posicionamiento a través del pago a buscadores. Estos son los anuncios que aparecen en los primeros resultados de cualquier búsqueda. 

La principal diferencia entre ambas técnicas se podría decir que es el periodo de tiempo que tardaría un usuario en ver los resultados. En el primer caso (SEO) el resultado sería visible a medio/largo plazo, y en el segundo caso (SEM), gracias a los anuncios y al marketing establecido los resultados son mucho más directos. 

El posicionamiento que se haya conseguido con SEO permanece en el tiempo mientrás la página esté actualizada siguiendo los algoritmos de búsqueda. Sin embarcon con SEM, el posicionamiento se ajusta a un momento determinado dependiendo del presupuesto y del marketing. En definitiva, SEM posicionará la página durante el tiempo que se determine en el pago, y SEO es gratuito y depende del uso y su implementación. 

La optimización en motores a través de herramientas de SEO y SEM es una parte fundamental de la Recuperación y Acceso a la Información.

Procesamiento del lenguaje (PLN)

El procesamiento del lenguaje natural es el ámbito de la inteligenica artificial que se ocupa de estudiar la interacción entre las máquinas y las personas, a través de idiomas o lenguas naturales como el españo, el portugués o el danés. 

Estas lenguas pueden expresarse tanto  textualmente, oralmente o mediante signos. Los componentes del procesamiento del lenguaje natural son: 

  • Morfológico o léxico
  • Sintáctico
  • Semántico 
  • Pragmático 

Cualquiera de los analisis de los anteriores se aplica dependiendo de la finalidad de la aplicación. Por ejemplo un conversor de texto a voz no necesita ni el análisis pragmático ni el semántico. 

Finalmente, otros ejemplos de procesamiento de lenguaje natural son Siri, Alexa, Cortana…

El procesamiento del lenguaje PLN es la herramienta de la Recuperación y Acceso a la Informcación que une de la mano lo especial del ser humano con lo extraordinario de sistemas digitales.

Técnicas de extracción de información web

La extracción de datos web consiste en la copia masiva de datos realizada por bots. Estos datos se pueden almacenar en una base de datos o en cualquier fichero de tú ordenador. 

¿Cómo funciona la extracción de datos web? 

Primero hay que crear un rastreador e introducir la url de la página web de la cual se desea extraer la información. Se solicita http a la url del sitio web, y si tiene acceso, contesta a esa solicitud devolviendo el contenido de las paginas web.  

El segundo paso consiste en inspeccionar la página e interpretar la estructura del código html. Es una estructura de árbol que ayuda al rastreador a seguir rutas para obtener datos. 

Por último, la herramienta extrae los datos que necesita y los almacena. Cuando finaliza esta extracción, escoge un formato y exporta los datos.