Sobre Linguakit


Con Linguakit explorar, analizar y obtener una mejor información de textos y documentos escritos es posible.

Esta web multilingue, que integra, entre otras herramientas lingüísticas, un resumidor, un analizador de sentimiento o un extractor de las palabras clave que dan sentido a un texto, va dirigida a uno amplio abanico de usuarios que hacen de la lengua un uso profesional, educativo o general.

Linguakit está pensado para que toda persona que posea interés lingüístico pueda sacarle el máximo partido a los textos escritos.

Esta plataforma presenta sus módulos lingüísticos organizados en cuatro apartados orientativos: un primero que atiende a aspectos más genéricos del lenguaje con módulos como el conjugador; un segundo, para un perfil de usuario más ligado al ámbito educativo, con módulos como el etiquetador morfosintáctico o el analizador sintáctico; un tercer apartado pensado para profesionales de la comunicación y marketing como el analizador de sentimiento o el extractor de palabras clave; y, por último, un apartado experimental donde Linguakit presenta las nuevas herramientas en proyecto.

Linguakit es una idea de Cilenis Language Technology que surge fruto de años de investigación de la empresa en el campo del Procesamiento del Lenguaje Natural (PLN).

Análisis completo

La página de inicio de Linguakit ofrece una muestra de todas las posibilidades que tiene el usuario para trabajar con la lengua.

Aquí puedes conocer el número de palabras y frases del texto, y su tipología, un resumen de su contenido así como el sentimiento de ese resumen. Además, Linguakit te facilita las cinco palabras y multipalabras más relevantes del texto, las entidades más importantes que allí se mencionan, las palabras más frecuentes y el contexto en el que aparece la palabra clave escogida.

No obstante, para ampliar esta información sólo tienes que hacer clic en la herramienta deseada para ver el análisis completo. Y para otras herramientas como el etiquetador morfosintáctico y el analizador sintáctico, que no pueden mostrar un resultado parcial, aparece el link que redirige el texto a estos módulos para obtener el resultado completo.

Resumidor

Está claro que, dada la enorme cantidad de información que en muchos casos tenemos que manejar, necesitamos una ayuda que nos haga más viable la tarea de acceder a la información principal que nos interesa. Tanto si se trata de trabajar con fuentes muy extensas a las que tendríamos que dedicarle el tiempo de examen del que no disponemos, o simplemente cuando nos interesa encontrar las ideas principales que allí se recogen.

El resumidor de Linguakit proporciona esa ayuda. Su sistema consta de los siguientes módulos: segmentación de oraciones, análisis morfosintáctico, extractor de palabras y multipalabras clave y ponderación de oraciones. Con todo ello, dispondremos, en un solo clic, de un resumen que favorecerá, sin duda, la rápida selección de la información que buscamos.

Disponible para inglés, español, portugués y gallego.

Conjugador verbal

El conjugador verbal de Linguakit permite, de una forma rápida y eficaz, conjugar cualquier verbo en español, portugués y gallego:

  • verbos aceptados por su correspondiente Academia de la Lengua
  • verbos de doble conjugación acostar (atendiendo a la diferencia de significado)
  • verbos de reciente creación wasapear o incluso
  • verbos inventados

Para el caso del idioma portugués, el conjugador ofrece la opción de escoger entre las distintas variantes de la lengua antes o después de su Acuerdo Ortográfico de 1990.

Frecuencia de palabras

Este analizador de la frecuencia de palabras nos ayuda a conocer el estilo de los otros, pero también a cuidar el propio.

Con este nuevo módulo descubrirás, en un clic, la frecuencia de las palabras contenidas en un texto atendiendo a su categoría gramatical (verbos, adverbios, nombres, adjetivos, entidades, léxico...). Proporciona también datos genéricos cómo: el número de frases, de palabras, de lemas y de caracteres con y sin espacios en blanco. Con el analizador de frecuencias puedes conocer la variedad léxica del texto calculada como una ratio del número de lemas entre el número de palabras.

Palabra clave en contexto

También denominado KWIC, es una herramienta que busca en el texto seleccionado la palabra que nos interesa para automáticamente obtener información de su contexto. De esta manera, conociendo su contexto anterior y posterior, así como el número de veces que esta palabra aparece en el texto, tendremos en pocos segundos una aproximación de la información que se está a tratar en el documento.

Listo para buscar el contexto en inglés, español, portugués y gallego.

Etiquetador morfosintáctico

El Freeling analyzer, que está detrás de esta herramienta, es un etiquetador de palabras, un lematizador que permite el reconocimiento del origen de cualquier palabra hasta llegar a su forma primitiva, proporcionándonos información morfológica de cada lema: de un verbo conjugado nos dará su infinitivo, de una contracción nos indicará las partes de las que consta, etc. Analiza, por lo tanto, un texto proporcionando a cada palabra una etiqueta con sus características morfológicas (nombre, verbo, singular, masculino...). Esta herramienta, además, trabaja con un reconocedor de entidades que selecciona nombres de persona, organismos o localizaciones como un solo lema.

Pruébalo en inglés, español, portugués y gallego.

Analizador sintáctico

Este sistema, que parte de un primer análisis morfosintáctico de las palabras del texto escogido, nos proporciona un análisis completo de las relaciones sintácticas entre los pares de palabras. Así, para cada par de palabras, accedemos a la información sobre el nombre de ese tipo de relación sintáctica o de dependencia, conocemos qué palabra es núcleo y cuál es dependiente dentro de cada par, su categoría gramatical y su posición en la frase.

Esta herramienta permite la detección y recuperación de elementos que nos pueden resultar de interés en los textos que estudiamos. Así, por ejemplo, podríamos saber cómo se adjetiva o califica, a lo largo de un texto, una persona, un objeto o una marca.

Disponible en inglés, español, portugués y gallego.

Analizador de sentimiento

El analizador de sentimiento o analizador de opinión es otra de nuestras herramientas del kit lingüístico y, en la actualidad, es una de las más demandadas para el análisis de gran número de documentos relacionados, por ejemplo, con las redes sociales.

La enorme influencia que pueden tener las opiniones en futuros usuarios con respecto a una marca, un producto o una empresa, o las opiniones de un potencial votante respecto a un político hacen que deseemos saber todo lo que de ellos se dice, ya sea positivo, negativo o neutro.

Disponible en inglés, español, portugués y gallego.

Identificador de idioma

El identificador de idioma reconoce la lengua en la que se escribe un texto gracias a la utilización de modelos de lenguaje y de estructuras morfológicas. Distingue español, portugués, inglés, francés, catalán, euskera y gallego, incluso en sus variantes RAG (Real Academia da Lingua Galega) y AGAL (Associaçom Galega da Língua) y las lenguas de La India: indhi, bengalí, urdu y tamil.

Extractor de palabras clave

El extractor de palabras clave extrae las palabras más importantes de un texto y las clasifica según su grado de relevancia. Es clave para la detección inmediata de tema, para el etiquetado automático y la clasificación documental.

Con cada vez más frecuencia lo encontramos en los diarios digitales para destacar, con palabras de distinto tamaño, los temas tratados, por ejemplo, en un debate político.

Pruébalo en inglés, español, portugués y gallego.

Extractor multipalabra

El extractor multipalabra amplía la búsqueda del extractor de palabras clave a términos y temas que necesitan más de una palabra para expresarse y las clasifica según su grado de cohesión interna, por ejemplo: "Las tasas hipotecarias", "precios de la vivienda", "guerra de precios". La combinación de ambos extractores ofrece un resultado más potente. También está disponible en inglés, español, portugués y gallego.

Reconocedor de entidades

El reconocedor de entidades extrae de un texto las entidades, nombres propios y palabras o datos numéricos relevantes, que clasifica como personas, lugares, organizaciones, organismos, fechas, cantidades...

Mediante la combinación de un análisis morfosintáctico y algoritmos de aprendizaje automático, este módulo ofrece el reconocimiento de entidades y la clasificación de las mismas.

Puedes conocer rápidamente las personas, los lugares... que se mencionan en tu texto y puedes hacerlo con textos en inglés, español, portugués y gallego.

Supercorrector

Este módulo de corrección automática, pensado para lenguas como el castellano, portugués e inglés, ha sido desarrollado en su fase prototipo en lengua gallega. El supercorrector de Linguakit analiza el texto buscando errores ortográficos, léxicos y gramaticales y ofrece, por un lado, información sobre la clase de error localizado, sus posibles soluciones y una explicación detallada de su importancia, y por otro, información, con estadísticas y gráficos, del nivel de corrección y calidad de la lengua escrita.

El supercorrector está en fase beta, lo que significa que ya es utilizable con resultados de corrección muy superiores a los de los tradicionales correctores y con una buena parte de las funcionalidades de aprendizaje ya disponibles. Todos los avances de funcionalidades y precisión serán incorporados durante el proyecto piloto.

Este sistema de evaluación está pensado para aplicarse en dos contextos propios del aprendizaje de lenguas: el individual o (autoaprendizaje) y el colectivo. En el plano individual, permite que el estudiante visualice, interiorice y tome consciencia de los errores de una manera autónoma, sin esperar la corrección del profesor, pudiendo así buscar las estrategias de superación del error más eficaces y progresando a un ritmo que se adapte a sus necesidades. Y en el plano colectivo, minimiza el tiempo de corrección y evaluación puramente lingüística. El profesor puede conocer rápidamente los tipos de error más frecuentes de sus alumnos, pudiendo así dedicar más tiempo a la preparación de material y actividades adecuadas para trabajar los casos más problemáticos. Por último, una institución u organización estatal puede seleccionar una muestra de centros escolares representativos, y conocer sin grandes inversiones materiales y humanos el nivel de lengua de la población de estudiantes objeto de la evaluación.

Dispone de herramientas de Procesamiento del Lenguaje Natural que facilitan el trabajo de identificación de errores lingüísticos (identificador de entidades, etiquetador morfosintáctico, analizador sintáctico...). Y posee también los recursos lingüísticos para una evaluación automática (léxicos computacionales, corpus de entrenamiento...) desarrollados, en su mayoría, por el grupo de investigación ProlNat@GE.

Extractor de tripletas

Esta herramienta abre nuevas posibilidades en el campo del análisis textual en Linguakit porque mejora la estructuración del contenido.

Para cada texto, el extractor de tripletas extrae automáticamente aquello que se dice de cada sujeto enunciado porque irá, frase por frase, extrayendo las tripletas semánticas: Sujeto-Relación-Objeto. Detecta las relaciones existentes entre elementos: de qué se está hablando o qué se dice de los diferentes sujetos de un texto.

Con un diseño muy visual, atractivo y directo, Linguakit busca ser útil y práctico para todas aquellas personas que buscan acceder a una información de carácter lingüístico a través de este portal. Con un solo clic accedemos a la herramienta que necesitamos y allí encontramos una caja que pedirá o un texto, un verbo, o una palabra. El siguiente paso es seleccionar lengua y, con el último clic, obtendremos el resultado.

Buscamos claridad en el manejo y en las respuestas. Queremos que el usuario pueda interpretar y recoger la información que solicita de una manera eficaz y satisfactoria.

Este portal de herramientas tiene varias opciones de uso: Es gratuito para cualquier usuario anónimo hasta 10 usos al día (máximo 5.000 caracteres por consulta). Si el usuario se registra, puede aumentar el número de consultas gratuitas a 1.000 al mes (máximo 20.000 caracteres por consulta).