Sobre Linguakit


Con Linguakit explorar, analizar e obter unha mellor información de textos e documentos escritos é posible.

Esta web multilingue, que integra, entre outras ferramentas lingüísticas, un resumidor, un analizador de sentimento ou un extractor das palabras chave que dan sentido a un texto, vai dirixida a un amplo abano de usuarios que fan da lingua un uso profesional, educativo ou xeral.

Linguakit está pensado para que toda persoa que posúa interese lingüístico poida sacarlle o máximo proveito aos textos escritos.

Esta plataforma presenta os seus módulos lingüísticos organizados en catro apartados orientativos: un primeiro que atende a aspectos máis xenéricos da linguaxe con módulos como o conxugador; un segundo, para un perfil de usuario máis ligado ao ámbito educativo, con módulos como o etiquetador morfosintáctico ou o analizador sintáctico; un apartado pensado para profesionais da comunicación e marketing como o analizador de sentimento ou o extractor de palabras chave; e, por último, un apartado experimental onde Linguakit presenta as novas ferramentas en proxecto.

Linguakit é unha idea de Cilenis Language Technology que xurde froito de anos de investigación da empresa no campo do Procesamento da Linguaxe Natural (PLN).

Análise completa

A páxina de inicio de Linguakit ofrece unha mostra de todas as posibilidades que ten o usuario para traballar coa lingua.

Aquí podes coñecer o número de palabras e frases do texto e a súa tipoloxía, un resumo do seu contido así como o sentimento dese resumo. Ademais, Linguakit facilítache as cinco palabras e multipalabras máis relevantes do texto, as entidades máis importantes que alí se mencionan, as palabras máis frecuentes e o contexto no que aparece a palabra chave escollida.

No entanto, para ampliar esta información só tes que facer clic na ferramenta desexada. E para outras ferramentas como o etiquetador morfosintáctico e o analizador sintáctico, que non poden mostrar un resultado parcial, aparece o link que redirixe o texto a estas ferramentas para obter o resultado completo.

Resumidor

Está claro que, dada a enorme cantidade de información que en moitos casos temos que manexar, necesitamos unha axuda que nos faga máis viable a tarefa de acceder á información principal que nos interesa. Tanto se se trata de traballar con fontes moi extensas ás que teriamos que dedicarlle o tempo de exame do que non dispomos, ou simplemente cando nos interesa atopar as ideas principais ou chave que alí se recollen.

O resumidor de Linguakit proporciona esa axuda. O seu sistema consta dos seguintes módulos: segmentación de oracións, análise morfosintáctico, extractor de palabras e multipalabras chave e ponderación de oracións. Con todo iso, disporemos, nun só clic, dun resumo que favorecerá, sen dúbida, a rápida selección da información que procuramos.

Dispoñible para inglés, español, portugués e galego

Conxugador verbal

O conxugador verbal de Linguakit permite, dunha forma rápida e eficaz, conxugar calquera verbo en español, portugués e galego:

  • verbos aceptados pola súa correspondente Academia da Lingua
  • verbos de dobre conxugación acostar (atendendo á diferenza de significado)
  • verbos de recente creación wasapear ou mesmo
  • verbos inventados.

Para o caso do idioma portugués, o conxugador ofrece a opción de escoller entre as distintas variantes da lingua antes ou despois do seu Acordo Ortográfico de 1990.

Frecuencia de palabras

Este analizador da frecuencia de palabras axúdanos a coñecer o estilo dos outros, pero tamén a coidar o propio.

Con este novo módulo descubrirás, nun clic, a frecuencia das palabras contidas nun texto atendendo á súa categoría gramatical (verbos, adverbios, nomes, adxectivos, entidades, léxico...). Proporciona tamén datos xenéricos como: o número de frases, de palabras, de lemas e de caracteres con e sen espazos en branco. Ademais, co analizador de frecuencias podes coñecer a variedade léxica do texto calculada como unha ratio do número de lemas entre o número de palabras.

Palabras chave en contexto

Tamén denominado KWIC, é unha ferramenta que busca no texto seleccionado a palabra que nos interesa para automaticamente obter información do seu contexto. Deste xeito, coñecendo o contexto anterior e posterior, así como o número de veces que esta palabra aparece no texto, teremos en poucos segundos unha aproximación da información que se está a tratar no documento.

Listo para buscar información en inglés, español, portugués e galego.

Etiquetador morfosintáctico

O Freeling analyzer, que está detrás desta ferramenta, é un etiquetador de palabras, un lematizador que permite o recoñecemento da orixe de calquera palabra até chegar á súa forma primitiva, proporcionándonos información morfolóxica de cada lema: dun verbo conxugado daranos o seu infinitivo, dunha contracción indicaranos as partes das que consta, etc. Analiza un texto proporcionando a cada palabra unha etiqueta coas súas características morfolóxicas (nome, verbo, singular, masculino...).

Ademais, esta ferramenta traballa cun recoñecedor de entidades podendo identificartamén nomes de persoa, organismos ou localizacións como un só lema. Próbao en inglés, español, portugués e galego.

Analizador sintáctico

Este sistema, que parte dunha primeira análise morfosintáctica das palabras do texto escollido, proporciónanos unha análise completa das relacións sintácticas entre os pares de palabras. Así, para cada par de palabras, accedemos á información sobre o nome dese tipo de relación sintáctica ou de dependencia, coñecemos que palabra é núcleo e cal é dependente dentro de cada par, a súa categoría gramatical e a súa posición na frase.

Esta ferramenta permite a detección e recuperación de elementos que resultan de interese nos textos que estudamos. Así, por exemplo, poderiamos saber como se adxectiva ou cualifica ao longo dun texto, unha persoa, un obxecto ou unha marca. Dispoñible para inglés, español, portugués e galego

Analizador de sentimento

O analizador de sentimiento ou analizador de opinión é outra das ferramentas que integran o noso kit lingüístico e, na actualidade, é unha das máis demandadas para a análise de gran número de documentos relacionados, por exemplo, coas redes sociais.

A enorme influencia que poden ter as opinións en futuros usuarios con respecto a unha marca, un produto ou unha empresa, ou as opinións dun potencial votante respecto dun político fan que desexemos saber todo o que deles se di, xa sexa positivo, negativo ou neutro.

Dispoñible en inglés, español, portugués e galego.

Identificador de idioma

O identificador de idioma recoñece a lingua na que se escribe un texto grazas á utilización de modelos de linguaxe e de estruturas morfolóxicas. Distingue español, portugués, inglés, francés, catalán, euskera e galego, mesmo nas súas variantes RAG (Real Academia da Lingua Galega) e AGAL (Associaçom Galega daLíngua) e as linguas da India: indhi, bengalí, urdu e tamil.

Extractor de palabras chave

O extractor de palabras chave identifica as palabras máis importantes dun texto e clasifícaas segundo o seu grao de relevancia. É chave para a detección inmediata de tema, para a etiquetaxe automática e a clasificación documental.

Con cada vez máis frecuencia atopámolo nos diarios dixitais para destacar, con palabras de distinto tamaño, os temas tratados, por exemplo, nun debate político.

Dispoñible en inglés, español, portugués e galego.

Extractor multipalabra

O extractor multipalabra amplía a procura do extractor de palabras clave a termos e temas que precisan de máis dunha palabra para expresarse e clasifícaas segundo o seu grao de cohesión interna, por exemplo: "As taxas hipotecarias", "prezos da vivenda", "guerra de prezos". A combinación de ambos os extractores ofrece un resultado máis potente. Tamén está dispoñible en inglés, español, portugués e galego.

Recoñecedor de entidades

O recoñecedor de entidades extrae dun texto as entidades, nomes propios e palabras ou datos numéricos relevantes, que clasifica como persoas, lugares, organizacións, organismos, datas, cantidades...

Mediante a combinación dunha análise morfosintáctica e algoritmos de aprendizaxe automática, este módulo ofrece o recoñecemento de entidades e a clasificación das mesmas.

Podes coñecer rapidamente as persoas, os lugares... que se mencionan no teu texto e podes facelo con textos en inglés, español, portugués e galego.

Supercorrector

Este módulo de corrección automática, pensado para linguas como o castelán, portugués e inglés, foi desenvolvido na súa fase prototipo en lingua galega. O supercorrector analiza o texto buscando erros ortográficos, léxicos e gramaticais e ofrece, por unha banda, información sobre o tipo de erro atopado, posibles solucións e unha explicación detallada da súa importancia, e por outra, información, con estatísticas e gráficos, do nivel de corrección e calidade da lingua escrita.

O supercorrector está en fase beta, o que significa que xa é utilizable con resultados de corrección moi superiores aos dos tradicionais correctores e cunha boa parte das funcionalidades de aprendizaxe xa dispoñibles. Todas as melloras de funcionalidades e precisión serán incorporadas durante o proxecto piloto.

O sistema de avaliación está pensado para aplicarse en dous contextos de aprendizaxe de linguas: o individual (autoaprendizaxe) e o colectivo. No plano individual, permite que o estudante visualice, interiorice e tome consciencia dos erros dunha maneira autónoma, sen esperar a corrección do profesor, podendo así buscar as estratexias de superación do erro máis eficaces e progresando a un ritmo que se adapta ás súas necesidades. E no plano colectivo, minimiza o tempo de corrección e avaliación puramente lingüística. O profesor pode coñecer rapidamente os tipos de erro máis frecuentes dos seus alumnos, podendo así adicar máis tempo á preparación de material e actividades adecuadas para traballar os casos máis problemáticos.

Por último, unha institución ou organización estatal pode seleccionar unha mostra de centros escolares representativos, e coñecer sen grandes investimentos materiais e humanos o nivel de lingua da poboación de estudantes obxecto da avaliación.

Dispón de ferramentas de Procesamento da Linguaxe Natural que facilitan o traballo de identificación de erros lingüísticos (identificador de entidades, etiquetador morfosintáctico, analizador sintáctico...). E posúe tamén os recursos lingüísticos para unha avaliación automática (léxicos computacionais, corpus de entrenamento...) desenvolvidos, na súa maioría, polo grupo de investigación ProlNat@GE.

O extractor de tripletas

Esta ferramenta experimental abre novas posibilidades no campo da análise textual en Linguakit porque mellora a estruturación do contido.

Para cada texto, o extractor de tripletas extrae automaticamente aquilo que se di de cada suxeito enunciado porque irá, frase por frase, extraendo as tripletas semánticas: Suxeito-Relación-Obxecto. Detecta as relacións existentes entre elementos: de que se está a falar ou que se di dos diferentes suxeitos dun texto.

Cun deseño moi visual, atractivo e directo, Linguakit busca ser útil e práctico para todas aquelas persoas que buscan acceder a unha información de carácter lingüístico a través deste portal. Cun só clic accedemos á ferramenta que necesitamos e alí atopamos unha caixa que pedirá ou un texto, un verbo, ou unha palabra. O seguinte paso é seleccionar lingua e, co último clic, obteremos o resultado. Buscamos claridade no manexo e nas respostas. Queremos que o usuario poida interpretar e recoller a información que solicita dunha maneira eficaz e satisfactoria.

Este portal de ferramentas ten varias opcións de uso: É gratuíto para calquera usuario anónimo até 10 usos ao día (máximo 5.000 caracteres por consulta). Se o usuario se rexistra, pode aumentar o número de consultas gratuítas a 1.000 ao mes (máximo 20.000 caracteres por consulta).