Frequency Analysis Interpolation (FAI) – Un método de Representación de Textos de Baja Dimensionalidad para Problemas de Author Profiling en Entornos Big Data

Frequency Analysis Interpolation (FAI)

Òscar Gàribo Orts

Dirección: Francisco Rangel

Trabajo Final de Máster en Big Data Analytics, Universitat Politècnica de València, 2019

El objeto de este Trabajo Final de Máster es la exploración de nuevos métodos de representación de baja dimensionalidad de textos que permitan abordar problemas de perfilado de autores (Author Profiling) en entornos Big Data, entendiendo el concepto en sus cuatro vertientes: volumen, velocidad, variedad y valor. Para ello hemos propuesto el método Frequency Analysis Interpolation (FAI) y lo hemos comparado con métodos del estado del arte en problemas de Author Profiling: Low Dlmeisloiailty Statlstlcai Embeddlins (LDSE) y Word Embeddings (Word2Vec).

Hemos optado por una representación de los textos por la frecuencia de aparición de las palabras, ya que las frecuencias son fácilmente concebidas como probabilidades. A partir de esta representación básica hemos calculado
estadísticos tales como la media, desviación típica y coeficiente de asimetría o skewness.

Un análisis del coeficiente de asimetría para un problema de clasificación entre dos clases nos muestra su relevancia y valor como característica. El estudio de los valores de las probabilidades a priori de pertenencia a cada una de las clases nos muestra que la distribución resultante se encuentra desplazada de la media. Es por esto que añadimos como características el número de palabras del vocabulario cuyas probabilidades a priori de pertenencia a cada una de las clases pertenezca a cada uno de los tres terciles.

Definimos FAI como un nuevo método de representación de baja dimensionalidad de texto. Realizamos experimentos en seis corpora diferentes y comparamos los resultados obtenidos con FAI con los resultados de LDSE y Word2Vec. Finalmente, utilizamos FAI como método de representación de texto en tres tareas internacionales de Author Profiling y establecemos que FAI es un método competitivo y que aporta ventaja en cuanto a que capta particularidades en las palabras típicas de cada una de las clases.

Descarga del trabajo completo