GloVe

De Wikipedia, la enciclopedia libre

GloVe, acuñado a partir de su nombre en inglés Global Vectors ( Vectores Globales), es un modelo para la representación de palabras distribuidas. El modelo es un algoritmo de aprendizaje no supervisado para obtener representaciones vectoriales de palabras. Esto se logra asignando palabras a un espacio significativo donde la distancia entre las palabras está relacionada con la similitud semántica.[1]​ El entrenamiento se realiza sobre aglomeraciones globales de palabra a palabra por coocurrencia estadística a partir de un corpus, y las representaciones resultantes muestran subestructuras lineales interesantes del espacio vectorial de palabras. Se desarrolla como un proyecto decódigo abierto en Stanford[2]​ y se lanzó en 2014. Como modelo de regresión log-bilineal para el aprendizaje no supervisado de representaciones de palabras, combina las características de dos familias de modelos, a saber, la factorización de matriz global y los métodos de ventana de contexto local.[3]

Aplicaciones[editar]

GloVe se puede utilizar para encontrar relaciones entre palabras como sinónimos, relaciones empresa-producto, códigos postales y ciudades, etc. Sin embargo, el algoritmo de aprendizaje no supervisado no es efectivo para identificar homógrafos, es decir, palabras con la misma ortografía y diferentes significados. Esto se debe a que el algoritmo de aprendizaje no supervisado calcula un solo conjunto de vectores para palabras con la misma estructura morfológica.[4]​ El algoritmo también es utilizado por la biblioteca SpaCy para crear funciones de incrustación de palabras semánticas, mientras calcula las palabras principales de la lista que coinciden con medidas de distancia como lasimilitud coseno o la distancia euclidiana.[5]​ GloVe también se utilizó como marco de representación de palabras para los sistemas en línea y fuera de línea diseñados para detectar malestar psicológico en entrevistas con pacientes.[1]

Véase también[editar]

Referencias[editar]

  1. a b Abad, Alberto; Ortega, Alfonso; Teixeira, António; Mateo, Carmen; Hinarejos, Carlos; Perdigão, Fernando; Batista, Fernando; Mamede, Nuno (2016). Advances in Speech and Language Technologies for Iberian Languages: Third International Conference, IberSPEECH 2016, Lisbon, Portugal, November 23-25, 2016, Proceedings (en inglés). Cham: Springer. p. 165. ISBN 9783319491691. 
  2. GloVe: Global Vectors for Word Representation (pdf) "We use our insights to construct a new model for word representation which we call GloVe, for Global Vectors, because the global corpus statistics are captured directly by the model."
  3. Kalajdziski, Slobodan (2018). ICT Innovations 2018. Engineering and Life Sciences (en inglés). Cham: Springer. p. 220. ISBN 9783030008246. 
  4. Wenig, Phillip (2019). «Creation of Sentence Embeddings Based on Topical Word Representations: An approach towards universal language understanding». Towards Data Science. 
  5. Singh, Mayank; Gupta, P. K.; Tyagi, Vipin; Flusser, Jan; Ören, Tuncer I. (2018). Advances in Computing and Data Sciences: Second International Conference, ICACDS 2018, Dehradun, India, April 20-21, 2018, Revised Selected Papers. Singapore: Springer. p. 171. ISBN 9789811318122. 

Enlaces externos[editar]