Lema de Johnson-Lindenstrauss

En matemáticas, el lema de Johnson-Lindenstrauss es un resultado que lleva el nombre de William B. Johnson y Joram Lindenstrauss sobre encajes de puntos de baja distorsión, desde el espacio euclídeo de alta dimensión al espacio euclídeo de baja dimensión. El lema establece que un conjunto de puntos en un espacio de dimensión alta se puede incrustar en un espacio de dimensión mucho más baja de tal manera que las distancias entre los puntos casi se conservan. El mapa utilizado para el encaje es al menos lipschitziano, e incluso puede tomarse como una proyección ortogonal.

El lema tiene aplicaciones en detección comprimida, aprendizaje de variedades, reducción de dimensionalidad y embebido de grafos. Gran parte de los datos almacenados y manipulados en las computadoras, incluyendo texto e imágenes, se pueden representar como puntos en un espacio de alta dimensión (consúltese el artículo modelo de espacio vectorial para el caso del texto). Sin embargo, los algoritmos esenciales para trabajar con dichos datos tienden a funcionar cada vez con mayor lentitud a medida que aumenta la dimensión. Por lo tanto, es deseable reducir la dimensionalidad de los datos de una manera que conserve su estructura relevante. El lema de Johnson-Lindenstrauss es un resultado clásico en este sentido.

Además, el lema es estrecho módulo un factor constante, es decir que existe un conjunto de puntos de tamaño m que necesita dimensión

\Omega \left({\frac {\log(m)}{\varepsilon ^{2}}}\right)

para que se puedan preservar las distancias entre todos los pares de puntos dentro de un factor de $(1\pm \varepsilon )$ .^[1]^[2]

Lema[editar]

Dado $0<\varepsilon <1$ , un conjunto $X$ de $m\in \mathbb {Z} _{\geq 1}$ puntos en $\mathbb {R} ^{N}$ ( $N\in \mathbb {Z} _{\geq 0}$ ), y un número entero $n>8(\ln m)/\varepsilon ^{2}$ , existe un mapa lineal $f:\mathbb {R} ^{N}\rightarrow \mathbb {R} ^{n}$ tal que

(1-\varepsilon )\|u-v\|^{2}\leq \|f(u)-f(v)\|^{2}\leq (1+\varepsilon )\|u-v\|^{2}

para todos $u,v\in X$ .

La fórmula se puede reorganizar como sigue:

(1+\varepsilon )^{-1}\|f(u)-f(v)\|^{2}\leq \|u-v\|^{2}\leq (1-\varepsilon )^{-1}\|f(u)-f(v)\|^{2}

Alternativamente, para cualquier

\epsilon \in (0,1)

y cualquier entero

n\geq 15(\ln m)/\varepsilon ^{2}

^{[Nota 1]} existe una función lineal

f:\mathbb {R} ^{N}\rightarrow \mathbb {R} ^{n}

tal que la restricción

f|_{X}

es

(1+\varepsilon )

- bi-lipschitziana.^{[Nota 2]}

Una prueba del lema toma ƒ como un múltiplo adecuado de la proyección ortogonal sobre un subespacio aleatorio de dimensión $n$ en $\mathbb {R} ^{N}$ , y explota el fenómeno de la concentración de la medida.

En general, una proyección ortogonal reducirá la distancia promedio entre los puntos, pero se puede considerar que el lema trata con distancias relativas, que no cambian con la escala. En pocas palabras, tiras los dados y obtienes una proyección aleatoria, que reducirá la distancia promedio, y luego aumentas las distancias para que la distancia promedio vuelva a su valor anterior. Si continúa tirando los dados, encontrará, en tiempo aleatorio polinomial, una proyección para la cual las distancias (escaladas) satisfacen el lema.

Declaración alternativa del lema[editar]

Un lema relacionado es el lema distribucional JL. Este lema establece que para cualquier $0<\varepsilon ,\delta <1/2$ y entero positivo $d$ , existe una distribución probabilística sobre el espacio $\mathbb {R} ^{k\times d}$ de donde la matriz $A$ se toma tal que para $k=O(\varepsilon ^{-2}\log(1/\delta ))$ y para cualquier vector de longitud unitaria $x\in \mathbb {R} ^{d}$ , se mantiene la siguiente afirmación.^[3]

P(|\Vert Ax\Vert _{2}^{2}-1|>\varepsilon )<\delta

Se puede obtener el lema JL de la versión distribucional definiendo $x=(u-v)/\|u-v\|_{2}$ y $\delta <1/n^{2}$ para algún par $u,v$ ambos en $X$ . Entonces el lema JL sigue por una cuota de unión sobre todos esos pares.

Aceleramiento de la transformación JL[editar]

Dado A, calcular el producto vectorial de la matriz toma tiempo $O(kd)$ . Ha habido investigación en la derivación de distribuciones para las cuales el producto vectorial de matrices se puede calcular en tiempo menor que $O(kd)$ .

Hay dos grandes líneas de trabajo. La primera, Fast Johnson Lindenstrauss Transform (FJLT),^[4] fue presentada por Ailon y Chazelle en 2006. Este método permite calcular el producto matriz-vector en tan solo $d\log d+k^{2+\gamma }$ para cualquier constante $\gamma >0$ .

Otro enfoque es construir una distribución compatible con matrices que son dispersas.^[5] Este método permite mantener sólo un fracción $\varepsilon$ de las entradas en la matriz, lo que significa que el cálculo se puede hacer en tiempo tan solo $kd\varepsilon$ . Además, si el vector tiene sólo $b$ entradas distintas de cero, el Lema JL disperso toma tiempo $kb\varepsilon$ , que puede ser mucho menor que el tiempo utilizado por el Lema JL rápido, que es $d\log d$ .

Proyecciones aleatorias tensorizadas[editar]

Es posible combinar dos matrices JL tomando el llamado producto de división de caras, que se define como los productos tensoriales de las filas (propuesto por V. Slyusar^[6] en 1996^[7]^[8]^[9]^[10]^[11] para aplicaciones de conjuntos de antenas digitales y de radares ). Más concretamente, sean ${C}\in \mathbb {R} ^{3\times 3}$ y ${D}\in \mathbb {R} ^{3\times 3}$ dos matrices. Entonces el producto de división de cara ${C}\bullet {D}$ es dado por^[7]^[8]^[9]^[10]^[11]

{C}\bullet {D}=\left[{\begin{array}{c }{C}_{1}\otimes {D}_{1}\\\hline {C}_{2}\otimes {D}_{2}\\\hline {C}_{3}\otimes {D}_{3}\\\end{array}}\right].

La idea de tensorización fue utilizada por Kasiviswanathan et al. 2010^[12] para la rama de privacidad diferencial.

Las matrices JL definidas así usan menos bits aleatorios y se pueden aplicar rápidamente a vectores que tienen estructura tensorial, debido a la siguiente identidad:^[9]

(\mathbf {C} \bullet \mathbf {D} )(x\otimes y)=\mathbf {C} x\circ \mathbf {D} y=\left[{\begin{array}{c }(\mathbf {C} x)_{1}(\mathbf {D} y)_{1}\\(\mathbf {C} x)_{2}(\mathbf {D} y)_{2}\\\vdots \end{array}}\right]

,

dónde $\circ$ es el producto entrada por entrada (Hadamard). Dichos cálculos se han utilizado para calcular de manera eficiente los núcleos polinómicos y muchos otros algoritmos de álgebra lineal.^[13]

En 2020^[14] se demostró que si las matrices $C_{1},C_{2},\dots ,C_{c}$ son matrices independientes con entradas $\pm 1$ o Gaussianas, la matriz combinada $C_{1}\bullet \dots \bullet C_{c}$ satisface el lema distribucional JL si el número de filas es al menos

O(\epsilon ^{-2}\log 1/\delta +\epsilon ^{-1}({\tfrac {1}{c}}\log 1/\delta )^{c})

.

Para valores grandes de $\epsilon$ esto es tan bueno como el Lema Johnson-Lindenstrauss completamente aleatorio, pero un límite inferior coincidente en el mismo documento muestra que esta dependencia exponencial de $(\log 1/\delta )^{c}$ es necesaria. Se sugieren construcciones JL alternativas para evitar esta circunstancia.

Véase también[editar]

Notas[editar]

↑ O cualquier entero $n>128(\ln m)/(9\varepsilon ^{2}).$
↑ Este resultado se deriva del resultado anterior. Bosquejo de la demostración: Nótese que $1/(1+\varepsilon )<{\sqrt {1-3\varepsilon /4}}$ y ${\sqrt {1+3\varepsilon /4}}<{\sqrt {1+\varepsilon }}<1+\varepsilon$ para todo $\varepsilon \in (0,1)$ . Analícense los casos para 1=m y 1<m, aplicando el resultado anterior a $3\varepsilon /4$ en el último caso, teniendo en cuenta que $128/9<15.$

Referencias[editar]

↑ . Proceedings of the 58th Annual IEEE Symposium on Foundations of Computer Science (FOCS). 2017. pp. 633-638. doi:10.1109/FOCS.2017.64.
↑ Nielsen, Frank (2016). «10. Fast approximate optimization in high dimensions with core-sets and fast dimension reduction». Introduction to HPC with MPI for Data Science. Springer. pp. 259-272. ISBN 978-3-319-21903-5.
↑ Johnson, William B. (1984). Beals, Richard, ed. Conference in modern analysis and probability (New Haven, Conn., 1982) 26. Providence, RI: American Mathematical Society. pp. 189–206. ISBN 0-8218-5030-X. doi:10.1090/conm/026/737400.
↑ Ailon, Nir (2006). «Approximate nearest neighbors and the fast Johnson–Lindenstrauss transform». Proceedings of the 38th Annual ACM Symposium on Theory of Computing. New York: ACM Press. pp. 557-563. ISBN 1-59593-134-1. doi:10.1145/1132516.1132597.
↑ Kane, Daniel M.; Nelson, Jelani (2014). «Sparser Johnson-Lindenstrauss Transforms». Journal of the ACM 61 (1): 1. arXiv:1012.1577. doi:10.1145/2559902. . A preliminary version of this paper was published in the Proceedings of the Twenty-Third Annual ACM-SIAM Symposium on Discrete Algorithms, 2012.
↑ Anna Esteve, Eva Boj & Josep Fortiana (2009): Interaction Terms in Distance-Based Regression, Communications in Statistics - Theory and Methods, 38:19, P. 3501
↑ ^a ^b Slyusar, V. I. (27 de diciembre de 1996). «End products in matrices in radar applications.». Radioelectronics and Communications Systems 41 (3): 50-53.
↑ ^a ^b Slyusar, V. I. (20 de mayo de 1997). «Analytical model of the digital antenna array on a basis of face-splitting matrix products.». Proc. ICATT-97, Kyiv: 108-109.
↑ ^a ^b ^c Slyusar, V. I. (15 de septiembre de 1997). «New operations of matrices product for applications of radars». Proc. Direct and Inverse Problems of Electromagnetic and Acoustic Wave Theory (DIPED-97), Lviv.: 73-74.
↑ ^a ^b Slyusar, V. I. (13 de marzo de 1998). «A Family of Face Products of Matrices and its Properties». Cybernetics and Systems Analysis C/C of Kibernetika I Sistemnyi Analiz.- 1999. 35 (3): 379-384. doi:10.1007/BF02733426.
↑ ^a ^b Slyusar, V. I. (2003). «Generalized face-products of matrices in models of digital antenna arrays with nonidentical channels». Radioelectronics and Communications Systems 46 (10): 9-17.
↑ Kasiviswanathan, Shiva Prasad, et al. "The price of privately releasing contingency tables and the spectra of random matrices with correlated rows." Proceedings of the forty-second ACM symposium on Theory of computing. 2010.
↑ Woodruff, David P. "Sketching as a Tool for Numerical Linear Algebra." Theoretical Computer Science 10.1-2 (2014): 1-157.
↑ . ACM-SIAM Symposium on Discrete Algorithms. Association for Computing Machinery. 2020. doi:10.1137/1.9781611975994.9.

Lecturas adicionales[editar]

Achlioptas, Dimitris (2003), «Database-friendly random projections: Johnson–Lindenstrauss with binary coins», Journal of Computer and System Sciences 66 (4): 671-687, doi:10.1016/S0022-0000(03)00025-4 .. Journal version of a paper previously appearing at PODC 2001.
Baraniuk, Richard; Davenport, Mark; DeVore, Ronald; Wakin, Michael (2008), «A simple proof of the restricted isometry property for random matrices», Constructive Approximation 28 (3): 253-263, doi:10.1007/s00365-007-9003-x ..
Dasgupta, Sanjoy; Gupta, Anupam (2003), «An elementary proof of a theorem of Johnson and Lindenstrauss», Random Structures & Algorithms 22 (1): 60-65, doi:10.1002/rsa.10073 ..
Landweber, Peter; Lazar, Emanuel A.; Patel, Neel (2016). «On fiber diameters of continuous maps». American Mathematical Monthly 123: 392-397. arXiv:1503.07597.
Slyusar, V. I. (20 de mayo de 1997). «Analytical model of the digital antenna array on a basis of face-splitting matrix products.». Proc. ICATT-97, Kyiv: 108-109.
Slyusar, V. I. (13 de marzo de 1998). «A Family of Face Products of Matrices and its Properties». Cybernetics and Systems Analysis C/C of Kibernetika I Sistemnyi Analiz.- 1999. 35 (3): 379-384. doi:10.1007/BF02733426.

Datos: Q6268577

[3] O cualquier entero $n>128(\ln m)/(9\varepsilon ^{2}).$

[4] Este resultado se deriva del resultado anterior. Bosquejo de la demostración: Nótese que $1/(1+\varepsilon )<{\sqrt {1-3\varepsilon /4}}$ y ${\sqrt {1+3\varepsilon /4}}<{\sqrt {1+\varepsilon }}<1+\varepsilon$ para todo $\varepsilon \in (0,1)$ . Analícense los casos para 1=m y 1<m, aplicando el resultado anterior a $3\varepsilon /4$ en el último caso, teniendo en cuenta que $128/9<15.$

[1] . Proceedings of the 58th Annual IEEE Symposium on Foundations of Computer Science (FOCS). 2017. pp. 633-638. doi:10.1109/FOCS.2017.64.

[2] Nielsen, Frank (2016). «10. Fast approximate optimization in high dimensions with core-sets and fast dimension reduction». Introduction to HPC with MPI for Data Science. Springer. pp. 259-272. ISBN 978-3-319-21903-5.

[5] Johnson, William B. (1984). Beals, Richard, ed. Conference in modern analysis and probability (New Haven, Conn., 1982) 26. Providence, RI: American Mathematical Society. pp. 189–206. ISBN 0-8218-5030-X. doi:10.1090/conm/026/737400.

[6] Ailon, Nir (2006). «Approximate nearest neighbors and the fast Johnson–Lindenstrauss transform». Proceedings of the 38th Annual ACM Symposium on Theory of Computing. New York: ACM Press. pp. 557-563. ISBN 1-59593-134-1. doi:10.1145/1132516.1132597.

[7] Kane, Daniel M.; Nelson, Jelani (2014). «Sparser Johnson-Lindenstrauss Transforms». Journal of the ACM 61 (1): 1. arXiv:1012.1577. doi:10.1145/2559902. . A preliminary version of this paper was published in the Proceedings of the Twenty-Third Annual ACM-SIAM Symposium on Discrete Algorithms, 2012.

[Fortiana-8] Anna Esteve, Eva Boj & Josep Fortiana (2009): Interaction Terms in Distance-Based Regression, Communications in Statistics - Theory and Methods, 38:19, P. 3501

[slyusar-9] Slyusar, V. I. (27 de diciembre de 1996). «End products in matrices in radar applications.». Radioelectronics and Communications Systems 41 (3): 50-53.

[slyusar1-10] Slyusar, V. I. (20 de mayo de 1997). «Analytical model of the digital antenna array on a basis of face-splitting matrix products.». Proc. ICATT-97, Kyiv: 108-109.

[DIPED-11] Slyusar, V. I. (15 de septiembre de 1997). «New operations of matrices product for applications of radars». Proc. Direct and Inverse Problems of Electromagnetic and Acoustic Wave Theory (DIPED-97), Lviv.: 73-74.

[slyusar2-12] Slyusar, V. I. (13 de marzo de 1998). «A Family of Face Products of Matrices and its Properties». Cybernetics and Systems Analysis C/C of Kibernetika I Sistemnyi Analiz.- 1999. 35 (3): 379-384. doi:10.1007/BF02733426.

[general-13] Slyusar, V. I. (2003). «Generalized face-products of matrices in models of digital antenna arrays with nonidentical channels». Radioelectronics and Communications Systems 46 (10): 9-17.

[14] Kasiviswanathan, Shiva Prasad, et al. "The price of privately releasing contingency tables and the spectra of random matrices with correlated rows." Proceedings of the forty-second ACM symposium on Theory of computing. 2010.

[woodruff-15] Woodruff, David P. "Sketching as a Tool for Numerical Linear Algebra." Theoretical Computer Science 10.1-2 (2014): 1-157.

[highdeg-16] . ACM-SIAM Symposium on Discrete Algorithms. Association for Computing Machinery. 2020. doi:10.1137/1.9781611975994.9.

[1]

[2]

[Nota 1]

[Nota 2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]