CAPA DE ATENCIÓN Y EMBEDDING
- HugAgri115
- Offline
- Navegador Iniciado
-
Less
More
- Posts: 3
- Thank you received: 1
1 month 2 weeks ago - 2 weeks 2 days ago #49
by HugAgri115
CAPA DE ATENCIÓN Y EMBEDDING was created by HugAgri115
Buenas tardes:
Dejo un breves cometarios sobre la Capa de Atención y el Embedding.
La capa de atención permite que el modelo se enfoque en las partes más relevantes de una entrada al procesarla. Se usan tres vectores en cada token:
Query (Q): Lo que buscas.
Key (K): Lo que ofrece cada palabra.
Value (V): La información real de cada palabra.
Atención(Q,K,V)=softmax(QK^T)*V/sqrt(dk)
Softmax es una función matemática que convierte una lista de números en probabilidades (valores entre 0 y 1 que suman 1). Se usa para decidir cuánta atención prestar a cada persona.
QK^T compara cada Query con todas las Keys para ver qué tan similares son.
dk es la dimensión del vector Key. Ejm: cada Key tiene 64 valores, entonces dk=64. Se usa para normalizar los valores de Atención, evitando que sean demasiado grandes.
Por otra parte, está el término Embedding. Es una forma de representar daos en un espacio vectorial de menor dimensión. Traduce algo complejo en un vector, de forma que cosas similares tengan vectores parecidos.
Espero no haber cometido ningún error y, por supuesto, que les sirva
https://arxiv.org/html/2405.18874v2?utm
Dejo un breves cometarios sobre la Capa de Atención y el Embedding.
La capa de atención permite que el modelo se enfoque en las partes más relevantes de una entrada al procesarla. Se usan tres vectores en cada token:
Query (Q): Lo que buscas.
Key (K): Lo que ofrece cada palabra.
Value (V): La información real de cada palabra.
Atención(Q,K,V)=softmax(QK^T)*V/sqrt(dk)
Softmax es una función matemática que convierte una lista de números en probabilidades (valores entre 0 y 1 que suman 1). Se usa para decidir cuánta atención prestar a cada persona.
QK^T compara cada Query con todas las Keys para ver qué tan similares son.
dk es la dimensión del vector Key. Ejm: cada Key tiene 64 valores, entonces dk=64. Se usa para normalizar los valores de Atención, evitando que sean demasiado grandes.
Por otra parte, está el término Embedding. Es una forma de representar daos en un espacio vectorial de menor dimensión. Traduce algo complejo en un vector, de forma que cosas similares tengan vectores parecidos.
Espero no haber cometido ningún error y, por supuesto, que les sirva
https://arxiv.org/html/2405.18874v2?utm
Last edit: 2 weeks 2 days ago by HugAgri115.
The following user(s) said Thank You: Claruski
Please Σύνδεση or Create an account to join the conversation.
- Javier Ångel
- Offline
- Navegador Senior
-
Less
More
- Posts: 56
- Thank you received: 5
3 weeks 3 days ago #51
by Javier Ångel
Replied by Javier Ångel on topic CAPA DE ATENCIÓN Y EMBEDDING
Muy interesante, claro y conciso.
Mira de enlazarnos las fuentes de información, para los que queramos ampliar información.
Mira de enlazarnos las fuentes de información, para los que queramos ampliar información.
Please Σύνδεση or Create an account to join the conversation.
Time to create page: 0.265 seconds
- Βρίσκεστε εδώ:
-
Αρχική
-
Foro
-
Foro Principal
-
Inteligencia artificial
- CAPA DE ATENCIÓN Y EMBEDDING