CAPA DE ATENCIÓN Y EMBEDDING

More
1 month 2 weeks ago - 2 weeks 2 days ago #49 by HugAgri115
Buenas tardes:

Dejo un breves cometarios sobre la Capa de Atención y el Embedding.

La capa de atención permite que el modelo se enfoque en las partes más relevantes de una entrada al procesarla. Se usan tres vectores en cada token:

Query (Q): Lo que buscas.
Key (K): Lo que ofrece cada palabra.
Value (V): La información real de cada palabra.

Atención(Q,K,V)=softmax(QK^T)*V/sqrt(dk)

Softmax es una función matemática que convierte una lista de números en probabilidades (valores entre 0 y 1 que suman 1). Se usa para decidir cuánta atención prestar a cada persona.

QK^T compara cada Query con todas las Keys para ver qué tan similares son.
dk es la dimensión del vector Key. Ejm: cada Key tiene 64 valores, entonces dk=64. Se usa para normalizar los valores de Atención, evitando que sean demasiado grandes.

Por otra parte, está el término Embedding. Es una forma de representar daos en un espacio vectorial de menor dimensión. Traduce algo complejo en un vector, de forma que cosas similares tengan vectores parecidos.

Espero no haber cometido ningún error y, por supuesto, que les sirva

https://arxiv.org/html/2405.18874v2?utm
Last edit: 2 weeks 2 days ago by HugAgri115.
The following user(s) said Thank You: Claruski

Please Σύνδεση or Create an account to join the conversation.

More
3 weeks 3 days ago #51 by Javier Ångel
Muy interesante, claro y conciso.

Mira de enlazarnos las fuentes de información, para los que queramos ampliar información.

Please Σύνδεση or Create an account to join the conversation.

Time to create page: 0.265 seconds
Powered by Kunena Forum