El decoder funciona de manera similar al encoder, y al igual que el encoder también está compuesto de bloques que puede ser apilados, la estructura general es la siguiente: Se puede apreciar que el encoder esta compuesto de: Capa de Masked multi-head attention Capa de multi-head attention Una capa de red neuronal feed-forward Capa lineal […]
Transformers: Arquitectura del Encoder
El Transformer es una arquitectura de Deep learning usada principalmente para tareas de procesamiento de lenguaje natural (NLP), se ha posicionado como el estándar por excelencia para tareas de clasificación de textos, extracción de información, modelos de traducción automática de textos, incluso para tareas de computer vision; En este post describiré cómo funciona esta arquitectura. […]