Redes Neurais Recorrentes

Material produzido para disciplina de Redes Neurais Artificiais do curso de Engenharia de Computação e Software da Universidade Federal Rural do Semi-Árido (UFERSA). Professora: Rosana C. Rego.

As Redes Neurais Recorrentes (RNNs), do inglês Recurrent Neural Networks, representam uma classe revolucionária de arquiteturas neurais especificamente projetadas para processar e aprender padrões em dados sequenciais ou temporais. Enquanto as redes neurais convencionais tratam cada entrada de forma isolada e independente, as RNNs introduzem um conceito fundamental: a memória contextual.

A característica distintiva das RNNs reside em suas conexões recorrentes — loops que permitem que a informação persista através do tempo. Em cada passo temporal, um neurônio recorrente não apenas processa a entrada atual $x_t$, mas também incorpora informações do estado oculto anterior $h_{t-1}$, criando assim uma "memória" que captura o contexto histórico da sequência. Esta propriedade torna as RNNs ideais para uma vasta gama de aplicações:

Processamento de Linguagem Natural (NLP): Compreensão, tradução e geração de texto
Análise de Séries Temporais: Previsão de valores futuros em dados financeiros, meteorológicos ou de sensores
Reconhecimento de Fala: Conversão de áudio em texto com compreensão contextual
Análise de Vídeo: Processamento de sequências de frames para reconhecimento de ações
Composição Musical: Geração de melodias e harmonias baseadas em padrões aprendidos
Bioinformática: Análise de sequências de DNA, RNA e proteínas

🔍 Diferença Fundamental: Feedforward vs. Recorrente

Redes Feedforward: A informação flui em uma única direção (entrada → camadas ocultas → saída), sem loops. Cada entrada é processada independentemente, tornando-as adequadas para tarefas onde os dados não possuem ordem sequencial, como classificação de imagens estáticas ou reconhecimento de padrões fixos.

Redes Recorrentes: Possuem conexões que formam ciclos direcionados, permitindo que a saída de um neurônio em um instante $t$ influencie sua própria entrada em um instante futuro $t+1$. Isso cria uma memória dinâmica que captura dependências temporais de curto e (com arquiteturas avançadas como LSTM) longo prazo.

Analogia: Imagine ler um livro. Uma rede feedforward analisa cada palavra isoladamente, enquanto uma RNN "lembra" das palavras anteriores para compreender o contexto e o significado completo da frase.

Conforme ilustrado na Figura 1, a estrutura recorrente permite que as RNNs mantenham um estado interno que evolui ao longo da sequência, funcionando como uma memória de curto prazo que é atualizada a cada novo elemento processado.

Figura 1: Rede neural recorrente em comparação com a rede neural feed-forward.

Arquitetura da RNN

A Figura 2 ilustra uma RNN com desdobramento temporal com 3 passos de tempo. A principal diferença entre essas arquiteturas está na capacidade de modelar dependências temporais. Enquanto as redes feedforward tratam cada entrada de forma independente, as redes recorrentes consideram o histórico das entradas anteriores, o que as torna ideais para tarefas como tradução automática, geração de texto, reconhecimento de fala e análise de sentimentos em sequências de palavras.

Figura 2: Desdobramento temporal da RNN com 3 passos de tempo.

📐 Notação Matemática

Vetores e Dimensões:

$x_t \in \mathbb{R}^n$: vetor de entrada no tempo $t$
$h_t \in \mathbb{R}^m$: vetor de estado oculto no tempo $t$
$y_t \in \mathbb{R}^k$: vetor de saída no tempo $t$

Matrizes de Pesos:

$W_{xh} \in \mathbb{R}^{m \times n}$: matriz de pesos entrada $\rightarrow$ estado oculto
$W_{hh} \in \mathbb{R}^{m \times m}$: matriz de pesos entre estados ocultos (recorrente)
$W_{hy} \in \mathbb{R}^{k \times m}$: matriz de pesos estado oculto $\rightarrow$ saída

Vetores de Bias:

$b_h \in \mathbb{R}^m$: bias do estado oculto
$b_y \in \mathbb{R}^k$: bias da saída

A RNN é definida recursivamente pelas equações:

$$\begin{align} h_t &= \phi_h(W_{xh} x_t + W_{hh} h_{t-1} + b_h) \\ y_t &= \phi_y(W_{hy} h_t + b_y) \end{align}$$

em que $\phi_h$ é função de ativação do estado oculto, como $\tanh$ ou ReLU e $\phi_y$ é função de ativação da saída, como softmax (para classificação) ou identidade (para regressão). Os parâmetros $W_{xh}$, $W_{hh}$, $W_{hy}$, $b_h$, $b_y$ são aprendidos por meio da minimização de uma função custo $\mathcal{L}$, usando algoritmos de otimização como o gradiente descendente, com derivadas calculadas por Backpropagation Through Time (BPTT).

Backpropagation Through Time

O algoritmo BPTT é uma generalização do algoritmo de retropropagação utilizado para treinar RNNs. Como as RNNs apresentam conexões temporais, é necessário desdobrar a rede ao longo do tempo para aplicar o cálculo dos gradientes em todas as etapas. A ideia fundamental do BPTT é propagar o erro de volta por cada etapa temporal da sequência, acumulando as derivadas parciais ao longo do tempo, conforme é mostrado na Figura 3.

Figura 3: Ilustração do BPTT com desdobramento da rede e retropropagação dos gradientes.

Considere $\mathcal{L}$ a perda total sobre uma sequência de comprimento $T$:

$$\mathcal{L} = \sum_{t=1}^{T} \ell(y_t, \hat{y}_t)$$

em que $\ell(\cdot, \cdot)$ representa a função de erro local. O gradiente da saída é dado por:

$$\frac{\partial \mathcal{L}}{\partial y_t} = \nabla_{y_t} \ell(y_t, \hat{y}_t)$$

O erro no estado oculto, isto é, o gradiente recorrente, é dado por:

$$\delta_t = \left( \frac{\partial \mathcal{L}}{\partial y_t} W_{hy} + \delta_{t+1} W_{hh} \right) \odot (1 - h_t^2)$$

Os gradientes dos pesos são dados por:

$$\begin{align} \frac{\partial \mathcal{L}}{\partial W_{hy}} &= \sum_{t=1}^{T} \frac{\partial \mathcal{L}}{\partial y_t} h_t^\top \\ \frac{\partial \mathcal{L}}{\partial W_{hh}} &= \sum_{t=1}^{T} \delta_t h_{t-1}^\top \\ \frac{\partial \mathcal{L}}{\partial W_{xh}} &= \sum_{t=1}^{T} \delta_t x_t^\top \end{align}$$

O algoritmo BPTT permite treinar RNNs utilizando a cadeia de dependências temporais. No entanto, ele apresenta desafios como o desaparecimento ou explosão de gradientes, especialmente em sequências longas. Os pesos da rede são atualizados com base na derivada do erro em relação a esses pesos, essa derivada envolve uma multiplicação repetida de matrizes de derivadas parciais ao longo do tempo, o que pode causar o desaparecimento ou explosão de gradientes.

Problemas de Gradiente

⚠️ Desaparecimento do Gradiente

O desaparecimento do gradiente (vanishing gradient) ocorre quando os autovalores das matrizes derivadas (ou os elementos da Jacobiana) são menores que 1. Ao multiplicar muitas dessas matrizes, os gradientes tendem a zero exponencialmente:

$$\frac{\partial \mathcal{L}}{\partial W} \approx \sum_{t} \left( \prod_{k=t}^{T} \frac{\partial h_{k}}{\partial h_{k-1}} \right) \frac{\partial \mathcal{L}}{\partial h_T}$$

Se $\left\| \frac{\partial h_k}{\partial h_{k-1}} \right\| < 1$, então:

$$\left\| \prod_{k=t}^{T} \frac{\partial h_k}{\partial h_{k-1}} \right\| \rightarrow 0 \quad \text{quando } T-t \rightarrow \infty$$

Figura 4: Desaparecimento do gradiente em RNNs.

💥 Explosão do Gradiente

Conforme ilustrado na Figura 5, a explosão do gradiente (exploding gradient) ocorre quando os autovalores são maiores que 1, os gradientes crescem exponencialmente, o que pode levar a valores numéricos instáveis durante o treinamento:

$$\left\| \prod_{k=t}^{T} \frac{\partial h_k}{\partial h_{k-1}} \right\| \rightarrow \infty \quad \text{quando } T-t \rightarrow \infty$$

Isso leva a oscilações e falha na convergência do modelo.

Figura 5: Explosão do gradiente: retropropagação com amplificação crescente dos gradientes em uma RNN.

💡 Soluções para Problemas de Gradiente

Para lidar com esses problemas, arquiteturas como Long Short-Term Memory (LSTM) e Gated Recurrent Unit (GRU) foram desenvolvidas. Essas arquiteturas introduzem mecanismos de "gates" (portões) que controlam o fluxo de informação, permitindo que a rede aprenda dependências de longo prazo de forma mais eficaz.

Tipos de RNNs

As redes RNNs podem possuir diferentes arquiteturas dependendo do padrão de entrada e saída necessário para a aplicação específica.

One-to-One

Esta é a arquitetura padrão de redes feedforward. Há uma única entrada e uma única saída, sem qualquer componente temporal.

Figura 6: Arquitetura One-to-One.

One-to-Many

Na arquitetura one-to-many, uma entrada gera uma sequência de saídas com memória interna.

Figura 7: Arquitetura One-to-Many.

Many-to-One

Na arquitetura many-to-one, uma sequência de entradas é processada, gerando uma saída única ao final.

Figura 8: Arquitetura Many-to-One.

Many-to-Many (Sincronizada)

Na arquitetura many-to-many, cada entrada tem uma saída correspondente. É comum em tarefas de rotulagem.

Figura 9: Arquitetura Many-to-Many (Sincronizada).

Many-to-Many (Encoder-Decoder)

Ainda nas arquiteturas many-to-many, uma sequência é codificada, depois decodificada para outra sequência (ex: tradução).

Figura 10: Arquitetura Many-to-Many (Encoder-Decoder).

Aplicações em Séries Temporais

As RNNs são especialmente adequadas para análise de séries temporais devido à sua capacidade de capturar dependências temporais. Elas podem ser aplicadas em:

                    📈 Principais Aplicações
                    Previsão de valores futuros: Previsão de preços de ações, temperatura, demanda de energia
Detecção de anomalias: Identificação de padrões anômalos em séries temporais
Classificação de séries: Classificação de sinais biomédicos, padrões de atividade
Análise de tendências: Identificação de tendências de longo prazo em dados temporais

                

📊 Exemplo: Previsão de Séries Temporais

Para uma série temporal $\{x_1, x_2, ..., x_t\}$, uma RNN pode ser treinada para prever $x_{t+1}$ com base no histórico anterior. A arquitetura many-to-one é frequentemente utilizada, onde a sequência de entrada representa os valores passados e a saída é a previsão do próximo valor.

Fundamentos de Processamento de Linguagem Natural (NLP)

O Processamento de Linguagem Natural (NLP), ou Natural Language Processing, é um campo da inteligência artificial dedicado à interação entre computadores e linguagem humana. Diferentemente de dados numéricos estruturados, a linguagem natural apresenta desafios únicos: ambiguidade, contexto, variações linguísticas e a natureza sequencial do texto.

🎯 Principais Desafios do NLP

1. Ambiguidade Lexical: Palavras com múltiplos significados ("banco" = instituição financeira ou assento)

2. Dependências de Longo Alcance: "O livro que João comprou ontem estava interessante" - o adjetivo refere-se a "livro"

3. Variabilidade Sintática: Diferentes estruturas gramaticais podem expressar a mesma ideia

4. Conhecimento Contextual: "Ele está frio" pode significar temperatura ou personalidade

5. Expressões Idiomáticas: "Quebrar o gelo" não envolve gelo literal

Representação de Texto para Redes Neurais

Redes neurais processam números, não palavras. Portanto, a primeira etapa crucial em qualquer tarefa de NLP é converter texto em representações numéricas que preservem informação semântica e sintática. Existem várias abordagens para essa transformação:

1. Codificação One-Hot (Representação Esparsa)

A forma mais simples de representar palavras é através de vetores binários onde cada dimensão corresponde a uma palavra do vocabulário. Se o vocabulário tem $V$ palavras, cada palavra é representada por um vetor de dimensão $V$ com todos os elementos iguais a zero, exceto um.

$$\text{palavra}_i = [0, 0, \ldots, 1, \ldots, 0, 0] \in \{0,1\}^V$$

onde apenas a $i$-ésima posição é 1.

📝 Exemplo Prático: One-Hot Encoding

Considere o vocabulário: ["gato", "cachorro", "pássaro"]

"gato"     → [1, 0, 0]
"cachorro" → [0, 1, 0]
"pássaro"  → [0, 0, 1]

Limitações:

❌ Alta dimensionalidade: Vocabulários reais têm milhares ou milhões de palavras
❌ Esparsidade: A maioria dos elementos é zero, desperdiçando memória
❌ Semântica ausente: "gato" e "cachorro" são tão diferentes quanto "gato" e "lua"
❌ Produto escalar sempre zero: Palavras diferentes são sempre ortogonais

2. Tokenização e Vocabulário

Antes da codificação, o texto deve ser tokenizado — dividido em unidades básicas (tokens). Tokens podem ser:

Palavras: "inteligência artificial" → ["inteligência", "artificial"]
Subpalavras: "inacreditável" → ["in", "acred", "itável"] (BPE, WordPiece)
Caracteres: "AI" → ["A", "I"]

🔤 Exemplo de Tokenização em Python

import tensorflow as tf

# Texto de exemplo
texto = "As redes neurais recorrentes são poderosas para NLP"

# Criar tokenizador ao nível de palavras
tokenizer = tf.keras.preprocessing.text.Tokenizer()
tokenizer.fit_on_texts([texto])

# Vocabulário aprendido
print("Vocabulário:", tokenizer.word_index)
# Saída: {'as': 1, 'redes': 2, 'neurais': 3, 'recorrentes': 4, 
#         'são': 5, 'poderosas': 6, 'para': 7, 'nlp': 8}

# Converter texto em sequência de índices
sequencia = tokenizer.texts_to_sequences([texto])
print("Sequência:", sequencia)
# Saída: [[1, 2, 3, 4, 5, 6, 7, 8]]

Word Embeddings: Representações Densas e Semânticas

Para superar as limitações da codificação one-hot, utilizamos word embeddings (ou vetores de palavras) — representações densas de dimensão fixa (tipicamente 50-300) onde palavras semanticamente semelhantes possuem vetores próximos no espaço euclidiano.

Figura: Visualização simplificada de word embeddings em espaço 2D. Palavras semanticamente relacionadas (animais, frutas, verbos) formam clusters, permitindo operações aritméticas como rei - homem + mulher ≈ rainha.

✨ Propriedades Notáveis dos Embeddings

1. Similaridade Semântica: $\text{similaridade}(\text{"rei"}, \text{"rainha"}) > \text{similaridade}(\text{"rei"}, \text{"banana"})$

2. Aritmética de Palavras: $\vec{v}_{\text{rei}} - \vec{v}_{\text{homem}} + \vec{v}_{\text{mulher}} \approx \vec{v}_{\text{rainha}}$

3. Analogias: Paris:França :: Roma:Itália (capturado por relações vetoriais)

4. Transferência de Conhecimento: Embeddings pré-treinados (Word2Vec, GloVe) aceleram o aprendizado

Função Matemática de Embedding:

$$E: \mathcal{V} \rightarrow \mathbb{R}^d$$

onde $\mathcal{V}$ é o vocabulário e $d$ é a dimensão do embedding (tipicamente $d \in [50, 512]$)

Métodos de Aprendizado de Embeddings

🧠 Principais Técnicas

Word2Vec (2013): Duas arquiteturas - Skip-gram (prediz contexto dada palavra) e CBOW (prediz palavra dado contexto)

GloVe (2014): Global Vectors - usa estatísticas de co-ocorrência de palavras em todo o corpus

FastText (2016): Extensão do Word2Vec que considera sub palavras, lidando melhor com palavras raras

Embeddings Contextuais (BERT, 2018+): Geram embeddings diferentes para a mesma palavra em contextos diferentes

💻 Criando Embeddings com Keras

from tensorflow.keras.layers import Embedding
import tensorflow as tf

# Parâmetros
vocab_size = 10000  # Tamanho do vocabulário
embedding_dim = 128  # Dimensão dos embeddings
max_length = 50      # Comprimento máximo da sequência

# Criar camada de embedding
embedding_layer = Embedding(
    input_dim=vocab_size,      # Número de palavras únicas
    output_dim=embedding_dim,  # Dimensão de cada vetor de palavra
    input_length=max_length    # Tamanho fixo das sequências
)

# Exemplo: converter sequência de índices em embeddings
sequencia = tf.constant([[1, 5, 8, 3, 12]])  # Uma frase tokenizada
embeddings = embedding_layer(sequencia)

print(f"Forma dos embeddings: {embeddings.shape}")
# Saída: (1, 5, 128) - 1 frase, 5 palavras, 128 dimensões cada

Geração de Texto com Redes Neurais Recorrentes

A geração de texto é uma das aplicações mais fascinantes e desafiadoras de RNNs. Diferentemente de tarefas de classificação que produzem uma única saída, a geração de texto requer que o modelo produza sequências completas e coerentes de palavras, mantendo estrutura gramatical, consistência semântica e, idealmente, criatividade.

Como Funciona o Processo de Geração

A geração de texto com RNNs funciona como um modelo de linguagem probabilístico que aprende a distribuição de probabilidade sobre sequências de palavras. Em essência, o modelo aprende:

$$P(w_1, w_2, \ldots, w_T) = \prod_{t=1}^{T} P(w_t \mid w_1, w_2, \ldots, w_{t-1})$$

onde $w_t$ é a palavra na posição $t$ e o modelo prediz a próxima palavra dada toda a sequência anterior.

Figura: Fluxo completo do processo de geração de texto autorregressiva. A RNN processa a sequência atual, prediz a distribuição de probabilidade da próxima palavra, amostra uma palavra dessa distribuição, e a adiciona à sequência, repetindo o processo.

Arquitetura para Geração: Character-Level vs. Word-Level

🔤 Geração ao Nível de Caractere

Vantagens:

✅ Vocabulário pequeno (~50-100 caracteres)
✅ Pode gerar palavras nunca vistas antes
✅ Não sofre com palavras fora do vocabulário (OOV)

Desvantagens:

❌ Sequências muito longas (cada caractere é um passo)
❌ Dificulta capturar dependências de longo alcance
❌ Pode gerar palavras sem sentido

📝 Geração ao Nível de Palavra

Vantagens:

✅ Sequências mais curtas (uma palavra por passo)
✅ Captura melhor semântica e dependências
✅ Palavras sempre válidas

Desvantagens:

❌ Vocabulário grande (10k-100k palavras)
❌ Problema com palavras raras ou novas
❌ Requer mais memória para embeddings

Temperatura e Estratégias de Amostragem

A forma como amostramos a próxima palavra da distribuição de probabilidade tem impacto dramático na qualidade e diversidade do texto gerado. O parâmetro temperatura ($T$) controla a "criatividade" do modelo:

$$P_T(w_i) = \frac{\exp{(s_i / T)}}{\sum_j \exp{(s_j / T)}}$$

onde $s_i$ são os logits (saídas pré-softmax) da rede, $T$ é a temperatura, e $P_T(w_i)$ é a probabilidade ajustada da palavra $w_i$.

🌡️ Efeito da Temperatura na Geração

Distribuição Original: ["neurais": 0.50, "sociais": 0.25, "grandes": 0.15, "pequenas": 0.10]

$T = 0.5$ (Baixa - Conservadora):

["neurais": 0.72, "sociais": 0.18, "grandes": 0.07, "pequenas": 0.03]
➜ Texto mais previsível: "As redes neurais são ferramentas poderosas..."

$T = 1.0$ (Padrão - Balanceada):

["neurais": 0.50, "sociais": 0.25, "grandes": 0.15, "pequenas": 0.10]
➜ Texto equilibrado: "As redes neurais transformaram o campo..."

$T = 1.5$ (Alta - Criativa):

["neurais": 0.37, "sociais": 0.28, "grandes": 0.21, "pequenas": 0.14]
➜ Texto diverso: "As redes grandes exploram estruturas complexas..."

$T \to 0$: Sempre escolhe a palavra mais provável (greedy)
$T \to \infty$: Distribuição uniforme (aleatório)

🎲 Implementando Amostragem com Temperatura

import numpy as np

def sample_with_temperature(logits, temperature=1.0):
    """
    Amostra uma palavra usando temperatura.
    
    Args:
        logits: vetor de scores pré-softmax
        temperature: controla aleatoriedade (0 = determinístico, >1 = criativo)
    
    Returns:
        índice da palavra amostrada
    """
    # Aplicar temperatura
    logits = np.array(logits) / temperature
    
    # Aplicar softmax
    exp_logits = np.exp(logits - np.max(logits))  # Subtrair max para estabilidade numérica
    probabilities = exp_logits / np.sum(exp_logits)
    
    # Amostrar proporcionalmente às probabilidades
    return np.random.choice(len(logits), p=probabilities)

# Exemplo de uso
logits = [3.2, 2.5, 1.8, 1.0]  # Scores da rede para 4 palavras possíveis

print("Amostragem conservadora (T=0.5):")
for _ in range(5):
    idx = sample_with_temperature(logits, temperature=0.5)
    print(f"  Palavra selecionada: {idx}")

print("\nAmostragem criativa (T=1.5):")
for _ in range(5):
    idx = sample_with_temperature(logits, temperature=1.5)
    print(f"  Palavra selecionada: {idx}")

Outras Estratégias de Amostragem

🎯 Métodos Avançados

1. Top-k Sampling: Considera apenas as $k$ palavras mais prováveis

$$P_{top-k}(w) = \begin{cases} P(w) / Z & \text{se } w \in \text{top-}k \\ 0 & \text{caso contrário} \end{cases}$$

2. Nucleus (Top-p) Sampling: Considera palavras cuja soma cumulativa de probabilidade atinja $p$

Se p=0.9, inclui palavras até somar 90% da probabilidade total

3. Beam Search: Mantém as $k$ melhores sequências completas em cada passo

Avalia múltiplos caminhos simultaneamente, escolhe o melhor

4. Greedy Decoding: Sempre escolhe a palavra mais provável (rápido mas repetitivo)

Exemplos Práticos: Processamento de Texto com RNNs

Agora que compreendemos os fundamentos teóricos de NLP e geração de texto, vamos implementar exemplos práticos completos. Estes exemplos demonstram desde a preparação de dados até o treinamento e geração de texto com redes recorrentes.

🎯 Objetivos do Exemplo Prático

1. Construir um modelo de linguagem character-level (ao nível de caractere)

2. Treinar uma LSTM para aprender padrões linguísticos

3. Gerar texto novo de forma autorregressiva

4. Interpretar as decisões do modelo usando LIME

Exemplo Completo: Gerador de Texto com LSTM

🐍 Instalação e Importação das Bibliotecas

# Instalar a biblioteca LIME
!pip install lime

📚 Importação das bibliotecas necessárias

import numpy as np
import matplotlib.pyplot as plt
from lime.lime_text import LimeTextExplainer
from tensorflow.keras.preprocessing.sequence import pad_sequences
import tensorflow as tf
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Embedding, LSTM, Dense

📝 Definindo o Texto Base (Corpus)

corpus = "Este é um exemplo de texto para treinar uma RNN."

💡 Nota: Em aplicações reais, o corpus seria muito maior (milhares ou milhões de palavras). Para demonstração, usamos um texto pequeno, mas o mesmo princípio se aplica.

🔍 O que a Rede Aprende?

Com este corpus, a RNN aprenderá padrões como:

Depois de "um" geralmente vem uma palavra iniciando com vogal ou consoante específica
Espaços aparecem entre palavras
Pontuação aparece no final
Certas sequências de letras são mais comuns (ex: "tr", "ex", "re")

Com corpus maior, aprende gramática, semântica e estilo!

A primeira etapa ao trabalhar com texto é transformar caracteres em números (tokenização), para que a rede possa processá-los. Cada caractere único recebe um índice inteiro.

🔤 Tokenização dos Caracteres

tokenizer = tf.keras.preprocessing.text.Tokenizer(char_level=True)
tokenizer.fit_on_texts([corpus])
sequence_data = tokenizer.texts_to_sequences([corpus])[0]
vocab_size = len(tokenizer.word_index) + 1

print(f"Tamanho do vocabulário: {vocab_size} caracteres únicos")

Explicação:

char_level=True: Tokeniza ao nível de caractere, não de palavra
fit_on_texts: Analisa o corpus e cria um mapeamento char → índice
texts_to_sequences: Converte o texto em lista de índices
+1: Reserva índice 0 para padding (opcional)

🔍 Resultado da tokenização:

print(corpus)
print(tokenizer.word_index)

💭 Saída esperada:

Este é um exemplo de texto para treinar uma RNN.
{' ': 1, 'e': 2, 't': 3, 'a': 4, 'r': 5, 'm': 6, 'n': 7, 'u': 8, 'x': 9, 
'p': 10, 'o': 11, 's': 12, 'é': 13, 'l': 14, 'd': 15, 'i': 16, '.': 17}

📊 Preparando os Dados de Entrada e Saída

seq_length = 5  # Janela de contexto: 5 caracteres anteriores
sequences = []
for i in range(seq_length, len(sequence_data)):
    # Cria sequências de comprimento seq_length + 1
    # Primeiros 5: entrada, último: alvo (target)
    sequences.append(sequence_data[i-seq_length:i+1])

sequences = np.array(sequences)
X, y = sequences[:, :-1], sequences[:, -1]  # Separa entrada (X) e saída (y)

print(f"Forma de X: {X.shape}")  # (num_sequences, seq_length)
print(f"Forma de y: {y.shape}")  # (num_sequences,)

📖 Exemplo Visual da Preparação

Texto: "Este é"

Sequência tokenizada: [5, 12, 3, 2, 1, 13]
(Cada número representa um caractere único)

Com seq_length=5, criamos:

Sequência 1: X=[5,12,3,2,1] → y=13  (dado "Este ", prediz "é")
Sequência 2: X=[12,3,2,1,13] → y=...  (dado "ste é", prediz próximo char)

Intuição: A rede aprende: "Depois desta sequência de 5 caracteres, qual é o próximo mais provável?"

🏗️ Criando e Treinando o Modelo RNN (LSTM)

from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import LSTM, Dense, Embedding

model = Sequential([
    # Embedding: Converte índices em vetores densos de dimensão 10
    # vocab_size: tamanho do vocabulário (número de caracteres únicos)
    # 10: dimensão do vetor embedding (cada caractere vira um vetor de 10 números)
    # input_length: comprimento das sequências de entrada
    Embedding(vocab_size, 10, input_length=seq_length),
    
    # LSTM: Camada recorrente com 50 unidades (neurônios)
    # return_sequences=False: retorna apenas o último output (não toda a sequência)
    # A LSTM mantém memória de curto e longo prazo através de gates
    LSTM(50, return_sequences=False),
    
    # Dense: Camada de saída com softmax
    # vocab_size neurônios, um para cada caractere possível
    # softmax: produz distribuição de probabilidade
    Dense(vocab_size, activation='softmax')
])

# Loss: sparse_categorical_crossentropy para classes representadas por índices
# Optimizer: adam (adaptativo, eficiente para RNNs)
model.compile(loss='sparse_categorical_crossentropy', optimizer='adam')
model.summary()

🧩 Anatomia do Modelo

Fluxo de dados:

Sequência de índices [5,12,3,2,1]  (shape: (5,))
         ↓ Embedding
Matriz de vetores [[0.1,...], [0.3,...], ...]  (shape: (5, 10))
         ↓ LSTM processa sequência
Vetor contextualizado [0.8, 0.2, ...]  (shape: (50,))
         ↓ Dense + Softmax
Probabilidades para cada char [0.05, 0.02, 0.41, ...]  (shape: (vocab_size,))

💡 Insight: O LSTM "lê" os 5 caracteres anteriores e aprende a distribuição de probabilidade do próximo caractere. Durante o treinamento, ajusta seus pesos para maximizar a probabilidade do caractere correto.

🎯 Treinamento do modelo:

# epochs=300: número de vezes que o modelo vê todo o dataset
# Para corpus pequeno, muitas epochs são necessárias para aprender padrões
# Para corpus grande, menos epochs são suficientes
history = model.fit(X, y, epochs=300, verbose=1)

⚠️ Considerações sobre o Treinamento

Epochs: 300 epochs pode parecer muito, mas para geração de texto com corpus pequeno, o modelo precisa de muitas iterações para memorizar padrões sequenciais.

Overfitting: Com corpus pequeno, o modelo pode "decorar" ao invés de generalizar. Para corpus maiores, use validation split e early stopping.

Tempo: O treinamento pode levar alguns minutos. Use GPU para acelerar (TensorFlow usa automaticamente se disponível).

Dica: Monitore a loss - se parar de diminuir ou oscilar muito, considere reduzir o learning rate ou ajustar a arquitetura.

📈 Visualizando a Curva de Aprendizado

import matplotlib.pyplot as plt

plt.figure(figsize=(10, 5))
plt.plot(history.history['loss'], linewidth=2, color='#3498db')
plt.title('Curva de Aprendizado: Loss ao Longo do Treinamento', fontsize=14, fontweight='bold')
plt.ylabel('Loss (Sparse Categorical Crossentropy)', fontsize=12)
plt.xlabel('Epoch', fontsize=12)
plt.grid(True, alpha=0.3)
plt.tight_layout()
plt.show()

📊 Interpretando a Curva de Loss

O que esperar:

Início (epochs 0-50): Loss alta (~3.0-2.5) - modelo ainda aleatório
Meio (epochs 50-150): Queda rápida (~2.5 → 1.0) - aprendizado ativo
Fim (epochs 150-300): Estabilização (~0.5-0.2) - convergência

Sinais de Bom Treinamento:

✅ Curva descendente suave
✅ Estabilização em valor baixo (< 0.5)
✅ Sem oscilações bruscas

Sinais de Problemas:

⚠️ Não converge: Loss permanece alta → aumentar epochs ou learning rate
⚠️ Oscila muito: → reduzir learning rate
⚠️ Sobe após descer: → possível overfitting ou learning rate muito alto

💡 Valor típico final: Para corpus pequeno, loss ~0.1-0.3 indica boa memorização dos padrões.

✨ Gerando Texto com o Modelo Treinado

def gerar_texto(modelo, seed_text, next_chars, tokenizer, seq_length):
    """
    Gera texto caractere por caractere usando o modelo treinado.
    
    Parâmetros:
        modelo: modelo LSTM treinado
        seed_text: texto inicial (semente) com pelo menos seq_length caracteres
        next_chars: quantos caracteres gerar
        tokenizer: tokenizer usado no treinamento
        seq_length: tamanho da janela de contexto
    
    Retorna:
        Texto gerado (seed_text + caracteres gerados)
    """
    result = seed_text
    
    for _ in range(next_chars):
        # 1. Tokeniza o seed_text atual
        encoded = tokenizer.texts_to_sequences([seed_text])[0]
        
        # 2. Pega apenas os últimos seq_length caracteres (janela deslizante)
        encoded = np.array(encoded[-seq_length:]).reshape(1, seq_length)
        
        # 3. Prediz probabilidades para o próximo caractere
        predicted_probs = modelo.predict(encoded, verbose=0)
        
        # 4. Escolhe o caractere com maior probabilidade (greedy)
        predicted_idx = np.argmax(predicted_probs, axis=-1)
        
        # 5. Converte índice de volta para caractere
        out_char = tokenizer.sequences_to_texts([[predicted_idx[0]]])[0]
        
        # 6. Adiciona ao seed e ao resultado
        seed_text += out_char
        result += out_char
    
    return result

🎬 Processo de Geração (Exemplo Passo a Passo)

Iteração 1:

seed_text = "Este "  (5 caracteres)
encoded = [5, 12, 3, 2, 1]
predicted_probs = [0.01, 0.87, 0.03, ...]  ← índice 1 tem 87% de probabilidade
out_char = 'é'
seed_text = "Este é"

Iteração 2:

seed_text = "Este é"  (6 caracteres, pega últimos 5)
encoded = [12, 3, 2, 1, 13]  ← últimos 5
predicted_probs = [0.02, 0.05, 0.72, ...]  ← índice 2 tem 72%
out_char = ' '
seed_text = "Este é "

💡 Detalhe Importante: Esta implementação usa greedy decoding (sempre escolhe a opção mais provável). Para mais criatividade, use temperature sampling ou nucleus sampling, explicados na seção anterior.

🎪 Testando a Geração de Texto

# Usando "Este " como semente (5 caracteres)
seed_text = "Este "
generated = gerar_texto(model, seed_text, 43, tokenizer, seq_length)
print("Texto gerado:", generated)

📝 Saída Esperada

Input: seed_text = "Este " (5 caracteres)

Output esperado (aproximado):

Texto gerado: Este é um exemplo de texto para treinar uma RNN.

Análise do Resultado:

O modelo "completa" o texto original do corpus
Com corpus pequeno, tende a memorizar exatamente o treinamento
Com corpus maior e mais diverso, gera variações criativas

Experimentos:

# Teste com seed diferente
print(gerar_texto(model, "exem", 20, tokenizer, seq_length))
# Pode gerar: "exemplo de texto para"

# Seed que não está no corpus
print(gerar_texto(model, "Rede ", 15, tokenizer, seq_length))
# Resultado pode ser menos coerente (generalização limitada)

💡 Para Melhorar a Geração:

Use corpus maior (milhares de frases)
Aumente seq_length (contexto maior)
Adicione mais camadas LSTM
Use bidirectional LSTM
Implemente temperature sampling para criatividade

🔬 Interpretando o Modelo com LIME

LIME (Local Interpretable Model-agnostic Explanations) é uma técnica que explica quais partes do texto mais influenciam as predições do modelo. Útil para entender o comportamento da RNN e debugar problemas.

📚 O que é LIME?

Ideia: Criar um modelo linear simples (interpretável) que aproxima o comportamento do modelo complexo (RNN) em uma região local.

Como funciona:

Perturba o texto (remove palavras/caracteres aleatoriamente)
Obtém predições do modelo para cada perturbação
Treina um modelo linear simples nesses exemplos
Os pesos do modelo linear mostram importância de cada parte

Resultado: Identifica quais caracteres/palavras aumentam ou diminuem a probabilidade de cada classe.

from lime.lime_text import LimeTextExplainer
from tensorflow.keras.preprocessing.sequence import pad_sequences

def predict_proba(texts):
    """
    Função wrapper para LIME: converte textos em predições.
    
    LIME precisa de uma função que:
        - Recebe: lista de strings
        - Retorna: matriz de probabilidades (n_samples, n_classes)
    """
    # Tokeniza os textos perturbados
    sequences = tokenizer.texts_to_sequences(texts)
    
    # Padding: garante que todas as sequências tenham seq_length
    # padding='pre': adiciona zeros no início se necessário
    padded_sequences = pad_sequences(sequences, maxlen=seq_length, padding='pre')
    
    # Prediz probabilidades para cada classe (caractere)
    predictions = model.predict(padded_sequences, verbose=0)
    
    return predictions

🔍 Aplicando o LIME ao Texto Gerado

# Cria o explicador
# class_names: nomes das classes (aqui são os índices dos caracteres)
explainer = LimeTextExplainer(class_names=[str(i) for i in range(vocab_size)])

# Explica a predição para o texto gerado
# generated: texto a ser explicado
# predict_proba: função que faz predições
# num_features: quantas features (caracteres) mostrar na explicação
explanation = explainer.explain_instance(
    generated, 
    predict_proba, 
    num_features=len(generated),
    num_samples=500  # Número de perturbações para testar
)

# Mostra a explicação visual (em notebook)
explanation.show_in_notebook(text=True)

# Ou salva como HTML
explanation.save_to_file('lime_explanation.html')

📊 Interpretando o Resultado

O LIME mostra:

Verde: Caracteres que aumentam a probabilidade da classe predita
Rosa/Vermelho: Caracteres que diminuem a probabilidade da classe predita
Intensidade: Cor mais forte = maior influência

Exemplo de Insight:

Texto: "Este é um exemplo"
Predição: próximo caractere = ' ' (espaço)

LIME pode revelar:
- Palavra "exemplo" tem forte influência positiva (geralmente seguida de espaço)
- Letra "o" final tem alta importância
- Contexto "um exemplo" é determinante

💡 Uso Prático: LIME ajuda a detectar se o modelo está aprendendo padrões corretos ou apenas memorizando. Se a explicação não faz sentido linguístico, pode indicar overfitting.

                    🌟 Principais Aplicações em PLN
                    Geração de Texto: Criação automática de conteúdo textual (artigos, poemas, código)
Tradução Automática: Tradução entre idiomas usando arquiteturas encoder-decoder
Análise de Sentimentos: Classificação de emoções em textos (positivo, negativo, neutro)
Sumarização: Criação automática de resumos de documentos longos
Chatbots: Sistemas de diálogo inteligentes e assistentes virtuais
Reconhecimento de Entidades: Identificação de pessoas, lugares, organizações em texto
Correção Ortográfica: Detecção e correção automática de erros
Geração de Legendas: Descrição automática de imagens em linguagem natural

                

📋 Código Completo - Gerador de Texto com LSTM

Código completo e funcional para copiar e executar:

import numpy as np
import matplotlib.pyplot as plt
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import LSTM, Dense, Embedding
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences
from lime.lime_text import LimeTextExplainer

# ===== 1. PREPARAÇÃO DOS DADOS =====
corpus = "Este é um exemplo de texto para treinar uma RNN."
tokenizer = Tokenizer(char_level=True)
tokenizer.fit_on_texts([corpus])
sequence_data = tokenizer.texts_to_sequences([corpus])[0]
vocab_size = len(tokenizer.word_index) + 1

# Cria sequências de treinamento
seq_length = 5
sequences = []
for i in range(seq_length, len(sequence_data)):
    sequences.append(sequence_data[i-seq_length:i+1])

sequences = np.array(sequences)
X, y = sequences[:, :-1], sequences[:, -1]

# ===== 2. CONSTRUÇÃO DO MODELO =====
model = Sequential([
    Embedding(vocab_size, 10, input_length=seq_length),
    LSTM(50, return_sequences=False),
    Dense(vocab_size, activation='softmax')
])

model.compile(loss='sparse_categorical_crossentropy', optimizer='adam')
print(model.summary())

# ===== 3. TREINAMENTO =====
history = model.fit(X, y, epochs=300, verbose=1)

# Plot da loss
plt.figure(figsize=(8, 4))
plt.plot(history.history['loss'])
plt.title('Curva de Aprendizado')
plt.ylabel('Loss')
plt.xlabel('Epoch')
plt.grid(True)
plt.show()

# ===== 4. GERAÇÃO DE TEXTO =====
def gerar_texto(modelo, seed_text, next_chars, tokenizer, seq_length):
    result = seed_text
    for _ in range(next_chars):
        encoded = tokenizer.texts_to_sequences([seed_text])[0]
        encoded = np.array(encoded[-seq_length:]).reshape(1, seq_length)
        predicted_probs = modelo.predict(encoded, verbose=0)
        predicted_idx = np.argmax(predicted_probs, axis=-1)
        out_char = tokenizer.sequences_to_texts([[predicted_idx[0]]])[0]
        seed_text += out_char
        result += out_char
    return result

# Teste da geração
seed_text = "Este "
generated = gerar_texto(model, seed_text, 43, tokenizer, seq_length)
print(f"\nTexto gerado:\n{generated}")

# ===== 5. INTERPRETAÇÃO COM LIME =====
def predict_proba(texts):
    sequences = tokenizer.texts_to_sequences(texts)
    padded_sequences = pad_sequences(sequences, maxlen=seq_length, padding='pre')
    predictions = model.predict(padded_sequences, verbose=0)
    return predictions

explainer = LimeTextExplainer(class_names=[str(i) for i in range(vocab_size)])
explanation = explainer.explain_instance(
    generated, 
    predict_proba, 
    num_features=len(generated),
    num_samples=500
)

# Salva explicação
explanation.save_to_file('lime_explanation.html')
print("\nExplicação LIME salva em 'lime_explanation.html'")

⚡ Dicas para Executar

1. Instalação de dependências:

pip install tensorflow numpy matplotlib lime

2. Requisitos: Python 3.7+, TensorFlow 2.0+

3. Tempo: ~2-5 minutos para treinar (depende do hardware)

4. Melhorias:

Use corpus maior (textos literários, Wikipedia, etc.)
Aumente seq_length para contexto maior (10-50 caracteres)
Experimente com temperature sampling na geração
Adicione dropout para regularização
Use Bidirectional LSTM para melhor compreensão contextual

Curiosidades

🧠 Origem da Inspiração

As RNNs foram inspiradas pela neurociência! O conceito de "memória" nas redes neurais recorrentes foi baseado no funcionamento dos neurônios biológicos, que mantêm ativação residual e podem influenciar processamentos futuros. Esta capacidade de "lembrar" informações passadas é fundamental tanto no cérebro humano quanto nas RNNs.

A ideia de conexões recorrentes simula os loops de feedback encontrados no córtex cerebral, onde neurônios se conectam de volta a si mesmos ou a camadas anteriores.

🏆 Pioneiros das Redes Neurais Recorrentes

👨‍🔬 Cientistas Fundamentais

🇺🇸 John Hopfield (1943-)

• Contribuição: Criou as Redes de Hopfield (1982), precursoras das RNNs modernas

• Inovação: Introduziu o conceito de energia associativa e memória conteúdo-endereçável

• Impacto: Suas redes foram fundamentais para entender como armazenar e recuperar padrões

🇺🇸 Jeffrey Elman (1948-2018)

• Contribuição: Desenvolveu as Redes de Elman (1990), primeiro modelo prático de RNN

• Inovação: Criou a arquitetura "Simple Recurrent Network" com contexto temporal

• Legado: Pioneiro na aplicação de RNNs para processamento de linguagem natural

🇩🇪 Sepp Hochreiter (1967-)

• Contribuição: Co-inventor da LSTM (Long Short-Term Memory) em 1997

• Problema resolvido: Solucionou o problema do desaparecimento do gradiente

• Revolução: Tornou possível treinar RNNs para sequências longas

🇨🇭 Jürgen Schmidhuber (1963-)

• Contribuição: Co-inventor da LSTM e pioneiro em deep learning

• Visão: Defendeu redes neurais profundas quando eram impopulares

• Influência: Orientou muitos pesquisadores que se tornaram líderes da área

🇰🇷 Kyunghyun Cho (1984-)

• Contribuição: Criador da GRU (Gated Recurrent Unit) em 2014

• Simplificação: Desenvolveu uma alternativa mais simples à LSTM

• Impacto: Tornou RNNs mais eficientes computacionalmente

🇨🇦 Yoshua Bengio (1964-)

• Contribuição: Pioneiro em RNNs para tradução automática

• Prêmio: Turing Award 2018 por contribuições ao deep learning

• Inovação: Desenvolveu mecanismos de atenção que revolucionaram NLP

📊 Fatos Numéricos Impressionantes

🔢 Números que Surpreendem

Parâmetros: O GPT-3 tem 175 bilhões de parâmetros, muitos em camadas recorrentes

Velocidade: RNNs modernas processam milhares de tokens por segundo

Memória: LSTMs podem "lembrar" informações por centenas de passos temporais

Treinamento: Modelos grandes requerem semanas de treinamento em supercomputadores

Dados: Alguns modelos são treinados com trilhões de palavras de texto

🌟 Aplicações Revolucionárias

🗣️ Google Translate: Revolucionou tradução automática usando RNNs encoder-decoder

🎵 Composição Musical: RNNs compõem música no estilo de Bach, Mozart e outros

📈 Trading Algorítmico: Análise de padrões em mercados financeiros

🧬 Bioinformática: Análise de sequências de DNA e proteínas

🎬 Legendas Automáticas: Geração de legendas para vídeos no YouTube

🤖 Assistentes Virtuais: Siri, Alexa e Google Assistant usam RNNs

🏆 Marcos Históricos

📅 Linha do Tempo das RNNs

1943: McCulloch & Pitts propõem primeiro modelo de neurônio artificial

1982: John Hopfield introduz Redes de Hopfield

1986: Rumelhart et al. formalizam Backpropagation

1990: Jeffrey Elman cria Simple Recurrent Networks

1991: Sepp Hochreiter identifica problema do vanishing gradient

1997: Hochreiter & Schmidhuber inventam LSTM

2014: Kyunghyun Cho desenvolve GRU

2014: Sutskever et al. criam sequence-to-sequence learning

2017: "Attention Is All You Need" - nascimento dos Transformers

2018-2025: Era dos modelos híbridos RNN-Transformer

🎯 Curiosidades Técnicas

⚡ Fatos Técnicos Interessantes

🔄 Universalidade: RNNs são Turing-completas, teoricamente capazes de computar qualquer função

📚 Memória Infinita: Em teoria, RNNs podem ter memória infinita (na prática, limitada por precisão numérica)

🎲 Caos Determinístico: RNNs podem exibir comportamento caótico mesmo sendo determinísticas

🔮 Predição: RNNs conseguem prever sequências que humanos consideram aleatórias

🧮 Aproximação: Uma RNN com suficientes neurônios pode aproximar qualquer função dinâmica

🔬 Limitações Fascinantes

⚠️ Paradoxos e Limitações

Paradoxo da Memória: RNNs podem "esquecer" informações importantes enquanto "lembram" de detalhes irrelevantes

Instabilidade: Pequenas mudanças na entrada podem causar grandes mudanças na saída

Interpretabilidade: É extremamente difícil entender o que uma RNN "aprendeu"

Paralelização: RNNs são inerentemente sequenciais, dificultando paralelização

Overfitting Temporal: Podem memorizar sequências específicas em vez de aprender padrões gerais

🔮 Futuro das RNNs

🤝 Arquiteturas Híbridas: Combinação de RNNs com Transformers e CNNs

🧠 Neuromorphic Computing: RNNs implementadas em chips que simulam neurônios

⚡ Hardware Especializado: Chips dedicados para acelerar computações recorrentes

🔄 Learning Continuo: RNNs que aprendem continuamente sem esquecer

🌐 Federated Learning: RNNs distribuídas que preservam privacidade

🧬 Bio-inspired: Novas arquiteturas baseadas em descobertas neurocientíficas

💡 Aplicações do Futuro

🚀 Próximas Fronteiras

🏥 Medicina Personalizada: Análise de histórico médico para tratamentos customizados

🌍 Mudanças Climáticas: Modelagem de padrões climáticos de longo prazo

🧠 Interface Cérebro-Computador: Decodificação de sinais neurais em tempo real

🚗 Veículos Autônomos: Predição de comportamento de pedestres e outros veículos

🎮 Jogos Inteligentes: NPCs que aprendem e se adaptam ao estilo do jogador

📚 Educação Adaptativa: Sistemas que se ajustam ao ritmo de aprendizado individual

🎓 Legado Científico

As RNNs representam um marco fundamental na jornada rumo à Inteligência Artificial. Elas foram o primeiro passo significativo para máquinas que podem processar informação sequencial, abrindo caminho para os avanços atuais em IA.

O trabalho desses pioneiros não apenas resolveu problemas técnicos complexos, mas também expandiu nossa compreensão sobre como a informação pode ser processada e armazenada em sistemas artificiais.

Hoje, embora Transformers dominem muitas aplicações, os princípios fundamentais das RNNs continuam sendo essenciais para compreender o processamento sequencial em IA.

🎉 Mensagem Final

Parabéns! Você agora domina os conceitos fundamentais das Redes Neurais Recorrentes, uma tecnologia que continua evoluindo e impactando nossas vidas diariamente.

As RNNs nos ensinaram que máquinas podem ter "memória" e processar sequências complexas, estabelecendo as bases para a revolução atual da IA.

"O futuro pertence àqueles que compreendem tanto o passado quanto as possibilidades infinitas do amanhã." - Inspirado pelos pioneiros das RNNs