mingru / model.py

Update model.py

74a6d3c verified about 1 year ago

4.54 kB

	#@title Architecture implementation
	# TODO: comment and rename variables / clean code


	# https://arxiv.org/abs/2410.01201v1

	import torch
	import torch.nn as nn
	import torch.nn.functional as F


	# appendix B
	# https://github.com/glassroom/heinsen_sequence

	def heinsen_associative_scan_log(log_coeffs, log_values):
	a_star = log_coeffs.cumsum(dim = 1)
	log_h0_plus_b_star = (log_values - a_star).logcumsumexp(dim = 1)
	log_h = a_star + log_h0_plus_b_star
	return log_h.exp()

	# appendix B.3

	def g(x): return torch.where(x >= 0, x + 0.5, x.sigmoid())
	def log_g(x): return torch.where(x >= 0, (F.relu(x) + 0.5).log(), -F.softplus(-x))

	# log-space version of minGRU - B.3.1
	# they enforce the hidden states to be positive

	class minGRU(nn.Module):
	def __init__(self, d_model, d_inner):
	super().__init__()

	self.d_model = d_model
	self.d_inner = d_inner

	self.hidden_proj = nn.Linear(d_model, d_inner, bias=False)
	self.gate_proj = nn.Linear(d_model, d_inner, bias=False)
	self.out_proj = nn.Linear(d_inner, d_model, bias=False)


	def step(self, x, h_prev=None):
	hidden = self.hidden_proj(x)
	gate = self.gate_proj(x)

	h_prev = h_prev.detach() if h_prev is not None else None

	hidden = g(hidden)
	gate = gate.sigmoid()
	out = torch.lerp(h_prev, hidden, gate) if h_prev is not None else (hidden * gate)

	h_next = out[:, -1:]
	out = self.out_proj(out)

	return out, h_next


	def forward(self, x, h_prev=None):
	seq_len = x.shape[1]
	hidden = self.hidden_proj(x)
	gate = self.gate_proj(x)

	h_prev = h_prev.detach() if h_prev is not None else None

	log_coeffs = -F.softplus(gate)
	log_z = -F.softplus(-gate)
	log_tilde_h = log_g(hidden)
	log_values = log_z + log_tilde_h

	if h_prev is not None:
	log_values = torch.cat((h_prev.log(), log_values), dim=1)
	log_coeffs = F.pad(log_coeffs, (0, 0, 1, 0))

	out = heinsen_associative_scan_log(log_coeffs, log_values)
	out = out[:, -seq_len:]

	h_next = out[:, -1:]
	out = self.out_proj(out)

	return out, h_next






	class RMSNorm(nn.Module):
	def __init__(self, d_model: int, eps: float=1e-5):
	super().__init__()
	self.eps = eps
	self.weight = nn.Parameter(torch.ones(d_model))

	def _norm(self, x):
	return x * torch.rsqrt(x.pow(2).mean(-1, keepdim=True) + self.eps)

	def forward(self, x):
	output = self._norm(x.float()).type_as(x)
	return output * self.weight





	class minGRULM(nn.Module):
	def __init__(self, vocab_size, d_model, d_inner, n_layers):
	super().__init__()

	self.vocab_size = vocab_size
	self.d_model = d_model
	self.d_inner = d_inner
	self.n_layers = n_layers

	self.embed = nn.Embedding(vocab_size, d_model)

	self.layers = nn.ModuleList([])
	for _ in range(n_layers):
	self.layers.append(nn.ModuleList([
	RMSNorm(d_model),
	minGRU(d_model, d_inner)
	]))

	self.norm_f = RMSNorm(d_model)
	self.lm_head = nn.Linear(d_model, vocab_size, bias = False)



	# One single step of minGRU, forwarding one token and outputting one token
	def step(self, x, h_states=None):
	x = self.embed(x)

	h_next = []
	h_states = iter(h_states if h_states is not None else [])

	for norm, mingru in self.layers:
	h_prev = next(h_states, None)
	residual = x

	x = norm(x)
	x, h_t = mingru.step(x, h_prev)
	x = x + residual

	h_next.append(h_t)

	x = self.norm_f(x)
	logits = self.lm_head(x)

	return logits, h_next



	def forward(self, x, h_states=None):
	x, labels = x[:, :-1], x[:, 1:]
	x = self.embed(x)

	h_next = []
	h_states = iter(h_states if h_states is not None else [])

	for norm, mingru in self.layers:
	h_prev = next(h_states, None)
	residual = x

	x = norm(x)
	x, h_t = mingru.forward(x, h_prev)
	x = x + residual

	h_next.append(h_t)

	x = self.norm_f(x)
	logits = self.lm_head(x)
	loss = F.cross_entropy(logits.transpose(1, 2), labels)

	return logits, h_next, loss