import pandas as pd
import numpy as np
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split
from sklearn.neural_network import MLPRegressor
import matplotlib.pyplot as plt

# -----------------------
# 1. Prepare the dataset
# -----------------------
data = {
    "Math": [20,35,70,40,50,67,88,46,67,46],
    "Sci": [54,60,54,34,36,67,89,90,57,67],
    "Eng": [67,76,55,45,34,25,78,47,67,76],
    "Dzo": [93,59,76,77,59,47,29,39,71,62],
    "Total": [234,230,255,196,179,206,284,222,262,251]
}

df = pd.DataFrame(data)

X = df[["Math", "Sci", "Eng", "Dzo"]].values
y = df["Total"].values

# Scale features
scaler_X = StandardScaler()
X_scaled = scaler_X.fit_transform(X)

# -----------------------
# 2. Train-Test Split
# -----------------------
X_train, X_test, y_train, y_test = train_test_split(X_scaled, y, test_size=0.2, random_state=42)

# -----------------------
# 3. Fit Neural Network (as a proxy for Transformer)
# -----------------------
mlp = MLPRegressor(hidden_layer_sizes=(16,16), max_iter=2000, random_state=42)
mlp.fit(X_train, y_train)

# -----------------------
# 4. Predictions
# -----------------------
y_pred = mlp.predict(X_test)

# Display actual vs predicted
results = pd.DataFrame({"Actual": y_test, "Predicted": y_pred})
print(results)

# -----------------------
# 5. Plot
# -----------------------
plt.figure(figsize=(7,5))
plt.plot(range(len(y_test)), y_test, marker='o', label="Actual")
plt.plot(range(len(y_pred)), y_pred, marker='x', label="Predicted")
plt.xlabel("Test Sample Index")
plt.ylabel("Total Marks")
plt.title("Actual vs Predicted Total Marks (NN Proxy for Transformer)")
plt.legend()
plt.grid(True)
plt.show()

   Actual   Predicted
0     262  279.432371
1     230  228.867588

/opt/conda/lib/python3.13/site-packages/sklearn/neural_network/_multilayer_perceptron.py:781: ConvergenceWarning: Stochastic Optimizer: Maximum iterations (2000) reached and the optimization hasn't converged yet.
  warnings.warn(

import pandas as pd
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split
from sklearn.neural_network import MLPRegressor
import matplotlib.pyplot as plt

# -----------------------
# 1. Prepare the dataset
# -----------------------
data = {
    "Math": [20,35,70,40,50,67,88,46,67,46],
    "Sci": [54,60,54,34,36,67,89,90,57,67],
    "Eng": [67,76,55,45,34,25,78,47,67,76],
    "Dzo": [93,59,76,77,59,47,29,39,71,62],
    "Total": [234,230,255,196,179,206,284,222,262,251]
}

df = pd.DataFrame(data)

X = df[["Math", "Sci", "Eng", "Dzo"]]
y = df["Total"]

# Scale features
scaler_X = StandardScaler()
X_scaled = scaler_X.fit_transform(X)

# -----------------------
# 2. Train-Test Split
# -----------------------
X_train, X_test, y_train, y_test = train_test_split(X_scaled, y, test_size=0.2, random_state=42)

# -----------------------
# 3. Fit Neural Network (proxy for Transformer)
# -----------------------
mlp = MLPRegressor(hidden_layer_sizes=(16,16), max_iter=2000, random_state=42)
mlp.fit(X_train, y_train)

# -----------------------
# 4. Predictions
# -----------------------
y_pred = mlp.predict(X_test)

# Display actual vs predicted
results = pd.DataFrame({"Actual": y_test, "Predicted": y_pred})
print(results)

# -----------------------
# 5. Plot
# -----------------------
plt.figure(figsize=(7,5))
plt.plot(range(len(y_test)), y_test, marker='o', label="Actual")
plt.plot(range(len(y_pred)), y_pred, marker='x', label="Predicted")
plt.xlabel("Test Sample Index")
plt.ylabel("Total Marks")
plt.title("Actual vs Predicted Total Marks (NN Proxy for Transformer)")
plt.legend()
plt.grid(True)
plt.show()

   Actual   Predicted
8     262  279.432371
1     230  228.867588

/opt/conda/lib/python3.13/site-packages/sklearn/neural_network/_multilayer_perceptron.py:781: ConvergenceWarning: Stochastic Optimizer: Maximum iterations (2000) reached and the optimization hasn't converged yet.
  warnings.warn(

import pandas as pd
import numpy as np
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split
from sklearn.neural_network import MLPRegressor
import matplotlib.pyplot as plt

# -----------------------
# Dataset
# -----------------------
data = {
    "Math": [20,35,70,40,50,67,88,46,67,46],
    "Sci": [54,60,54,34,36,67,89,90,57,67],
    "Eng": [67,76,55,45,34,25,78,47,67,76],
    "Dzo": [93,59,76,77,59,47,29,39,71,62],
    "Total": [234,230,255,196,179,206,284,222,262,251]
}
df = pd.DataFrame(data)

X = df[["Math","Sci","Eng","Dzo"]]
y = df["Total"]

# Scale features
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

# Train-test split
X_train, X_test, y_train, y_test = train_test_split(X_scaled, y, test_size=0.2, random_state=42)

# -----------------------
# MLPRegressor as proxy for Transformer
# -----------------------
mlp = MLPRegressor(hidden_layer_sizes=(16,16), max_iter=2000, random_state=42)
mlp.fit(X_train, y_train)
y_pred = mlp.predict(X_test)

# -----------------------
# Circular plot for feature importance (simulated attention)
# -----------------------
# Use absolute value of first layer weights as "attention"
attention = np.abs(mlp.coefs_[0]).mean(axis=1)
subjects = ["Math","Sci","Eng","Dzo"]

theta = np.linspace(0, 2*np.pi, len(subjects), endpoint=False)
radii = attention
width = 2*np.pi / len(subjects)

plt.figure(figsize=(6,6))
ax = plt.subplot(111, polar=True)
bars = ax.bar(theta, radii, width=width, bottom=0.0, alpha=0.6)
ax.set_xticks(theta)
ax.set_xticklabels(subjects)
ax.set_title("Simulated Attention Across Subjects (MLP Proxy)")
plt.show()

/opt/conda/lib/python3.13/site-packages/sklearn/neural_network/_multilayer_perceptron.py:781: ConvergenceWarning: Stochastic Optimizer: Maximum iterations (2000) reached and the optimization hasn't converged yet.
  warnings.warn(

what is transformerr?¶

Why Transformers Are Important¶

Tool / Library Purpose¶

Tool Purpose¶