import pandas as pd
import numpy as np
from sklearn.mixture import GaussianMixture
from sklearn.preprocessing import StandardScaler
import matplotlib.pyplot as plt
import seaborn as sns

# Load and preprocess data
df = pd.read_csv('/Users/srgupta/Desktop/Academany/Data_Science/sahil-gupta/datasets/chatgpt1.csv')
numerical_cols = df.select_dtypes(include=[np.number]).columns
df_num = df[numerical_cols].fillna(0)

# Select features for clustering (engagement metrics)
features = ['ReplyCount', 'RetweetCount', 'QuoteCount', 'LikeCount', 'hastag_counts']
X = df_num[features]

# Standardize data (important for GMM)
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

# Fit GMM (assume 3 clusters; adjust n_components based on data)
gmm = GaussianMixture(n_components=3, random_state=42)
gmm.fit(X_scaled)

# Predict cluster labels
labels = gmm.predict(X_scaled)
df_num['Cluster'] = labels

# Evaluate: Log-likelihood and BIC for model fit
print(f"Log-Likelihood: {gmm.score(X_scaled)}")
print(f"BIC: {gmm.bic(X_scaled)}")

# Visualize clusters (pairplot of key features, colored by cluster)
# Sample a subset for speed (full dataset is large)
sample_df = df_num.sample(n=5000, random_state=42)
sns.pairplot(sample_df, vars=['RetweetCount', 'LikeCount', 'ReplyCount'], hue='Cluster', palette='viridis')
plt.suptitle('GMM Clusters (Sampled Data)', y=1.02)
plt.show()

# Optional: Cluster sizes
print("Cluster Sizes:")
print(df_num['Cluster'].value_counts())

/Users/srgupta/Desktop/Academany/Data_Science/.venv/lib/python3.10/site-packages/sklearn/utils/extmath.py:203: RuntimeWarning: divide by zero encountered in matmul
  ret = a @ b
/Users/srgupta/Desktop/Academany/Data_Science/.venv/lib/python3.10/site-packages/sklearn/utils/extmath.py:203: RuntimeWarning: overflow encountered in matmul
  ret = a @ b
/Users/srgupta/Desktop/Academany/Data_Science/.venv/lib/python3.10/site-packages/sklearn/utils/extmath.py:203: RuntimeWarning: invalid value encountered in matmul
  ret = a @ b
/Users/srgupta/Desktop/Academany/Data_Science/.venv/lib/python3.10/site-packages/sklearn/cluster/_kmeans.py:237: RuntimeWarning: divide by zero encountered in matmul
  current_pot = closest_dist_sq @ sample_weight
/Users/srgupta/Desktop/Academany/Data_Science/.venv/lib/python3.10/site-packages/sklearn/cluster/_kmeans.py:237: RuntimeWarning: overflow encountered in matmul
  current_pot = closest_dist_sq @ sample_weight
/Users/srgupta/Desktop/Academany/Data_Science/.venv/lib/python3.10/site-packages/sklearn/cluster/_kmeans.py:237: RuntimeWarning: invalid value encountered in matmul
  current_pot = closest_dist_sq @ sample_weight

Log-Likelihood: 5.280790520421618
BIC: -527418.7861295816

Cluster Sizes:
Cluster
0    48924
1     1076
2        1
Name: count, dtype: int64

import pandas as pd
import numpy as np
from sklearn.cluster import KMeans
from sklearn.preprocessing import StandardScaler
import matplotlib.pyplot as plt
import seaborn as sns

# Load and preprocess data
df = pd.read_csv('/Users/srgupta/Desktop/Academany/Data_Science/sahil-gupta/datasets/chatgpt1.csv')
numerical_cols = df.select_dtypes(include=[np.number]).columns
df_num = df[numerical_cols].fillna(0)

# Select features for clustering (engagement metrics)
features = ['ReplyCount', 'RetweetCount', 'QuoteCount', 'LikeCount', 'hastag_counts']
X = df_num[features]

# Standardize data (recommended for K-Means)
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

# Fit K-Means (assume 3 clusters; adjust n_clusters based on data)
kmeans = KMeans(n_clusters=3, random_state=42, n_init=10)
labels = kmeans.fit_predict(X_scaled)
df_num['Cluster'] = labels

# Evaluate: Inertia (within-cluster sum of squares; lower is better)
print(f"Inertia: {kmeans.inertia_}")

# Visualize clusters (pairplot of key features, colored by cluster)
# Sample a subset for speed
sample_df = df_num.sample(n=5000, random_state=42)
sns.pairplot(sample_df, vars=['RetweetCount', 'LikeCount', 'ReplyCount'], hue='Cluster', palette='viridis')
plt.suptitle('K-Means Clusters (Sampled Data)', y=1.02)
plt.show()

# Optional: Cluster sizes and centroids
print("Cluster Sizes:")
print(df_num['Cluster'].value_counts())
print("\nCluster Centroids (original scale):")
centroids = scaler.inverse_transform(kmeans.cluster_centers_)
centroid_df = pd.DataFrame(centroids, columns=features)
print(centroid_df)

/Users/srgupta/Desktop/Academany/Data_Science/.venv/lib/python3.10/site-packages/sklearn/utils/extmath.py:203: RuntimeWarning: divide by zero encountered in matmul
  ret = a @ b
/Users/srgupta/Desktop/Academany/Data_Science/.venv/lib/python3.10/site-packages/sklearn/utils/extmath.py:203: RuntimeWarning: overflow encountered in matmul
  ret = a @ b
/Users/srgupta/Desktop/Academany/Data_Science/.venv/lib/python3.10/site-packages/sklearn/utils/extmath.py:203: RuntimeWarning: invalid value encountered in matmul
  ret = a @ b
/Users/srgupta/Desktop/Academany/Data_Science/.venv/lib/python3.10/site-packages/sklearn/cluster/_kmeans.py:237: RuntimeWarning: divide by zero encountered in matmul
  current_pot = closest_dist_sq @ sample_weight
/Users/srgupta/Desktop/Academany/Data_Science/.venv/lib/python3.10/site-packages/sklearn/cluster/_kmeans.py:237: RuntimeWarning: overflow encountered in matmul
  current_pot = closest_dist_sq @ sample_weight
/Users/srgupta/Desktop/Academany/Data_Science/.venv/lib/python3.10/site-packages/sklearn/cluster/_kmeans.py:237: RuntimeWarning: invalid value encountered in matmul
  current_pot = closest_dist_sq @ sample_weight

Inertia: 97401.52927266332

Cluster Sizes:
Cluster
0    49988
1       12
2        1
Name: count, dtype: int64

Cluster Centroids (original scale):
    ReplyCount  RetweetCount   QuoteCount     LikeCount  hastag_counts
0     0.666460      0.908458     0.116108      6.383292   7.835080e-01
1   976.833333   1891.666667   268.833333   9138.750000   1.110223e-16
2  1421.000000   6815.000000  1947.000000  56073.000000   0.000000e+00

Week 6: Density Estimation¶