%matplotlib inline
import numpy as np
import matplotlib.pyplot as plt 
import pandas as pd
import warnings
warnings.filterwarnings('ignore')


!pip install gdown

Defaulting to user installation because normal site-packages is not writeable
Collecting gdown
  Downloading gdown-3.13.0.tar.gz (9.3 kB)
  Installing build dependencies ... done
  Getting requirements to build wheel ... done
    Preparing wheel metadata ... done
Requirement already satisfied: requests[socks]>=2.12.0 in /usr/lib/python3/dist-packages (from gdown) (2.18.4)
Requirement already satisfied: tqdm in /home/uvishal/.local/lib/python3.6/site-packages (from gdown) (4.42.1)
Collecting filelock
  Downloading filelock-3.0.12-py3-none-any.whl (7.6 kB)
Requirement already satisfied: six in /home/uvishal/.local/lib/python3.6/site-packages (from gdown) (1.15.0)
Collecting PySocks!=1.5.7,>=1.5.6
  Downloading PySocks-1.7.1-py3-none-any.whl (16 kB)
Building wheels for collected packages: gdown
  Building wheel for gdown (PEP 517) ... done
  Created wheel for gdown: filename=gdown-3.13.0-py3-none-any.whl size=9034 sha256=d4e90e04afc6727a2d83ffc00c73e118feb5b894eda31cf48498755893ac370f
  Stored in directory: /home/uvishal/.cache/pip/wheels/6a/87/bd/09b16161b149fd6711ac76b5420d78ed58bd6a320e892117c3
Successfully built gdown
Installing collected packages: PySocks, filelock, gdown
Successfully installed PySocks-1.7.1 filelock-3.0.12 gdown-3.13.0


!gdown --id 1D7OZ_ibIjl-2clagDXHBgiX_-BxAycmK

Downloading...
From: https://drive.google.com/uc?id=1D7OZ_ibIjl-2clagDXHBgiX_-BxAycmK
To: /home/uvishal/Desktop/SummerSchool2021/Skyserver_12_15_2020 3 45 07 AM.csv
82.5MB [00:06, 13.6MB/s]


!pip install scikit-learn --upgrade

Defaulting to user installation because normal site-packages is not writeable
Requirement already satisfied: scikit-learn in /home/uvishal/.local/lib/python3.6/site-packages (0.21.3)
Collecting scikit-learn
  Downloading scikit_learn-0.24.2-cp36-cp36m-manylinux2010_x86_64.whl (22.2 MB)
     |████████████████████████████████| 22.2 MB 3.6 MB/s eta 0:00:01     |███████████████████▏            | 13.3 MB 2.6 MB/s eta 0:00:04
Requirement already satisfied: scipy>=0.19.1 in /home/uvishal/.local/lib/python3.6/site-packages (from scikit-learn) (1.3.1)
Collecting threadpoolctl>=2.0.0
  Downloading threadpoolctl-2.1.0-py3-none-any.whl (12 kB)
Requirement already satisfied: joblib>=0.11 in /home/uvishal/.local/lib/python3.6/site-packages (from scikit-learn) (0.13.2)
Requirement already satisfied: numpy>=1.13.3 in /home/uvishal/.local/lib/python3.6/site-packages (from scikit-learn) (1.16.4)
Installing collected packages: threadpoolctl, scikit-learn
  Attempting uninstall: scikit-learn
    Found existing installation: scikit-learn 0.21.3
    Uninstalling scikit-learn-0.21.3:
      Successfully uninstalled scikit-learn-0.21.3
Successfully installed scikit-learn-0.24.2 threadpoolctl-2.1.0


Data = pd.read_csv("Skyserver_12_15_2020 3 45 07 AM.csv",comment="#")


Data.head()


#First, replace with nan
Data = Data.replace(-9999.0,np.nan)
Data.dropna(inplace=True)


df = Data[['class','redshift']]
df['u_g'] = Data['u']-Data['g']
df['g_r'] = Data['g']-Data['r']
df['r_i'] = Data['r']-Data['i']
df['i_z'] = Data['i']-Data['z']

df = df.loc[df['class']=='QSO']


df.head()


df = df.drop('class',axis=1)


df.columns

Index(['redshift', 'u_g', 'g_r', 'r_i', 'i_z'], dtype='object')


from sklearn.preprocessing import StandardScaler


input_raw = df[['u_g','g_r','r_i','i_z']].values
output_raw = df['redshift'].values
print(input_raw.shape,output_raw.shape)

(54536, 4) (54536,)


output_raw = output_raw.reshape([-1,1])


_ = plt.hist(output_raw[:,0],30)
plt.xlabel("redshift")
plt.ylabel("Counts")
plt.figure()
_ = plt.hist(input_raw[:,0],30)
plt.xlabel("U-G")
plt.ylabel("Counts")

Text(0, 0.5, 'Counts')


scalerx = StandardScaler()
scalery = StandardScaler()

input_mod = scalerx.fit_transform(input_raw)
output_mod = scalery.fit_transform(output_raw)


idx = np.arange(input_mod.shape[0])

#----------- Shuffle the indices
np.random.seed(2796)
np.random.shuffle(idx)
idx = list(idx)
#-----------------
trainlocs = idx[:int(len(idx) * 0.85)]
xtrain = input_mod[trainlocs,:]
ytrain = output_mod[trainlocs]
print(xtrain.shape,ytrain.shape)

#------------------
testlocs = idx[int(len(idx) * 0.85):]
xtest = input_mod[testlocs]
ytest = output_mod[testlocs]
print(xtest.shape,ytest.shape)

(46355, 4) (46355, 1)
(8181, 4) (8181, 1)


ytrain_og = scalery.inverse_transform(ytrain)
ytest_og = scalery.inverse_transform(ytest)


from sklearn.metrics import mean_absolute_percentage_error,r2_score,mean_squared_error
def Performance(target,prediction):
    print(f"Mean square error: {mean_squared_error(target,prediction)}")
    print(f"Mean absolute percentage error: {mean_absolute_percentage_error(target,prediction)}")
    print(f"R2 score: {r2_score(target,prediction)}")


def Make_scatter_plot(target,prediction):
    plt.figure()
    plt.scatter(target,prediction,s=2.0)
    plt.xlabel("Targets")
    plt.ylabel("predictions")


from sklearn.linear_model import LinearRegression


LinReg = LinearRegression()
LinReg.fit(xtrain,ytrain)

LinearRegression()


ytrain_pred = LinReg.predict(xtrain)
ytest_pred = LinReg.predict(xtest)


ytrain_pred = scalery.inverse_transform(ytrain_pred)
ytest_pred = scalery.inverse_transform(ytest_pred)


print("Training set statistics")
Performance(ytrain_og,ytrain_pred)

Training set statistics
Mean square error: 0.4341474455449827
Mean absolute percentage error: 1.6382026041507045
R2 score: 0.11960032422078937


print("Testing set statistics")
Performance(ytest_og,ytest_pred)

Testing set statistics
Mean square error: 0.4130444409033818
Mean absolute percentage error: 2.8755175537844018
R2 score: 0.138727060676193


Make_scatter_plot(ytrain_og,ytrain_pred)
plt.title("Training set")
Make_scatter_plot(ytest_og,ytest_pred)
plt.title("Testing set")

Text(0.5, 1.0, 'Testing set')


import torch
import torch.nn as nn
from torch.utils import data


def _float(tensor):
    return torch.Tensor(tensor.astype(np.float32)).float()


class ReDNN(nn.Module):
    def __init__(self,nin,nout):
        super(ReDNN,self).__init__()
        self.NN = nn.Sequential(
                    nn.Linear(nin,12),
                    nn.ELU(inplace=True),
                    nn.Linear(12,26),
                    nn.ELU(inplace=True),
                    nn.Linear(26,14),
                    nn.ELU(inplace=True),
                    nn.Linear(14,7),
                    nn.ELU(inplace=True),
                    nn.Linear(7,nout)
        )
    def forward(self,input_data):
        return self.NN(input_data)


def MSE(true, pred):
    return ((true - pred)**2).mean().detach().cpu().numpy()

def Wrap_performance(true,pred):
    return Performance(true.detach().cpu().numpy(),pred.detach().cpu().numpy())

def loss_fn(true,pred):
    return ((true - pred)**2).mean()


torch.manual_seed(0)

<torch._C.Generator at 0x7f07b36607b0>


device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
print(device)

cpu


class Data(data.Dataset):
    def __init__(self,features,target):
        self.features = _float(features).to(device)
        self.target = _float(target).to(device)
        self.nout = target.shape[-1]
        self.nin = features.shape[-1]
    def __len__(self):
        return self.features.shape[0]
    def __getitem__(self,index):
        return self.features[index],self.target[index]


batch_size = 50000
lr = 1e-3
num_epochs = 10000


train_set = Data(xtrain,ytrain)
test_set = Data(xtest,ytest)

training_loader = data.DataLoader(train_set,batch_size=batch_size,shuffle=True)
test_loader = data.DataLoader(test_set,batch_size=test_set.features.shape[0],shuffle=True)


#This defines our model
Redshift_model = ReDNN(train_set.nin,train_set.nout)
Redshift_model = Redshift_model.to(device).float()
print(Redshift_model)

ReDNN(
  (NN): Sequential(
    (0): Linear(in_features=4, out_features=12, bias=True)
    (1): ELU(alpha=1.0, inplace=True)
    (2): Linear(in_features=12, out_features=26, bias=True)
    (3): ELU(alpha=1.0, inplace=True)
    (4): Linear(in_features=26, out_features=14, bias=True)
    (5): ELU(alpha=1.0, inplace=True)
    (6): Linear(in_features=14, out_features=7, bias=True)
    (7): ELU(alpha=1.0, inplace=True)
    (8): Linear(in_features=7, out_features=1, bias=True)
  )
)


optimizer = torch.optim.Adam(Redshift_model.parameters(),lr=lr)


!nvidia-smi

/bin/sh: 1: nvidia-smi: not found


from tqdm import tqdm


training_stats = []
testing_stats = []
for i in tqdm(np.arange(num_epochs)):
    mse_loss = []
    for features,target in training_loader:
        optimizer.zero_grad()

        # features = features.to(device)
        # target = target.to(device)

        predictions = Redshift_model(features)

        loss = loss_fn(target, predictions)
        
        loss.backward()
        optimizer.step()

        mse_loss.append(loss.detach().cpu().numpy())
    training_stats.append(np.mean(mse_loss))
    with torch.no_grad():
        mse_loss = []
        for features,target in test_loader:
            # features = features.to(device)
            # target = target.to(device)

            predictions = Redshift_model(features)

            loss = loss_fn(target, predictions)
            mse_loss.append(loss.detach().cpu().numpy())
        
        testing_stats.append(np.mean(mse_loss))
    if i%100==0:
        print(f"Training loss: {training_stats[-1]}")
        print(f"Testing loss: {testing_stats[-1]}")

  0%|          | 1/10000 [00:00<1:09:08,  2.41it/s]

Training loss: 1.0429177284240723
Testing loss: 1.010424017906189

  1%|          | 101/10000 [00:35<1:00:22,  2.73it/s]

Training loss: 0.805014967918396
Testing loss: 0.7586883306503296

  2%|▏         | 201/10000 [01:11<56:39,  2.88it/s]

Training loss: 0.5787550806999207
Testing loss: 0.5313055515289307

  3%|▎         | 301/10000 [01:47<57:07,  2.83it/s]

Training loss: 0.5105524063110352
Testing loss: 0.47404029965400696

  4%|▍         | 401/10000 [02:22<55:19,  2.89it/s]

Training loss: 0.47775566577911377
Testing loss: 0.44577157497406006


plt.plot(training_stats,'r')
plt.plot(testing_stats,'b')

[<matplotlib.lines.Line2D at 0x7f079d686ac8>]


xtmp,ytrain_scaled = train_set[:]
ytrain_scaled = ytrain_scaled.detach().cpu().numpy()
ytrain_pred = Redshift_model(xtmp.to(device)).detach().cpu().numpy()

xtmp,ytest_scaled = test_set[:]
ytest_scaled = ytest_scaled.detach().cpu().numpy()
ytest_pred = Redshift_model(xtmp.to(device)).detach().cpu().numpy()


ytrain_pred = scalery.inverse_transform(ytrain_pred)
ytest_pred = scalery.inverse_transform(ytest_pred)

ytrain_unscaled = scalery.inverse_transform(ytrain_scaled)
ytest_unscaled = scalery.inverse_transform(ytest_scaled)


print("Training set statistics")
Performance(ytrain_unscaled,ytrain_pred)

Training set statistics
Mean square error: 0.17955991625785828
Mean absolute percentage error: 1.4118765592575073
R2 score: 0.6358737369203818


print("Testing set statistics")
Performance(ytest_unscaled,ytest_pred)

Testing set statistics
Mean square error: 0.18180879950523376
Mean absolute percentage error: 3.0428426265716553
R2 score: 0.6208955050640239


Make_scatter_plot(ytrain_unscaled,ytrain_pred)
plt.title("Training set")
Make_scatter_plot(ytest_unscaled,ytest_pred)
plt.title("Testing set")

Text(0.5, 1.0, 'Testing set')

	objid	ra	dec	u	g	r	i	z	run	rerun	camcol	field	specobjid	class	redshift	plate	mjd	fiberid
0	1237678877245244171	318.951692	9.315146	19.51665	18.50036	17.95667	17.53139	17.32035	7777	301	5	53	819657923239110656	GALAXY	0.114299	728	52520	10
1	1237668332026986542	217.940001	14.608378	19.13548	18.55482	17.95603	17.68272	17.63717	5322	301	3	56	6154252554903769088	QSO	1.802680	5466	56033	304
2	1237664092899115053	129.948221	25.213328	19.54955	18.19434	17.83220	17.51329	17.47054	4335	301	3	130	2173034979993348096	GALAXY	0.070813	1930	53347	175
3	1237654604252119048	160.357788	3.567886	17.72343	16.65830	16.23667	16.07098	16.02797	2126	301	1	275	649647859372681216	STAR	0.000570	577	52367	13
4	1237661360769400880	226.001700	38.619699	16.60500	15.66234	15.39406	15.29443	15.29302	3699	301	2	227	5817649714997514240	STAR	-0.000184	5167	56066	454

	class	redshift	u_g	g_r	r_i	i_z
1	QSO	1.802680	0.58066	0.59879	0.27331	0.04555
8	QSO	0.754256	0.20686	0.09017	0.12023	0.06721
28	QSO	1.681824	0.13062	0.00068	0.20351	0.02154
55	QSO	0.506626	0.23220	0.04590	0.14832	0.03768
57	QSO	0.395499	0.24153	0.55923	0.44332	0.50756

Introduction to Machine learning

Estimate actual redshifts from photometric data¶

Step wise procedure¶

Step 1: Download data¶

Step 2: Convert magnitudes to color.¶

Train-test split¶

First up, let us check how Linear regression works out¶

Neural network¶

Pytorch structure¶