Random Forest in Income per Person

February 14, 2021

Random Forest in Income per Person

Introduction

In gap minder data, Income per person is analyzed with the relation of oil consumption, Co2 emission, internet user rate an so on.

Because these features are related social welfare, there might be some correlation with income per person.

Getting and Preparing Data

incomeperperson : Gross Domestic Product per capita

oilperperson: Oil Consumption per capita

co2emissions: CO2 consumtion

internetuserate : Internet users (per 100 people)

lifeexpectancy : life expectancy at birth (years)

polityscore : subtracting an autocracy score from a democracy score.

relectricperperson: residential electricity consumption per person

urbanrate : urban population

employrate : Percentage of total population, age above 15, that has been employed

The target data is converted to 12 category and change its data type to string for tree classification.

Data Modelling

Target data is income per person and the rest of the columns are splited into train and test data as an explanatory variable.

Results

Accuracy is 41% that is pretty low. It needs more explanatory variables.

Feature Importance

Internetuserate that is 19% is the most effect on the model The second most effective feature is the urbanrate, it is 17%. Higher urbanrate and internetuser are expected some correlation on our target variable incomeperperson.

Oilperperson that has 5% score, has the least effect on this model

# -*- coding: utf-8 -*-

"""

Created on Tue Oct 6 14:59:43 2015

"""

import pandas

import numpy as np

import seaborn

import scipy

import matplotlib.pyplot as plt

from sklearn.model_selection import train_test_split

from sklearn.tree import DecisionTreeClassifier

from sklearn.metrics import classification_report

import sklearn.metrics

from sklearn import datasets

from sklearn.ensemble import ExtraTreesClassifier

from graphviz import Source

data = pandas.read_csv('data/gapminder.csv', low_memory=False)

data = data[["incomeperperson", "oilperperson", "co2emissions", "internetuserate",

"lifeexpectancy", "polityscore", "relectricperperson", "urbanrate", "employrate"]]

def SetColumns(cols):

for col in cols:

print(col)

data[col]=data[col].replace(' ', 0)

data[col] = data[col].astype(float, errors = 'raise')

#pandas.to_numeric(data[col], errors='coerce')

Columns = ["incomeperperson", "oilperperson", "co2emissions", "internetuserate",

"lifeexpectancy", "polityscore", "relectricperperson", "urbanrate", "employrate"]

SetColumns(Columns)

data['incomeperperson'] = pandas.to_numeric(data['incomeperperson'], errors='coerce')

data = data.dropna(subset=['incomeperperson'])

data['incomeperperson'] = pandas.cut(data.incomeperperson, [ 300, 800, 1300, 2500, 4000, 6000,10000,15000,30000,50000,100000,200000])

data['incomeperperson'] = data['incomeperperson'].astype('str')

data_clean=data.dropna()

Columns = Columns.remove('incomeperperson')

predictors = data_clean[["oilperperson", "co2emissions", "internetuserate",

"lifeexpectancy", "polityscore", "relectricperperson", "urbanrate", "employrate"]]

targets = data_clean.incomeperperson

pred_train, pred_test, tar_train, tar_test = train_test_split(predictors, targets)

#Build model on training data

from sklearn.ensemble import RandomForestClassifier

classifier=RandomForestClassifier(n_estimators=25)

classifier=classifier.fit(pred_train,tar_train)

predictions=classifier.predict(pred_test)

sklearn.metrics.confusion_matrix(tar_test,predictions)

sklearn.metrics.accuracy_score(tar_test, predictions)

# fit an Extra Trees model to the data

model = ExtraTreesClassifier()

model.fit(pred_train,tar_train)

# display the relative importance of each attribute

print(model.feature_importances_)

"""

Running a different number of trees and see the effect

of that on the accuracy of the prediction

"""

trees=range(25)

accuracy=np.zeros(25)

for idx in range(len(trees)):

classifier=RandomForestClassifier(n_estimators=idx + 1)

classifier=classifier.fit(pred_train,tar_train)

predictions=classifier.predict(pred_test)

accuracy[idx]=sklearn.metrics.accuracy_score(tar_test, predictions)

plt.cla()

plt.plot(trees, accuracy)

Search This Blog

Alcohol Consumption and Panic Disorders, Agoraphobia