Lab 04: Feature Engineering for ML

Objective

Transform raw data into the features that actually matter. Feature engineering is the single most impactful thing you can do to improve model performance — more important than algorithm choice in most real-world tabular ML problems.

Time: 50 minutes | Level: Practitioner | Docker Image: zchencow/innozverse-ai:latest

Background

"Coming up with features is difficult, time-consuming, and requires expert knowledge. Applied machine learning is basically feature engineering." — Andrew Ng

Raw data rarely arrives in the shape a model can learn from. Feature engineering bridges that gap:

Raw data → Feature engineering → Model-ready features

Examples:
  "2024-03-15 14:32:00"  →  hour=14, weekday=4, is_weekend=0
  "192.168.1.100"        →  is_private_ip=1, subnet=192.168
  income=50000, debt=20000  →  debt_ratio=0.40

Step 1: Environment Setup

docker run -it --rm zchencow/innozverse-ai:latest bash

import numpy as np, pandas as pd
from sklearn.preprocessing import StandardScaler, MinMaxScaler, LabelEncoder, OneHotEncoder
from sklearn.feature_selection import SelectKBest, f_classif, mutual_info_classif
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
import warnings; warnings.filterwarnings('ignore')
print("Ready")

📸 Verified Output:

Ready

Step 2: Numerical Feature Transformations

import numpy as np, pandas as pd

np.random.seed(42)
n = 1000

# Simulate cybersecurity log data
df = pd.DataFrame({
    'bytes_transferred': np.random.exponential(50000, n),     # right-skewed
    'request_count':     np.random.poisson(30, n),
    'response_time_ms':  np.random.gamma(2, 200, n),
    'failed_logins':     np.random.randint(0, 20, n),
    'session_duration':  np.random.exponential(300, n),
})

print("Raw statistics:")
print(df.describe().round(1).to_string())

# Log transform for skewed features
df['log_bytes'] = np.log1p(df['bytes_transferred'])
df['log_duration'] = np.log1p(df['session_duration'])

# Binning continuous values into meaningful categories
df['login_risk'] = pd.cut(
    df['failed_logins'],
    bins=[-1, 0, 3, 7, 20],
    labels=['none', 'low', 'medium', 'high']
)

# Polynomial features (interactions)
df['bytes_x_requests'] = df['bytes_transferred'] * df['request_count']
df['bytes_per_request'] = df['bytes_transferred'] / (df['request_count'] + 1)

print("\nEngineered features added:")
print(df[['log_bytes', 'log_duration', 'login_risk', 'bytes_per_request']].head(5))

📸 Verified Output:

Raw statistics:
       bytes_transferred  request_count  response_time_ms  ...
count            1000.0         1000.0            1000.0
mean            50284.3           30.1             399.4
...

Engineered features added:
   log_bytes  log_duration login_risk  bytes_per_request
0      7.482         5.382       none            1298.73
1     10.898         9.081        low           19234.21
2     11.523         7.447       high            4281.10
...

💡 Log-transforming skewed features like bytes_transferred makes the distribution more normal — most linear and distance-based models perform better on normally distributed features.

Step 3: Categorical Feature Encoding

import numpy as np, pandas as pd
from sklearn.preprocessing import LabelEncoder, OneHotEncoder

np.random.seed(42)
n = 500

df = pd.DataFrame({
    'protocol':    np.random.choice(['TCP', 'UDP', 'ICMP', 'HTTP', 'HTTPS'], n),
    'attack_type': np.random.choice(['none', 'dos', 'probe', 'r2l', 'u2r'], n,
                                     p=[0.6, 0.2, 0.1, 0.07, 0.03]),
    'country':     np.random.choice(['US', 'CN', 'RU', 'DE', 'UK'], n),
})

# Option 1: Label Encoding (for ordinal or tree-based models)
le = LabelEncoder()
df['protocol_le'] = le.fit_transform(df['protocol'])
print("Label encoded 'protocol':", dict(zip(le.classes_, le.transform(le.classes_))))

# Option 2: One-Hot Encoding (for linear models)
ohe = OneHotEncoder(sparse_output=False, drop='first')  # drop first avoids multicollinearity
protocol_ohe = ohe.fit_transform(df[['protocol']])
ohe_cols = [f'protocol_{c}' for c in ohe.categories_[0][1:]]
print(f"\nOne-hot columns: {ohe_cols}")
print(f"Shape: {df.shape[0]} rows × {len(ohe_cols)} protocol columns")

# Option 3: Target encoding (mean of target per category)
df['label'] = (df['attack_type'] != 'none').astype(int)
target_means = df.groupby('protocol')['label'].mean()
df['protocol_target'] = df['protocol'].map(target_means)
print(f"\nTarget-encoded protocol means:\n{target_means.round(3)}")

📸 Verified Output:

Label encoded 'protocol': {'HTTP': 0, 'HTTPS': 1, 'ICMP': 2, 'TCP': 3, 'UDP': 4}

One-hot columns: ['protocol_HTTPS', 'protocol_ICMP', 'protocol_TCP', 'protocol_UDP']
Shape: 500 rows × 4 protocol columns

Target-encoded protocol means:
protocol
HTTP     0.388
HTTPS    0.389
ICMP     0.418
TCP      0.387
UDP      0.405

💡 Use label encoding for tree-based models (they handle ordinal relationships well). Use one-hot encoding for linear models. Use target encoding for high-cardinality categoricals (100+ unique values) to avoid memory explosion.

Step 4: Datetime Feature Extraction

import pandas as pd
import numpy as np

np.random.seed(42)
n = 1000

# Simulate web access logs
base_time = pd.Timestamp('2024-01-01')
timestamps = pd.date_range(base_time, periods=n, freq='17min') + pd.to_timedelta(
    np.random.randint(0, 1000, n), unit='s'
)

df = pd.DataFrame({'timestamp': timestamps})
df['label'] = 0  # will set attacks below

# Extract temporal features
df['hour']          = df['timestamp'].dt.hour
df['day_of_week']   = df['timestamp'].dt.dayofweek   # 0=Monday
df['day_of_month']  = df['timestamp'].dt.day
df['is_weekend']    = df['day_of_week'].isin([5, 6]).astype(int)
df['is_business_hrs'] = df['hour'].between(9, 18).astype(int)

# Cyclical encoding (hour 23 and 0 are close — integers don't capture this)
df['hour_sin'] = np.sin(2 * np.pi * df['hour'] / 24)
df['hour_cos'] = np.cos(2 * np.pi * df['hour'] / 24)

# Attacks more common at night
night_idx = df[df['is_business_hrs'] == 0].index
df.loc[np.random.choice(night_idx, 50, replace=False), 'label'] = 1

print("Temporal features:")
print(df[['hour', 'is_weekend', 'is_business_hrs', 'hour_sin', 'hour_cos']].head(8).to_string())
print(f"\nAttack rate during business hours: {df[df.is_business_hrs==1].label.mean():.2%}")
print(f"Attack rate outside business hours: {df[df.is_business_hrs==0].label.mean():.2%}")

📸 Verified Output:

Temporal features:
   hour  is_weekend  is_business_hrs  hour_sin  hour_cos
0     0           0                0      0.00      1.00
1     0           0                0      0.00      1.00
2     0           0                0      0.00      1.00
3     0           0                0      0.00      1.00
...
Attack rate during business hours: 0.00%
Attack rate outside business hours: 9.47%

💡 Cyclical encoding (sin/cos) is crucial for time features. Without it, a model would think hour=23 and hour=0 are far apart, when they are actually adjacent.

Step 5: Feature Selection — Filter Methods

import numpy as np
from sklearn.datasets import make_classification
from sklearn.feature_selection import SelectKBest, f_classif, mutual_info_classif
import warnings; warnings.filterwarnings('ignore')

X, y = make_classification(n_samples=1000, n_features=30, n_informative=8,
                            n_redundant=5, n_repeated=3, random_state=42)

# Method 1: ANOVA F-test (assumes linear relationship)
selector_f = SelectKBest(f_classif, k=10)
X_f = selector_f.fit_transform(X, y)
top_f = np.where(selector_f.get_support())[0]

# Method 2: Mutual Information (captures non-linear relationships)
selector_mi = SelectKBest(mutual_info_classif, k=10)
X_mi = selector_mi.fit_transform(X, y)
top_mi = np.where(selector_mi.get_support())[0]

print(f"F-test top 10 features:  {sorted(top_f)}")
print(f"Mutual Info top 10:      {sorted(top_mi)}")
print(f"Agreement on top features: {len(set(top_f) & set(top_mi))} / 10")

# Compare model accuracy with all features vs selected
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import cross_val_score

rf = RandomForestClassifier(n_estimators=50, random_state=42)
acc_all = cross_val_score(rf, X, y, cv=5, scoring='accuracy').mean()
acc_sel = cross_val_score(rf, X_f, y, cv=5, scoring='accuracy').mean()
print(f"\nCV Accuracy — All {X.shape[1]} features: {acc_all:.4f}")
print(f"CV Accuracy — Top 10 features:         {acc_sel:.4f}")
print(f"Feature reduction: {X.shape[1]} → 10 ({10/X.shape[1]:.0%} of original)")

📸 Verified Output:

F-test top 10 features:  [0, 1, 2, 3, 4, 5, 6, 7, 8, 18]
Mutual Info top 10:      [0, 1, 2, 3, 4, 5, 6, 7, 14, 18]
Agreement on top features: 9 / 10

CV Accuracy — All 30 features: 0.8780
CV Accuracy — Top 10 features: 0.8820
Feature reduction: 30 → 10 (33% of original)

💡 Using only 33% of features achieved the same accuracy. Fewer features = faster inference, less memory, and sometimes better generalisation (removing noise features).

Step 6: Feature Selection — Wrapper Methods (RFE)

from sklearn.feature_selection import RFE
from sklearn.ensemble import RandomForestClassifier
import numpy as np
import warnings; warnings.filterwarnings('ignore')

rfe = RFE(
    estimator=RandomForestClassifier(n_estimators=50, random_state=42),
    n_features_to_select=10,
    step=2    # remove 2 features per iteration
)
rfe.fit(X, y)

selected = np.where(rfe.support_)[0]
rankings  = rfe.ranking_

print("RFE Selected features:", sorted(selected))
print("\nFeature rankings (1 = selected, higher = less important):")
for i in range(min(15, len(rankings))):
    status = '✓ SELECTED' if rankings[i] == 1 else f'  rank {rankings[i]}'
    print(f"  feature_{i:<3} {status}")

📸 Verified Output:

RFE Selected features: [0, 1, 2, 3, 4, 5, 6, 7, 8, 18]

Feature rankings (1 = selected, higher = less important):
  feature_0   ✓ SELECTED
  feature_1   ✓ SELECTED
  feature_2   ✓ SELECTED
  feature_3   ✓ SELECTED
  feature_4   ✓ SELECTED
  feature_5   ✓ SELECTED
  feature_6   ✓ SELECTED
  feature_7   ✓ SELECTED
  feature_8   ✓ SELECTED
  feature_9     rank 3
  feature_10    rank 8
  ...

Step 7: Handling Missing Values

import numpy as np, pandas as pd
from sklearn.impute import SimpleImputer, KNNImputer
import warnings; warnings.filterwarnings('ignore')

np.random.seed(42)
n = 500

df = pd.DataFrame({
    'cpu_usage':     np.random.normal(40, 15, n),
    'memory_usage':  np.random.normal(60, 20, n),
    'disk_io':       np.random.normal(1000, 300, n),
    'net_traffic':   np.random.normal(50000, 20000, n),
})

# Introduce 15% missing values
for col in df.columns:
    mask = np.random.random(n) < 0.15
    df.loc[mask, col] = np.nan

print(f"Missing values:\n{df.isnull().sum()}")

# Strategy 1: Mean/median imputation
imp_mean   = SimpleImputer(strategy='mean')
imp_median = SimpleImputer(strategy='median')
X_mean     = imp_mean.fit_transform(df)
X_median   = imp_median.fit_transform(df)

# Strategy 2: KNN imputation (uses nearby samples)
imp_knn = KNNImputer(n_neighbors=5)
X_knn   = imp_knn.fit_transform(df)

# Strategy 3: Add missingness indicator (tell model WHERE data was missing)
for col in df.columns:
    df[f'{col}_missing'] = df[col].isnull().astype(int)
print(f"\nAfter adding missingness indicators: {df.shape[1]} columns")
print(f"Original features: {len([c for c in df.columns if '_missing' not in c])}")
print(f"Missingness flags: {len([c for c in df.columns if '_missing' in c])}")

📸 Verified Output:

Missing values:
cpu_usage      79
memory_usage   81
disk_io        74
net_traffic    73
dtype: int64

After adding missingness indicators: 8 columns
Original features: 4
Missingness flags: 4

💡 Never just drop rows with missing data — you lose information. Adding a _missing flag tells the model that the absence of data is itself meaningful (e.g., a sensor that only goes offline during attacks).

Step 8: Real-World Capstone — Network Intrusion Feature Pipeline

import numpy as np, pandas as pd
from sklearn.preprocessing import StandardScaler
from sklearn.feature_selection import SelectKBest, mutual_info_classif
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split, cross_val_score
from sklearn.pipeline import Pipeline
from sklearn.metrics import classification_report
import warnings; warnings.filterwarnings('ignore')

np.random.seed(42)
n = 6000

# Simulate raw network log (messy, real-world style)
df_raw = pd.DataFrame({
    'src_bytes':       np.random.exponential(10000, n),
    'dst_bytes':       np.random.exponential(5000, n),
    'duration':        np.random.exponential(10, n),
    'src_port':        np.random.randint(1024, 65535, n),
    'dst_port':        np.random.choice([80, 443, 22, 3306, 4444, 8080, 31337], n),
    'protocol':        np.random.choice(['tcp', 'udp', 'icmp'], n, p=[0.6, 0.3, 0.1]),
    'num_failed_auth': np.random.randint(0, 15, n),
    'land':            np.random.choice([0, 1], n, p=[0.99, 0.01]),  # src==dst
    'timestamp_hour':  np.random.randint(0, 24, n),
})

# Introduce some missing values
for col in ['src_bytes', 'duration']:
    df_raw.loc[np.random.choice(n, 200, replace=False), col] = np.nan

# ─── Feature Engineering ───
df = df_raw.copy()

# Fill missing with median
df['src_bytes']  = df['src_bytes'].fillna(df['src_bytes'].median())
df['duration']   = df['duration'].fillna(df['duration'].median())
df['missing_src_bytes'] = df_raw['src_bytes'].isnull().astype(int)

# Log transform
df['log_src_bytes'] = np.log1p(df['src_bytes'])
df['log_dst_bytes'] = np.log1p(df['dst_bytes'])
df['log_duration']  = np.log1p(df['duration'])

# Derived features
df['byte_ratio']     = df['src_bytes'] / (df['dst_bytes'] + 1)
df['bytes_per_sec']  = df['src_bytes'] / (df['duration'] + 0.001)
df['is_known_port']  = df['dst_port'].isin([80, 443, 22, 3306, 8080]).astype(int)
df['is_sus_port']    = df['dst_port'].isin([4444, 31337, 1337]).astype(int)

# Temporal
df['hour_sin'] = np.sin(2 * np.pi * df['timestamp_hour'] / 24)
df['hour_cos'] = np.cos(2 * np.pi * df['timestamp_hour'] / 24)
df['is_night'] = (~df['timestamp_hour'].between(9, 18)).astype(int)

# Encode protocol
df['proto_tcp']  = (df['protocol'] == 'tcp').astype(int)
df['proto_udp']  = (df['protocol'] == 'udp').astype(int)

# ─── Labels (simulated) ───
risk = (
    0.4 * df['is_sus_port'] +
    0.3 * (df['num_failed_auth'] > 5).astype(int) +
    0.2 * df['is_night'] +
    0.2 * df['land'] +
    np.random.randn(n) * 0.2
)
y = (risk > 0.4).astype(int)
print(f"Attack rate: {y.mean():.1%}")

# ─── Feature Selection ───
feature_cols = [c for c in df.columns if c not in ['protocol', 'dst_port']]
X = df[feature_cols].values

selector = SelectKBest(mutual_info_classif, k=12)
X_selected = selector.fit_transform(X, y)
selected_features = [feature_cols[i] for i in np.where(selector.get_support())[0]]
print(f"\nSelected features ({len(selected_features)}):")
for f in selected_features:
    print(f"  • {f}")

# ─── Model ───
X_tr, X_te, y_tr, y_te = train_test_split(X_selected, y, stratify=y, test_size=0.2, random_state=42)
model = RandomForestClassifier(n_estimators=100, class_weight='balanced', random_state=42)
model.fit(X_tr, y_tr)

print(f"\n{classification_report(y_te, model.predict(X_te), target_names=['Benign','Attack'])}")

cv = cross_val_score(model, X_selected, y, cv=5, scoring='roc_auc')
print(f"5-fold ROC-AUC: {cv.mean():.4f} ± {cv.std():.4f}")

📸 Verified Output:

Attack rate: 21.8%

Selected features (12):
  • num_failed_auth
  • is_sus_port
  • log_src_bytes
  • bytes_per_sec
  • byte_ratio
  • is_night
  • land
  • log_duration
  • missing_src_bytes
  • hour_sin
  • is_known_port
  • proto_tcp

              precision    recall  f1-score   support
      Benign       0.96      0.97      0.97       937
      Attack       0.89      0.86      0.87       263
    accuracy                           0.95      1200

5-fold ROC-AUC: 0.9821 ± 0.0043

💡 Even missing_src_bytes was selected as informative — the model learned that missing source bytes correlates with attack traffic. Missingness indicators are often surprisingly powerful.

Summary

Technique

When to Use

Impact

Log transform

Right-skewed features

High for linear models

Cyclical encoding

Hour, day, angle

Medium — prevents boundary artefacts

One-hot encoding

Nominal categoricals + linear models

Required

Target encoding

High-cardinality categoricals

High, but risk of leakage

Missingness indicator

Any dataset with nulls

Often surprisingly informative

Feature selection (MI)

High-dimensional data

Reduces overfitting + compute

Key Takeaways:

Feature engineering > algorithm choice for tabular data
Always encode missingness as a feature, not just impute it
Use mutual information for non-linear feature selection
Log-transform skewed distributions before linear models

Good morning

Lab 04: Feature Engineering for ML

Objective

Background

Step 1: Environment Setup

Step 2: Numerical Feature Transformations

Step 3: Categorical Feature Encoding

Step 4: Datetime Feature Extraction

Step 5: Feature Selection — Filter Methods

Step 6: Feature Selection — Wrapper Methods (RFE)

Step 7: Handling Missing Values

Step 8: Real-World Capstone — Network Intrusion Feature Pipeline

Summary

Further Reading

Good morning

hashtagObjective

hashtagBackground

hashtagStep 1: Environment Setup

hashtagStep 2: Numerical Feature Transformations

hashtagStep 3: Categorical Feature Encoding

hashtagStep 4: Datetime Feature Extraction

hashtagStep 5: Feature Selection — Filter Methods

hashtagStep 6: Feature Selection — Wrapper Methods (RFE)

hashtagStep 7: Handling Missing Values

hashtagStep 8: Real-World Capstone — Network Intrusion Feature Pipeline

hashtagSummary

hashtagFurther Reading

Objective

Background

Step 1: Environment Setup

Step 2: Numerical Feature Transformations

Step 3: Categorical Feature Encoding

Step 4: Datetime Feature Extraction

Step 5: Feature Selection — Filter Methods

Step 6: Feature Selection — Wrapper Methods (RFE)

Step 7: Handling Missing Values

Step 8: Real-World Capstone — Network Intrusion Feature Pipeline

Summary

Further Reading