PhenoGenX - HIV Drug Resistance Analysis

Technical Specifications

System Architecture

Backend: Flask + Python 3.10+
Frontend: Bootstrap 5 + JavaScript
ML Framework: Scikit-learn, LightGBM, XGBoost
Database: SQLite/PostgreSQL

API Documentation

RESTful API endpoints
JSON request/response formats
Authentication & rate limiting

View Technical Docs

Database & Schemas

Database Schema

Sequence metadata storage
Mutation profile tables
Prediction results schema
User & session management

Data Models

ER Diagrams
Primary/Foreign key relationships
Data migration scripts

View Schema Docs

SOPs & Protocols

Standard Operating Procedures

Sequence quality control SOP
ML model validation protocol
Data security & privacy SOP
Report generation workflow

Implementation Guides

Deployment checklist
Maintenance procedures
Troubleshooting guide

View SOPs

Technical Implementation Details

HXB2 Alignment Pipeline

Multi-stage alignment process for accurate mutation calling:

MAFFT Alignment: Initial sequence alignment using MAFFT v7.525
Muscle Refinement: MUSCLE v5.1 for consensus refinement
Biopython Fallback: Custom Python alignment for edge cases
HXB2 Coordinate Mapping: Standardized position mapping

Mutation Calling Logic

Amino acid substitution detection
Insertion/deletion handling
Ambiguous base resolution
Quality score integration

Algorithm Architecture

Multi-source rule integration for comprehensive resistance interpretation:

Stanford HIVDB: Weighted mutation scoring system
ANRS Algorithm: French National Agency scoring
IAS-USA Guidelines: Major/accessory mutation classification
WHO SDRM: Surveillance drug resistance mutations

Scoring System

Resistance Level	Score Range	Clinical Interpretation
Susceptible	0-9	No significant resistance
Potential Low-Level	10-14	Possible reduced susceptibility
Low-Level	15-29	Reduced susceptibility
Intermediate	30-59	Significant resistance
High-Level	≥60	High-level resistance

CRPS-Optimized Ensemble

Continuous Ranked Probability Score optimization for model selection:

Base Models

ElasticNet: Regularized linear regression
LightGBM: Gradient boosting framework
XGBoost: Extreme gradient boosting
Random Forest: Ensemble decision trees

Optimization

CRPS-based weighting
Cross-validation (5-fold)
Hyperparameter tuning
Model calibration

Training Dataset

Size: 45,000+ genotype-phenotype pairs
Sources: Stanford, Los Alamos, EPHI clinical data
Subtypes: A, B, C, CRF01_AE, CRF02_AG
Drugs: 22 ARV medications

Supported Input Formats

FASTA Format


>Sequence_ID

ATGACC...

Mutation CSV


ID,Mutations

SEQ001,K103N,M184V

Plain Mutation List


K103N, M184V, G190A

Output Formats

JSON: Complete structured response
CSV (Wide): One row per sequence
CSV (Long): One row per sequence-drug pair
PDF Reports: Clinical summary reports
Excel: Formatted worksheets

Release Notes & Changelog

Version History

v1.0 (Current)

Initial production release with core rule-based and ML engines.

v1.1 (Planned)

Batch processing enhancements and API improvements.

v1.2 (Planned)

Subtype inference and advanced visualization tools.

v2.0 (Roadmap)

Full API ecosystem and integration capabilities.

Full Changelog

Summary Reports & Analytics

Platform Analytics

Usage statistics dashboard
Data processing metrics
Performance benchmarks
User activity reports

Validation Reports

Model performance validation
Concordance analysis reports
Monthly summary reports

View Reports

PhenoGenX Documentation

Technical Specifications

System Architecture

API Documentation

Database & Schemas

Database Schema

Data Models

SOPs & Protocols

Standard Operating Procedures

Implementation Guides

Technical Implementation Details

HXB2 Alignment Pipeline

Mutation Calling Logic

Algorithm Architecture

Scoring System

CRPS-Optimized Ensemble

Base Models

Optimization

Training Dataset

Supported Input Formats

FASTA Format

Mutation CSV

Plain Mutation List

Output Formats

Release Notes & Changelog

Version History

v1.0 (Current)

v1.1 (Planned)

v1.2 (Planned)

v2.0 (Roadmap)

Summary Reports & Analytics

Platform Analytics

Validation Reports

Documentation Status

PhenoGenX Documentation

Technical Specifications

System Architecture

API Documentation

Database & Schemas

Database Schema

Data Models

SOPs & Protocols

Standard Operating Procedures

Implementation Guides

Technical Implementation Details

Bioinformatics Pipeline

HXB2 Alignment Pipeline

Mutation Calling Logic

Rule-Based Interpretation Engine

Algorithm Architecture

Scoring System

ML Ensemble Architecture

CRPS-Optimized Ensemble

Base Models

Optimization

Training Dataset

Input/Output Formats

Supported Input Formats

FASTA Format

Mutation CSV

Plain Mutation List

Output Formats

Release Notes & Changelog

Version History

v1.0 (Current)

v1.1 (Planned)

v1.2 (Planned)

v2.0 (Roadmap)

Summary Reports & Analytics

Platform Analytics

Validation Reports

Documentation Status