Plateforme d'analyse NLP pour données SHS environnementales
Recherche appliquée · NLP · IA générative · RAG · Data engineering
Pourquoi ce projet ?
OBSERVANCE permet d'analyser automatiquement les avis de l'Autorité environnementale (Ae) afin de faciliter la compréhension de la prise en compte des enjeux environnementaux dans la décision publique.
Ce que j'ai fait concrètement
- Structuration d'un corpus de 2400+ documents (PDF + métadonnées)
- Pipeline NLP : extraction (PDF/OCR), nettoyage, segmentation, chunking
- Indexation vectorielle & recherche sémantique via un moteur RAG
- Analyse qualitative des résultats + livrables documentés
Compétences mobilisées
IA & NLP
- NLP & text mining (Python)
- OCR & qualité texte (pdfplumber, pytesseract)
- Chunking & embeddings multilingues (LangChain, Hugging Face / OpenAI)
- RAG : indexation & recherche sémantique (LangChain, ChromaDB)
- LLM : génération cloud & local (OpenAI, Ollama)
Data & ingénierie
- Pipelines de traitement & automatisation (Python)
- Structuration de base de données & requêtes (SQLite)
- Analyse & indicateurs (Pandas)
- Visualisation interactive (Streamlit, Plotly)
- Cartographie : WKT → GeoJSON (Shapely)
Cloud & déploiement
- Déploiement sur VM (Google Compute Engine)
- Stockage / transfert de données (Google Cloud Storage)
- Environnements reproductibles (Docker)
Ressources
© Linh Dinh, 2026