13 déc 2019 · sein des séquences consensus des sites d'épissage Ce travail a conduit à Definition of consensus splice site regions 78 c Datasets 78 du site d' épissage Ils peuvent aussi permettre l'utilisation d'un site cryptique non
Previous PDF | Next PDF |
Anomalies de la transcription et diagnostic en génétique
en évidence des anomalies d'épissage, et plus largement de la transcription, est donc site cryptique, il s'ensuit une délétion exonique (Figure 2B) ou une rétention intronique amélioré leur définition et montré leur importance en pathologie
[PDF] Lépissage alternatif : un gène, combien de protéines ? - CRCL
Vers une nouvelle définition du gène ? La snRNP U1 s'associe au site 5' d' épissage et U2 se lie au point de branchement, le tout l'affaiblissement des sites d'épissage ou au renforcement de sites d'épissage cryptiques (« cachés »
Le code de lépissage et sa modulation thérapeutique par - Érudit
et dégénérescence des sites d'épissage Pour faire face à à la définition des exons et à la sélec- tion des site d'épissage normalement cryptique, avec pour
[PDF] Mécanismes moléculaires de la régulation et de la - HAL-Inria
7 nov 2009 · introns environnants par un processus appelé « Intron définition » utilisation de sites cryptiques d'épissage, normalement silencieux, ou une
[PDF] Développement doutils biostatistiques et bioinformatiques - Thèses
13 déc 2019 · sein des séquences consensus des sites d'épissage Ce travail a conduit à Definition of consensus splice site regions 78 c Datasets 78 du site d' épissage Ils peuvent aussi permettre l'utilisation d'un site cryptique non
[PDF] spliceosome
[PDF] site donneur d'épissage définition
[PDF] site accepteur d'épissage
[PDF] jack l'éventreur londres
[PDF] jack l'éventreur aaron kosminski
[PDF] epissage alternatif animation
[PDF] jack l'éventreur lettre
[PDF] fiche orientation 3ème 2017
[PDF] jack l'éventreur livre
[PDF] résumé croc blanc jack london par chapitre
[PDF] 3 .s.t.d sarl au
[PDF] 3sdt fes
[PDF] cnss espace consultation
[PDF] cnss recrutement 2017 maroc
13/12/2019
biostatistiques et bioinformatiques de prédiction et de prédisposition aux cancers du Travaux encadrés par le Dr Sophie KRIEGER (MCU-PH) et le DrAlexandra MARTINS (DR)
Dr Raphaël LEMAN
LABORATOIRE DE BIOLOGIE ET DE GENETIQUE DU CANCER,INSERM U1245
Résumé
analyse est particulièrement complexe. Outre la diversité des transcrits présents Ces variations, appelées variants splicéogéniques, et leur impact au niveau , sont à même de modifier plus ou moins sévèrementAu cours de ce travail de thèse, nous nous sommes intéressés à trois grands aspects d des défauts
: (i) (ii) -seq et (iii) pour la prédisposition aux cNous avons optimisé les recommandations en vigueur pour identifier les variants splicéogéniques au
SPiCE (Splicing Prediction in Consensus Elements), développé sur 395 variants. SPiCE a le potentiel
ces variants splicéogéniques, grâce à uneexactitude de 94.4 %. Puis, nous avons comparé les outils de prédiction des points de branchement. Pour
cela, une collection sans précédente de 120 variants avec leurs études ARN a été établi dans la région
des points de branchements. Nous avons ainsi révélé que ces outils de prédictions sont aptes à prioriser
les variants pour des études ARN dans ces régions jusque-là peu étudiées. Pour étendre les prédictions
des variants splicéogéniques au-SplicingPrediction Pipeline). SPiP utilise un ensemble
la position du variant. Ainsi, SPiP peut exactitude de 80.21 %, sur une collection de 2 784 variants. Les données issues du RNA-seq sont complexes à analyser, car is pour annoter finement les épissages alternatifs. SpliceLauncher. Cet outil permet de déterminer une grande diversité de , indépendamment des systèmes RNA-sequtilisés. Cet outil renvoie aussi les résultats sous formes graphiques pour faciliter leur interprétation.
Puis nous avons évalué le rôle de dans c
variant. Le gène PALB2, impliqué dans le syndrome HBOC, a été utilisé Nous avons ainsi démontré f de PALB2 est apte à remettre en cause la pathogénicité decertains variants. La collecte de données fonctionnelles et cliniques sont donc nécessaires pour conclure
sur leur pathogénicité. Nos travaux illustrent ainsi interprétation des modifications de en génétique.Mots-clés : épissage, variants, syndrome HBOC, prédiction, RNA-seq, SPiP, SPiCE, SpliceLauncher
Abstract
Analysis of splicing defects is particularly complex. In addition to the diversity of physiological
transcripts, nucleotidic variations can induce heterogeneous alteration of splicing. These variations,
called spliceogenic variants, and their impact on splicing, can involve severe consequences on the individual phenotype.In this thesis work, we focused on three main aspects of the study of splicing defects: (i) the prediction
of these splicing defects, (ii) the analysis of RNA-seq data and (iii) the role of splicing in interpreting
the pathogenicity of a variant for the hereditary breast and ovarian cancers (HBOC syndrome). We optimized the current recommendations to identify spliceogenic variants within the consensussequences of splicing sites. This work led to the publication of a new tool, SPiCE (Splicing Prediction
in Consensus Elements), developed on 395 variants. SPiCE has the potential to be a decision support tool to guide geneticists towards these spliceogenic variants, with an accuracy of 94.4%. Then, wecompared the tools dedicated to branch points prediction. For this purpose, an unprecedented collection
of 120 variants with their RNA studies has been established in the branch point region. Thus, we revealed
these prediction tools are able to prioritize variants for RNA studies in these hitherto poorly studied
regions. To extend the predictions of spliceogenic variants beyond a specific motif, we built SPiP(Splicing Prediction Pipeline) tool. SPiP uses a set of tools to predict a splicing defect regardless of the
variant position. Thus, SPiP can address the diversity of splicing defects with an accuracy of 80.21%,
on a collection of 2,784 variants.The data from the RNA-seq are complex to analyze, as there are few tools to finely annotate alternative
splices. Also we published SpliceLauncher tool. This tool allows to determine a wide variety of splicing
junctions, independently of RNA-seq systems used. This tool also returns the results in graphical form
to make interpretation user-friendly.Then we evaluated the role of alternative splicing in the clinical interpretation of a variant. The PALB2
gene, involved in HBOC syndrome, was used as a study model. Thus, we demonstrated that thealternative splicing of PALB2 is able of challenging the pathogenicity of certain variants. Collection of
functional and clinical data is therefore necessary to conclude on their pathogenicity.Our work thus illustrates the importance of characterizing and interpreting splicing modifications to
meet the current and future challenges of molecular diagnosis in human genetics. Keywords: splicing, variants, HBOC syndrome, prediction, RNA-seq, SPiP, SPiCE, SpliceLauncherRemerciements
Nous remercions les membres du jury, tout particulièrement les rapporteurs, le Professeur Marie-Pierre
Buisine et le Docteur Fabienne Lesueur, pour avoir acceptés Nous remercions également le Professeur Nicolas Nous remercions également le Professeur Claude Houdayer dont son implication est impossible à estimer tant sa participation à ce travail a été enthousiaste et cruciale.Nous sommes reconnaissant envers le Professeur
et le Docteur Dominique Vaur, Directeur du laboratoire de biologie et de génétique du cancer du Centre
François Baclesse, pour nous avoir offert les infrastructures nécessaires au déroulement de cette thèse.
Nous remercions également nos collègues biologistes le Docteur Laurent Castera, le Docteur Etienne
Mueller et le Docteur Agathe Ricou pour leurs conseils avisés et pour nous avoir partagé leur expérience
Nous congratulons également le Docteur Nicolas Goardon pour sa veille bibliographique et AngelinaLegros pour son assistance technique.
Nous sommes également reconnaissants envers nos collègues bioinformaticiens (Docteur Alexandre Atkinson, Baptiste Brault, Thibaut Lavole, Germain Paimparay et Antoine Rousselain) pour leur avisNous remercions le Docteur Pascaline Gaildrat et le Docteur Alexandra Martins pour leur participation
à ce travail de thèse.
Nous félicitons Laetitia Meulemans, le Docteur Omar Soukarieh, et le Docteur Hélène Tubeuf pour leurs
e. Nous sommes débiteurs pour le Docteur Sabine Raad et le Docteur Isabelle Tournier pour nous avoir partagé leurs données RNA-seq.Nous remercions également Valentin Harter et le Professeur Jean-Philippe Vert, nos oasis statistiques
dans un monde de biologistes.Nous sommes également reconnaissants envers le Docteur Laurent Poulain et les membres de son équipe
U1199 ANTICIPE, pour nous avoir offert leurs assistances techniques. Nous complimentons aussi les membres du réseau épissage de GGC ainsi que les membres de Inserm UMR1078, ceux du service de GénéHUPC Hôpital Cochinet les membres du laboratoire de Génétique du GH Saint-Louis-Lariboisière-Fernand Widal, pour leur
participation. A l Nous sommes également redevables envers le Docteur Amanda Spurdle et les membres du consortium ENIGMA et tout particulièrement le Docteur Miguel de la Hoya et le Docteur Logan Walker. Agradecemos a Miguel de la Hoya por asociarnos al estudio del gen PALB2. We would like to thank Logan Walker to associate us at the QC RNA-seq Project. Wij feliciteren Rien Blok met zijn studie over alternatieve verbindingen van RAD51C/D genen. -seq. Vi takker også Thomas van Overeem Hansen for at dele hans RNA-data.Je suis également reconnaissant envers le Docteur Sophie Krieger et le Docteur Alexandra Martins pour
avoir encadré ce travail de thèse. " étranger » pour porter son projet de recherche. s les séances de supplices guère. les peines. Je remercie aussi Manu du Centre Régional de Tir de Bretteville su un sport bien souvent méconnu.Table des matières
LISTE DES FIGURES i
LISTE DES TABLEAUX iv
INDEX DES ABBREVIATIONS v
INTRODUCTION 1
I. 3 : étape clé dans la maturation des ARN pré-messagers 3 a. : le splicéosome 4 b. 6 7 12II. 15
Les analyses in vitro 15
a. Tests fonctionnels à bas débit 15 b. Tests fonctionnels à haut débit 17Les analyses in vitro à part 24
a. Tests fonctionnels à bas débit 25 b. Tests fonctionnels à haut débit 28 III. Les outils bioinformatiques et biostatistiques dédiés au RNA-seq 30Les outils bioinformatiques 30
a. Format des principaux fichiers utilisés en bioinformatique 30 b. Alignement des données RNA-seq 34 c. Identification des transcrits 36 d. Comptage des reads 37Les outils biostatistiques 37
a. Visualisation des données brutes 37 b. Normalisation du comptage de reads 39 c. Modélisation du comptage de reads 40IV. 45
4647
Meta-scores 51
Evaluation des outils de prédiction 52
V. splicéogéniques 56Gènes impliqués dans le syndrome HBOC 57
a. Gènes BRCA1 et BRCA2 57 b. Les gènes non-BRCA impliqués dans le syndrome HBOC 59Interprétation des variants 60
: une histoire complexe 66OBJECTIFS DES TRAVAUX DE THESE 69
RESULTATS 73
I. Nouvel outil diagnostique pour la prédiction de variants splicéogéniques situés dans les sites
consensus : Article I 75ABSTRACT 76
INTRODUCTION 77
MATERIALS AND METHODS 78
a. Nomenclature 78 b. Definition of consensus splice site regions 78 c. Datasets 78 d. In silico tools 80 e. Logistic regression and model definition 80 f. In silico predictions using previously published guidelines 81RESULTS 81
a. BRCA1/BRCA2 training set 81 b. BRCA1/BRCA2 validation set 81 c. Non-BRCA validation set 82 d. Descriptive analyses of bioinformatics prediction score 83 e. Model definition of SPiCE 84 f. SPiCE performances on the BRCA1 and BRCA2 validation set 85 g. SPiCE performances on the non-BRCA validation set 86 h. SPiCE performances with previous published guideline 87 i. Further quantitative aspects 88DISCUSSION 88
a. General considerations 88 b. Recommendations for routine analyses 89DEDICATION 90
AVAILABILITY 90
SUPPLEMENTARY METHODS AND DATA 90
FUNDING 90
ACKNOWLEDGMENTS 90
CONFLICT OF INTEREST 90
II. Évaluation des outils de prédiction des points de branchement pour prédire la présence de point
de branchement et leur altération par des variants : Article II 91ABSTRACT 93
BACKGROUND 94
RESULTS 97
a. Bioinformatic detection of branch points among the physiological and alternative splice acceptor sites 97 b. Bioinformatic prediction of splicing effect for variants in the branch point area 98DISCUSSION 101
CONCLUSION 103
METHODS 104
a. Sets of data 104 b. Assessment of bioinformatics tools 105 c. Evaluation of the score combination 106ADDITIONAL FILES 106
DECLARATION 106
a. Ethics approval and consent to participate 106 b. Consent for publication 106 c. Availability of data and material 107 d. Competing Interests 107 e. Funding 107 f. 107 g. Acknowledgements 107 III. SPiP : un nouvel outil pour adresser à la 108 IV. alternatives à partir de données de RNA-seq : Article III 114Abstract 115
Introduction 115
Methods 115
Use case 117
Conclusion 117
Acknowledgements 117
V. PALB2 selon les
-AMP 2015, un rapport ENIGMA : article N°IV 119Abstract 121
Introduction 122
Methods 123
a. Identification of alternative splicing events 123 b. Annotation of alternative splicing events. 124 c. Analysis of PVS1 status (warranted vs. not warranted) for every possible PTC-NMD and splice site variant at the PALB2 locus. 124Results 127
Discussion 132
Declaration 136
a. Acknowledgments 136 b. Contributors 136 c. Funding 136 d. Competing Interests. 137 e. Ethics approval 137 f. Data sharing 137DISCUSSION 139
I. : les avancées et limites 141
1. 141
2. Faut- 143
II. - 146
RNA-seq 146
Comparaison des analyses RNA-seq 147
Un nouveau protocole de RNA-seq ciblé long-read 150 Les forces et limites actuelles du RNA-seq pour une utilisation en diagnostic moléculaire 153III. une histoire à suivre 155
REFERENCES 161
LIENS DE VULGARISATION SCIENTIFIQUE : 177
ANNEXES 179
I. ANNEXE A SUPPLEMENTARY INFORMATION: Novel diagnostic tool for prediction ofvariant spliceogenicity derived from a set of 395 combined in silico/in vitro studies: an international
collaborative effort. 181Supplementary methods 181
Supplementary tables and figures 182
II. 189III. ANNEXE C: SPiP: a Splicing Prediction Pipeline addressing the diversity of splice alterations, validated on a curated diagnostic set of 2,784 exonic and intronic variants. 201
Main text 201
Supplementary information 214
IV. ANNEXE D SUPPLEMENTARY INFORMATION: SpliceLauncher: a tool for detection, annotation and relative quantification of alternative junctions from target RNAseq data. 222 V. ANNEXE E SUPPLEMANTARY INFORMATION : Alternative Splicing and ACMG-AMP-2015 Based Classification of PALB2 Genetic Variants: an ENIGMA Report 231
Supplementary methods 231
Supplemental Tables 241
Supplemental Figures 242
VI. ANNEXE F : protocole utilisé pour la capture RNA-seq long read 252Reverse transcription 252
PCR optimisation 253
PCR à large échelle 254
Purification des produits de PCR à large échelle 255Capture des librairies 256
PCR post-capture 258
Librairies construction 259
Analyses bioinformatiques 259
VII. REFERENCES ANNEXES 260
iLISTE DES FIGURES
Figure 1 . 4
Figure 2 Représentation schématique de 5
Figure 3 humains U2 (adaptée de [13]). 6Figure 4 9
Figure 5 Voie de signalisation du Nonsense-Mediated Decay (NMD) qui survient lors de pioneer [42]). 11Figure 6
variant. 14Figure 7 -clés " next-generation
sequencing » et le nom des principales technologies utilisées. 18Figure 8 Intro to
Sequencing by Synthesis: Industry-leading Data Quality). 20 Figure 9 Illustration du principe de capture des librairies avec le protocole SureSelect XT®. 22
Figure 10 Technologie de séquençage long read utilisée par Oxford nanopore®. 23Figure 11 Principe de la technologie utilisée par Pacific Bioscience® pour le séquençage long
read. 24Figure 12 27
Figure 13 Illustration du principe général des massively parallel reporter assays (MPRAs) [98]. 29
Figure 14 Principe des fichiers Fasta et FastQ. 31Figure 15 Illustration des informations contenues dans un format BED et un format GTF/GFF, avec un exemple de transcrit ayant 3 exons. 33
Figure 16 Présentation des informations contenues dans un fichier VCF pour décrire les variants
génétiques. 34Figure 17 de novo 35
Figure 18 read issu du RNA-seq pour réaliser un alignement sur deux 35Figure 19 ar IGV. 38
Figure 20 Sashimi plot tracé par IGV. 38
Figure 21 Exemple ACP pour 10 échantillon 40
Figure 22 Principe de la clustérisassions hiérarchique. 41 iiFigure 23 44
Figure 24 splicing » et
" splicing prediction » (juillet 2019). 45Figure 25 46
Figure 26 48
Figure 27 49
Figure 28 Schéma général d 50
Figure 29 Illustration de la transformation des données lors du deep learning pour avoir deux groupes linéairement séparables [170]. 51Figure 30
outils de prédiction. 53Figure 31 Principe des courbes ROC. 54
Figure 32 Répartition du nombre de variants parmi les 100 gènes les plus représentés dans la
base de données ClinVar (août 2019). 57Figure 33 Processus de la recombinaison homologue avec les principaux partenaires impliqués (adaptée de [194]). 58
Figure 34 Utilisation du modèle multifactoriel pour attribuer les 5 classes définies par le GCS
(Genetic Cancer Susceptibility). 62Figure 35 Listes des principaux arguments utilisables ainsi que leur poids pour la classification American College of Medical Genetics and Genomics)
63Figure 36 Algorithme décisionnel pour la classification des variants selon les arguments définis
American College of Medical Genetics and Genomics 64 Figure 37 Répartition des classes de pathogénicité pour les gènes BRCA1, BRCA2, PALB2,quotesdbs_dbs45.pdfusesText_45