[PDF] Développement doutils biostatistiques et bioinformatiques

13 déc 2019 · sein des séquences consensus des sites d'épissage Ce travail a conduit à Definition of consensus splice site regions 78 c Datasets 78 du site d' épissage Ils peuvent aussi permettre l'utilisation d'un site cryptique non

en évidence des anomalies d'épissage, et plus largement de la transcription, est donc site cryptique, il s'ensuit une délétion exonique (Figure 2B) ou une rétention intronique amélioré leur définition et montré leur importance en pathologie

[PDF] Lépissage alternatif : un gène, combien de protéines ? - CRCL

Vers une nouvelle définition du gène ? La snRNP U1 s'associe au site 5' d' épissage et U2 se lie au point de branchement, le tout l'affaiblissement des sites d'épissage ou au renforcement de sites d'épissage cryptiques (« cachés »

Le code de lépissage et sa modulation thérapeutique par - Érudit

et dégénérescence des sites d'épissage Pour faire face à à la définition des exons et à la sélec- tion des site d'épissage normalement cryptique, avec pour

[PDF] Mécanismes moléculaires de la régulation et de la - HAL-Inria

7 nov 2009 · introns environnants par un processus appelé « Intron définition » utilisation de sites cryptiques d'épissage, normalement silencieux, ou une

[PDF] Développement doutils biostatistiques et bioinformatiques - Thèses

[PDF] jaccottet à la lumière d'hiver poèmes

[PDF] spliceosome

[PDF] site donneur d'épissage définition

[PDF] site accepteur d'épissage

[PDF] jack l'éventreur londres

[PDF] jack l'éventreur aaron kosminski

[PDF] epissage alternatif animation

[PDF] jack l'éventreur lettre

[PDF] fiche orientation 3ème 2017

[PDF] jack l'éventreur livre

[PDF] résumé croc blanc jack london par chapitre

[PDF] 3 .s.t.d sarl au

[PDF] 3sdt fes

[PDF] cnss espace consultation

[PDF] cnss recrutement 2017 maroc

13/12/2019

biostatistiques et bioinformatiques de prédiction et de prédisposition aux cancers du Travaux encadrés par le Dr Sophie KRIEGER (MCU-PH) et le Dr

Alexandra MARTINS (DR)

Dr Raphaël LEMAN

LABORATOIRE DE BIOLOGIE ET DE GENETIQUE DU CANCER,

INSERM U1245

Résumé

analyse est particulièrement complexe. Outre la diversité des transcrits présents Ces variations, appelées variants splicéogéniques, et leur impact au niveau , sont à même de modifier plus ou moins sévèrement

Au cours de ce travail de thèse, nous nous sommes intéressés à trois grands aspects d des défauts

: (i) (ii) -seq et (iii) pour la prédisposition aux c

Nous avons optimisé les recommandations en vigueur pour identifier les variants splicéogéniques au

SPiCE (Splicing Prediction in Consensus Elements), développé sur 395 variants. SPiCE a le potentiel

ces variants splicéogéniques, grâce à une

exactitude de 94.4 %. Puis, nous avons comparé les outils de prédiction des points de branchement. Pour

cela, une collection sans précédente de 120 variants avec leurs études ARN a été établi dans la région

des points de branchements. Nous avons ainsi révélé que ces outils de prédictions sont aptes à prioriser

les variants pour des études ARN dans ces régions jusque-là peu étudiées. Pour étendre les prédictions

des variants splicéogéniques au-Splicing

Prediction Pipeline). SPiP utilise un ensemble

la position du variant. Ainsi, SPiP peut exactitude de 80.21 %, sur une collection de 2 784 variants. Les données issues du RNA-seq sont complexes à analyser, car is pour annoter finement les épissages alternatifs. SpliceLauncher. Cet outil permet de déterminer une grande diversité de , indépendamment des systèmes RNA-seq

utilisés. Cet outil renvoie aussi les résultats sous formes graphiques pour faciliter leur interprétation.

Puis nous avons évalué le rôle de dans c

variant. Le gène PALB2, impliqué dans le syndrome HBOC, a été utilisé Nous avons ainsi démontré f de PALB2 est apte à remettre en cause la pathogénicité de

certains variants. La collecte de données fonctionnelles et cliniques sont donc nécessaires pour conclure

sur leur pathogénicité. Nos travaux illustrent ainsi interprétation des modifications de en génétique.

Mots-clés : épissage, variants, syndrome HBOC, prédiction, RNA-seq, SPiP, SPiCE, SpliceLauncher

Abstract

Analysis of splicing defects is particularly complex. In addition to the diversity of physiological

transcripts, nucleotidic variations can induce heterogeneous alteration of splicing. These variations,

called spliceogenic variants, and their impact on splicing, can involve severe consequences on the individual phenotype.

In this thesis work, we focused on three main aspects of the study of splicing defects: (i) the prediction

of these splicing defects, (ii) the analysis of RNA-seq data and (iii) the role of splicing in interpreting

the pathogenicity of a variant for the hereditary breast and ovarian cancers (HBOC syndrome). We optimized the current recommendations to identify spliceogenic variants within the consensus

sequences of splicing sites. This work led to the publication of a new tool, SPiCE (Splicing Prediction

in Consensus Elements), developed on 395 variants. SPiCE has the potential to be a decision support tool to guide geneticists towards these spliceogenic variants, with an accuracy of 94.4%. Then, we

compared the tools dedicated to branch points prediction. For this purpose, an unprecedented collection

of 120 variants with their RNA studies has been established in the branch point region. Thus, we revealed

these prediction tools are able to prioritize variants for RNA studies in these hitherto poorly studied

regions. To extend the predictions of spliceogenic variants beyond a specific motif, we built SPiP

(Splicing Prediction Pipeline) tool. SPiP uses a set of tools to predict a splicing defect regardless of the

variant position. Thus, SPiP can address the diversity of splicing defects with an accuracy of 80.21%,

on a collection of 2,784 variants.

The data from the RNA-seq are complex to analyze, as there are few tools to finely annotate alternative

splices. Also we published SpliceLauncher tool. This tool allows to determine a wide variety of splicing

junctions, independently of RNA-seq systems used. This tool also returns the results in graphical form

to make interpretation user-friendly.

Then we evaluated the role of alternative splicing in the clinical interpretation of a variant. The PALB2

gene, involved in HBOC syndrome, was used as a study model. Thus, we demonstrated that the

alternative splicing of PALB2 is able of challenging the pathogenicity of certain variants. Collection of

functional and clinical data is therefore necessary to conclude on their pathogenicity.

Our work thus illustrates the importance of characterizing and interpreting splicing modifications to

meet the current and future challenges of molecular diagnosis in human genetics. Keywords: splicing, variants, HBOC syndrome, prediction, RNA-seq, SPiP, SPiCE, SpliceLauncher

Remerciements

Nous remercions les membres du jury, tout particulièrement les rapporteurs, le Professeur Marie-Pierre

Buisine et le Docteur Fabienne Lesueur, pour avoir acceptés Nous remercions également le Professeur Nicolas Nous remercions également le Professeur Claude Houdayer dont son implication est impossible à estimer tant sa participation à ce travail a été enthousiaste et cruciale.

Nous sommes reconnaissant envers le Professeur

et le Docteur Dominique Vaur, Directeur du laboratoire de biologie et de génétique du cancer du Centre

François Baclesse, pour nous avoir offert les infrastructures nécessaires au déroulement de cette thèse.

Nous remercions également nos collègues biologistes le Docteur Laurent Castera, le Docteur Etienne

Mueller et le Docteur Agathe Ricou pour leurs conseils avisés et pour nous avoir partagé leur expérience

Nous congratulons également le Docteur Nicolas Goardon pour sa veille bibliographique et Angelina

Legros pour son assistance technique.

Nous sommes également reconnaissants envers nos collègues bioinformaticiens (Docteur Alexandre Atkinson, Baptiste Brault, Thibaut Lavole, Germain Paimparay et Antoine Rousselain) pour leur avis

Nous remercions le Docteur Pascaline Gaildrat et le Docteur Alexandra Martins pour leur participation

à ce travail de thèse.

Nous félicitons Laetitia Meulemans, le Docteur Omar Soukarieh, et le Docteur Hélène Tubeuf pour leurs

e. Nous sommes débiteurs pour le Docteur Sabine Raad et le Docteur Isabelle Tournier pour nous avoir partagé leurs données RNA-seq.

Nous remercions également Valentin Harter et le Professeur Jean-Philippe Vert, nos oasis statistiques

dans un monde de biologistes.

Nous sommes également reconnaissants envers le Docteur Laurent Poulain et les membres de son équipe

U1199 ANTICIPE, pour nous avoir offert leurs assistances techniques. Nous complimentons aussi les membres du réseau épissage de GGC ainsi que les membres de Inserm UMR1078, ceux du service de GénéHUPC Hôpital Cochin

et les membres du laboratoire de Génétique du GH Saint-Louis-Lariboisière-Fernand Widal, pour leur

participation. A l Nous sommes également redevables envers le Docteur Amanda Spurdle et les membres du consortium ENIGMA et tout particulièrement le Docteur Miguel de la Hoya et le Docteur Logan Walker. Agradecemos a Miguel de la Hoya por asociarnos al estudio del gen PALB2. We would like to thank Logan Walker to associate us at the QC RNA-seq Project. Wij feliciteren Rien Blok met zijn studie over alternatieve verbindingen van RAD51C/D genen. -seq. Vi takker også Thomas van Overeem Hansen for at dele hans RNA-data.

Je suis également reconnaissant envers le Docteur Sophie Krieger et le Docteur Alexandra Martins pour

avoir encadré ce travail de thèse. " étranger » pour porter son projet de recherche. s les séances de supplices guère. les peines. Je remercie aussi Manu du Centre Régional de Tir de Bretteville su un sport bien souvent méconnu.

Table des matières

LISTE DES FIGURES i

LISTE DES TABLEAUX iv

INDEX DES ABBREVIATIONS v

INTRODUCTION 1

I. 3 : étape clé dans la maturation des ARN pré-messagers 3 a. : le splicéosome 4 b. 6 7 12

II. 15

Les analyses in vitro 15

a. Tests fonctionnels à bas débit 15 b. Tests fonctionnels à haut débit 17

Les analyses in vitro à part 24

a. Tests fonctionnels à bas débit 25 b. Tests fonctionnels à haut débit 28 III. Les outils bioinformatiques et biostatistiques dédiés au RNA-seq 30

Les outils bioinformatiques 30

a. Format des principaux fichiers utilisés en bioinformatique 30 b. Alignement des données RNA-seq 34 c. Identification des transcrits 36 d. Comptage des reads 37

Les outils biostatistiques 37

a. Visualisation des données brutes 37 b. Normalisation du comptage de reads 39 c. Modélisation du comptage de reads 40

IV. 45

46
47

Meta-scores 51

Evaluation des outils de prédiction 52

V. splicéogéniques 56

Gènes impliqués dans le syndrome HBOC 57

a. Gènes BRCA1 et BRCA2 57 b. Les gènes non-BRCA impliqués dans le syndrome HBOC 59

Interprétation des variants 60

: une histoire complexe 66

OBJECTIFS DES TRAVAUX DE THESE 69

RESULTATS 73

I. Nouvel outil diagnostique pour la prédiction de variants splicéogéniques situés dans les sites

consensus : Article I 75

ABSTRACT 76

INTRODUCTION 77

MATERIALS AND METHODS 78

a. Nomenclature 78 b. Definition of consensus splice site regions 78 c. Datasets 78 d. In silico tools 80 e. Logistic regression and model definition 80 f. In silico predictions using previously published guidelines 81

RESULTS 81

a. BRCA1/BRCA2 training set 81 b. BRCA1/BRCA2 validation set 81 c. Non-BRCA validation set 82 d. Descriptive analyses of bioinformatics prediction score 83 e. Model definition of SPiCE 84 f. SPiCE performances on the BRCA1 and BRCA2 validation set 85 g. SPiCE performances on the non-BRCA validation set 86 h. SPiCE performances with previous published guideline 87 i. Further quantitative aspects 88

DISCUSSION 88

a. General considerations 88 b. Recommendations for routine analyses 89

DEDICATION 90

AVAILABILITY 90

SUPPLEMENTARY METHODS AND DATA 90

FUNDING 90

ACKNOWLEDGMENTS 90

CONFLICT OF INTEREST 90

II. Évaluation des outils de prédiction des points de branchement pour prédire la présence de point

de branchement et leur altération par des variants : Article II 91

ABSTRACT 93

BACKGROUND 94

RESULTS 97

a. Bioinformatic detection of branch points among the physiological and alternative splice acceptor sites 97 b. Bioinformatic prediction of splicing effect for variants in the branch point area 98

DISCUSSION 101

CONCLUSION 103

METHODS 104

a. Sets of data 104 b. Assessment of bioinformatics tools 105 c. Evaluation of the score combination 106

ADDITIONAL FILES 106

DECLARATION 106

a. Ethics approval and consent to participate 106 b. Consent for publication 106 c. Availability of data and material 107 d. Competing Interests 107 e. Funding 107 f. 107 g. Acknowledgements 107 III. SPiP : un nouvel outil pour adresser à la 108 IV. alternatives à partir de données de RNA-seq : Article III 114

Abstract 115

Introduction 115

Methods 115

Use case 117

Conclusion 117

Acknowledgements 117

V. PALB2 selon les

-AMP 2015, un rapport ENIGMA : article N°IV 119

Abstract 121

Introduction 122

Methods 123

a. Identification of alternative splicing events 123 b. Annotation of alternative splicing events. 124 c. Analysis of PVS1 status (warranted vs. not warranted) for every possible PTC-NMD and splice site variant at the PALB2 locus. 124

Results 127

Discussion 132

Declaration 136

a. Acknowledgments 136 b. Contributors 136 c. Funding 136 d. Competing Interests. 137 e. Ethics approval 137 f. Data sharing 137

DISCUSSION 139

I. : les avancées et limites 141

1. 141

2. Faut- 143

II. - 146

RNA-seq 146

Comparaison des analyses RNA-seq 147

Un nouveau protocole de RNA-seq ciblé long-read 150 Les forces et limites actuelles du RNA-seq pour une utilisation en diagnostic moléculaire 153

III. une histoire à suivre 155

REFERENCES 161

LIENS DE VULGARISATION SCIENTIFIQUE : 177

ANNEXES 179

I. ANNEXE A SUPPLEMENTARY INFORMATION: Novel diagnostic tool for prediction of

variant spliceogenicity derived from a set of 395 combined in silico/in vitro studies: an international

collaborative effort. 181

Supplementary methods 181

Supplementary tables and figures 182

II. 189
III. ANNEXE C: SPiP: a Splicing Prediction Pipeline addressing the diversity of splice alterations, validated on a curated diagnostic set of 2,784 exonic and intronic variants. 201

Main text 201

Supplementary information 214

IV. ANNEXE D SUPPLEMENTARY INFORMATION: SpliceLauncher: a tool for detection, annotation and relative quantification of alternative junctions from target RNAseq data. 222 V. ANNEXE E SUPPLEMANTARY INFORMATION : Alternative Splicing and ACMG-AMP-

2015 Based Classification of PALB2 Genetic Variants: an ENIGMA Report 231

Supplementary methods 231

Supplemental Tables 241

Supplemental Figures 242

VI. ANNEXE F : protocole utilisé pour la capture RNA-seq long read 252

Reverse transcription 252

PCR optimisation 253

PCR à large échelle 254

Purification des produits de PCR à large échelle 255

Capture des librairies 256

PCR post-capture 258

Librairies construction 259

Analyses bioinformatiques 259

VII. REFERENCES ANNEXES 260

LISTE DES FIGURES

Figure 1 . 4

Figure 2 Représentation schématique de 5

Figure 3 humains U2 (adaptée de [13]). 6

Figure 4 9

Figure 5 Voie de signalisation du Nonsense-Mediated Decay (NMD) qui survient lors de pioneer [42]). 11

Figure 6

variant. 14

Figure 7 -clés " next-generation

sequencing » et le nom des principales technologies utilisées. 18

Figure 8 Intro to

Sequencing by Synthesis: Industry-leading Data Quality). 20 Figure 9 Illustration du principe de capture des librairies avec le protocole SureSelect XT

®. 22

Figure 10 Technologie de séquençage long read utilisée par Oxford nanopore®. 23

Figure 11 Principe de la technologie utilisée par Pacific Bioscience® pour le séquençage long

read. 24

Figure 12 27

Figure 13 Illustration du principe général des massively parallel reporter assays (MPRAs) [98]. 29

Figure 14 Principe des fichiers Fasta et FastQ. 31

Figure 15 Illustration des informations contenues dans un format BED et un format GTF/GFF, avec un exemple de transcrit ayant 3 exons. 33

Figure 16 Présentation des informations contenues dans un fichier VCF pour décrire les variants

génétiques. 34

Figure 17 de novo 35

Figure 18 read issu du RNA-seq pour réaliser un alignement sur deux 35

Figure 19 ar IGV. 38

Figure 20 Sashimi plot tracé par IGV. 38

Figure 21 Exemple ACP pour 10 échantillon 40

Figure 22 Principe de la clustérisassions hiérarchique. 41 ii

Figure 23 44

Figure 24 splicing » et

" splicing prediction » (juillet 2019). 45

Figure 25 46

Figure 26 48

Figure 27 49

Figure 28 Schéma général d 50

Figure 29 Illustration de la transformation des données lors du deep learning pour avoir deux groupes linéairement séparables [170]. 51

Figure 30

outils de prédiction. 53

Figure 31 Principe des courbes ROC. 54

Figure 32 Répartition du nombre de variants parmi les 100 gènes les plus représentés dans la

base de données ClinVar (août 2019). 57

Figure 33 Processus de la recombinaison homologue avec les principaux partenaires impliqués (adaptée de [194]). 58

Figure 34 Utilisation du modèle multifactoriel pour attribuer les 5 classes définies par le GCS

(Genetic Cancer Susceptibility). 62

Figure 35 Listes des principaux arguments utilisables ainsi que leur poids pour la classification American College of Medical Genetics and Genomics)

Figure 36 Algorithme décisionnel pour la classification des variants selon les arguments définis

American College of Medical Genetics and Genomics 64 Figure 37 Répartition des classes de pathogénicité pour les gènes BRCA1, BRCA2, PALB2,quotesdbs_dbs45.pdfusesText_45

[PDF] [PDF] Développement doutils biostatistiques et bioinformatiques - Thèses

Anomalies de la transcription et diagnostic en génétique