Bioinformatique

Un article de Agora2ia.


Sommaire

Présentation

  • Banques de données vs. bases de données
  • Quelles sont les principales banques de données ?
  • Banques de données généralistes (hétérogènes) vs. spécialisées (à plus forte valeur ajoutée, s'adressant à des communautés de scientifiques)


http://www.mpb.unige.ch/ (The Master's in proteomics and bioinformatics, Geneva)

  • Bioinformatics applies computer sciences and information technology to generate new algorithms and tools to store, organise and analyse large amounts of proteomics, genomics and other molecular biology datasets. It facilitates and accelerates our knowledge of biological processes.
  • Both proteomics and bioinformatics benefit from the evolution and automation of biochemical techniques and informatics analysis. They instigate the increasing interest from the pharmaceutical and biotech companies.


intro

What is Bioinformatics

http://www.techcuriosity.com/resources/bioinformatics/index.php

Bioinformatics is the use of computers, software tools, and databases to handle biological information. Bioinformatics is widely used for genomics and proteomics. Bioinformatics helps to sequence and analyse all of the genomic entities, including genes and transcripts, in an organism. It also helps in proteonomics to analyse the complete set of proteins or proteome. Bioinformatics is used in drug designing and drug development. Bioinformatics is one of the fastest growing filed, which will certainly reveal the mistries of life and many desieses. Bioinformatics has become a very important part of Biotechnology. All the information process by Biotechnology is stored and analysed using bioinformatics. Bioinformatics is the comprehensive application of mathematics, statistics, biochemistry, biophisics and computer algorithms to analyse biological data.


Définitions

  • A proteome is the set of proteins of one organism expressed by the genome in a given moment in time, and proteomics is the investigation of proteomes. The analysis through time of interactions and modifications of proteins provides supplementary information about their functions, biological mechanisms and in particular about diseases.

Concepts et idées connexes


Ruby et BioInformatique

Historiquement, la Bioinformatique s'est reposé sur des langages de script. C'est en trouvant des références à des ouvrages sur Python et la Bioinformatique que j'ai eu l'idée de creuser le lien entre Ruby et la Bioinformatique.

Je me suis alors rendu compte que quelques sites internet étaient dédiés à cette paire :


  • Bioinformatics on Rails > Let's start (12/10/2007)
    • La plupart des sites de bioinformatiques sont principalement basés sur des bases de données
    • Des bases de données essentiellement MySQL
    • Le langage officiel du bioinformaticien est Perl
    • En Ruby il existe BioRuby


Ressources


Types de prestation

  • Formations Ruby
  • Développements (application)
    • agilité -> adaptation des développements aux résultats et nouvelles hypothèses
  • Gestionnaire de contenu pour diffuser les résultats
    • Radiant pour l'intégration directe de contenu Ruby "exécuté" (Cf. Fitness)
  • Flex pour le rendu des graphes ? (A la place de RSRuby ?)
  • Consulting / formation :
    • BioRuby (partenariat ?)
    • Intégration aux bases et banques de données
    • DataMining
    • Maths. statistiques


Formation Ruby pour BioInfo

  • Identifier :
  • Les besoins techniques réccurents (manip. de fichier...) --> exemples
  • Sur quel OS travaillent les bioinformaticiens
  • Les types de bases de données (MySQL ! Oracle ?...)
  • Installation facile et rapide : la preuve...
  • Montrer un IDE = f(OS)
  • Meta-programming
    • "code qui génère du code ou qui le modifie au runtime"
    • Ex: attr_access, method_missing, ActiveRecord.find_by
  • Réouverture de classe
  • Librairies intéressantes
  • Gestion de la mémoire (grande volumétrie de données à gérer). Ex: taille d'un int ? comparaison avec Java ?
  • Rapidité d'exécution ? Compiler le langage ? Comparaison avec C++ par exemple ?
  • Comparaison avec Perl ? Python ?
  • Procédural vs. OO -> hight cohesion (objet responsable de son comportement)
  • PrincipesObjet (Open Close principle, Principe de Liskov, IOC...)
  • Bases de données
    • Migrations (si on fait la sienne)
    • ActiveRecord pour se connecter à une base existante
    • Se connecter à différentes bases (MySQL, SqLite...)
    • IRB (interrogation en live)
  • Utiliser l'interpreter (irb) pour apprendre en temps reel

An introduction to scripting in Ruby for biologists


Pourquoi Ruby ?

  • Initial learning curve very shallow
  • its reflection and meta-programming capabilities allow for the rapid creation of relatively complex applications while still keeping the code short and readable.


Pourquoi la bioinfo ?

  • Explosion des données scientifiques ces 20 dernières années
  • Avancées dans le séquençage de l'ADN a accéléré et rendu moins cher le traitement du matériel génétique accroissant les données de test
  • Tous les champs de la biologies ont été affectés, et le véritable challenge pour un biologiste désormais est de traiter efficacement une quantité de données phénoménales.
  • L'inspection manuelle des données est devenue impossible : le scientifique doit maintenant traiter les données programmatiquement pour les filtrer ou valider une hypothèse.


le scripting c'est :

  1. automatisation de tâche répétitives
  2. traitement de données volumineuses

points :

  • différents langages de script (including Perl, Python, Ruby and shell scripting language)
  • pas de langage parfait
  • (in)compatibilité entre syntaxe et construction du langage et la façon de penser du scientifique programmeur
  • Un tres bon rapport courbe d'apprentissage / consistance
  • With all this in mind, in this short article we will introduce Ruby as a highly suitable scripting language

for biologists to learn and use.


Outils


Organismes

Genève

  • GeneBio
  • GeneProt
  • UniProt (sur Wikipedia) : The mission of UniProt is to provide the scientific community with a comprehensive, high-quality and freely accessible resource of protein sequence and functional information.


  • Université de Genève : The Master's in proteomics and bioinformatics (MPB)


Suisse


France

  • ...


Autres

Ressources

Articles


Livres




Sites