0% found this document useful (0 votes)

15 views

Lecture2-DataMining for Bioinformatics

Uploaded by

shoyo3918

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

15 views

Lecture2-DataMining for Bioinformatics

Uploaded by

shoyo3918

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 7

Data Mining for

Bioinformatics
Dr. Y. V. Lokeswari
Associate Professor
SSN College of Engineering
Data Mining in Bioinformatics
• Data mining in bioinformatics implies extracting valuable information from a large amount of
incomprehensible, biological data. It is a process that leads to knowledge discovery.
• Data mining in bioinformatics deals with different techniques and algorithms to gain knowledge from
data of biological sequences, structures and microarrays.
• Biomedical Data Analysis
• Major Nucleotide Sequence Database, Protein Sequence Database, and Gene Expression
Database
• A DNA sequence consists of four components, namely, adenine (A), cytosine (C), guanine (G) and
thymine (T), specifying the genetic code of the organism.
• A protein sequence consists of 20 amino acids, coded from the coding region of a DNA sequence.
• Gene expression data measures the expression of a particular gene, whether upregulated, down-
regulated, or non-expressing, under specific conditions in a cell.
Data mining=extracting valuable info from large amt of incomprehensible biological
data (seq, structures and MicroArrays).
DNA= alphabet seq of A,G,C,T
-----> leads to knowledge discovery
there are regions in DNA that help code amino acids.
Uses diff techniques and algos
20 amino acids=1 protein seq
Data Mining in Bioinformatics
• The three major DNA sequence databases
• EMBL (http://www.ebi.ac.uk/embl/index.html) European Bioinformatics Institute (EBI), an
outstation of the European Molecular Biology Laboratory (EMBL)
• GenBank (http://www.ncbi.nlm.nih.gov/Genbank/) GenBank database is maintained by the
National Center for Biotechnology Information (NCBI),
• DDBJ (http://www.ddbj.nig.ac.jp/Welcome-e.html) DNA Data Bank of Japan at the National
Institute of Genetics (NIG) in Japan.
• The three databases have collaborated to form the International Nucleotide Sequence
Database Collaboration (http://www.ncbi.nlm.nih.gov/projects/collab/).
• The three major databases for protein sequence are:
• Swiss-Prot (http://www.ebi.ac.uk/swissprot/index.html). Swiss Institute for Bioinformatics (SIB)
• TrEMBL (http://www.ebi.ac.uk/trembl/index.html). The TrEMBL database, maintained by EBI,
contains the translations of all coding sequences (CDS) present in the EMBL Nucleotide Sequence
Database,
• PIR (http://pir.georgetown.edu/pirwww/). The Protein Information Resource (PIR), located at
Georgetown University Medical Center, is an integrated public bioinformatics resource that supports
genomic and proteomic research and scientific studies.
Data Mining in Bioinformatics
• The Microarray Gene Expression Data (MGED) Society (http://www.mged.org/index.html) is an
international organization of biologists, computer scientists, and data analysts that aims to facilitate
the sharing of microarray data generated by functional genomics and proteomics experiments.
• The ArrayExpress at the EBI (http://www.ebi.ac.uk/arrayexpress/index.html) is a public repository
for microarray data.
• The Gene Expression Omnibus (http://www.ncbi.nlm.nih.gov/geo/) at NCBI is a gene expression
and hybridization array data repository.
Data Mining in Bioinformatics
• Software Tools for Bioinformatics Research
• The software tools that facilitate research in bioinformatics can be broadly categorized into four
classes:
• (1) data retrieval tools, (2) sequence comparison and alignment tools, (3) pattern discovery tools,
and (4) visualization tools
• A major tool for data retrieval is Entrez. Others are DBGET/ linkDB and SRS – Sequence Retrieval System
• Entrez is an integrated data retrieval system developed by NCBI that provides integrated access to a
wide range of data domains, including literature, nucleotide and protein sequences, complete
genomes, 3D structures, and more..
• One can use Entrez to:
• Identify a representative, well annotated mRNA sequence record from the millions of sequences
in the Entrez Nucleotide data domain.
• Retrieve associated literature and protein records.
• Identify conserved domains within the protein.
• Identify known mutations within the gene or protein.
• Find a resolved three-dimensional structure for the protein, or, in its absence, identify structures
with homologous sequence.
• View the genomic context of the gene and download the sequence region.
Data Mining in Bioinformatics
• Sequence comparison and alignment tools are
• BLAST (Basic Local Alignment Search Tool, available at http://www.ncbi.nlm. nih.gov/BLAST/)
• BLAST is used for comparing gene and protein sequences against others in public databases.
• FASTA (FAST Alignment, available at http://www.ebi.ac.uk/fasta33/)
• FASTA can be used for a fast protein comparison or a fast nucleotide comparison.
• Multiple sequence alignment, the tool available is ClustalW and Custal Omega
• Refer to https://www.youtube.com/watch?v=LokO-iFJdqc
• ClustalW can be used to align DNA or protein sequences in order to elucidate their relationships
as well as their evolutionary origin.
• Pattern discovery tools are used to search for patterns or features in the data.
• An important pattern discovery tool is cluster analysis
• It is used to find groupings in a given dataset such that objects in the same group are similar to each
other while objects in different groups are dissimilar.
• Cluster analysis has been used extensively in gene expression data analysis (see
http://rana.lbl.gov/EisenSoftware.htm).
• Two useful integrated tools for pattern discovery are
• Expression Profiler (http://ep.ebi.ac.uk/EP/)
• GeneQuiz (available at http://jura.ebi.ac.uk:8765/ext-genequiz/)
Data Mining in Bioinformatics
• Visualization tools allow an interactive, graphical display of genomic data.
• Most major genome analysis packages, such as Expression Profiler, and GeneQuiz, have
a visualization tool integrated in them.
• Visualization tools available for bioinformatics data are:
• TreeView (available at http://rana.lbl.gov/EisenSoftware.htm),
• BioViews
• Genes_Graph
• Protein Explorer (available at http://www.proteinexplorer.org)

Biological Databases Lec 2,3
No ratings yet
Biological Databases Lec 2,3
49 pages
Unit V DM
No ratings yet
Unit V DM
96 pages
Bioinformatics Database and Applications
100% (3)
Bioinformatics Database and Applications
82 pages
CH12
No ratings yet
CH12
8 pages
Sec1 Introduction to Bioinformatics
No ratings yet
Sec1 Introduction to Bioinformatics
20 pages
Bioinformatics
No ratings yet
Bioinformatics
47 pages
Biological Databases
No ratings yet
Biological Databases
28 pages
Tics - A Brief Introduction
No ratings yet
Tics - A Brief Introduction
4 pages
Bioinformatics Tools For Nucleotide Sequence Analysis and Database Exploration
No ratings yet
Bioinformatics Tools For Nucleotide Sequence Analysis and Database Exploration
75 pages
Day 1
No ratings yet
Day 1
38 pages
unit 1
No ratings yet
unit 1
24 pages
Bioinformatics Lecture Notes Database
No ratings yet
Bioinformatics Lecture Notes Database
28 pages
Fat noews docx (1)
No ratings yet
Fat noews docx (1)
32 pages
8024 Bio Info
No ratings yet
8024 Bio Info
28 pages
Module 2 (Bioinformatics)
No ratings yet
Module 2 (Bioinformatics)
81 pages
Database
No ratings yet
Database
40 pages
Bio Informatics
No ratings yet
Bio Informatics
46 pages
Basics of Bioinformatics
100% (7)
Basics of Bioinformatics
99 pages
Bioinformatics PPT Section B Data Storage and Retrival Group 3
No ratings yet
Bioinformatics PPT Section B Data Storage and Retrival Group 3
36 pages
Bioinformatics: Intended Learning Outcomes
No ratings yet
Bioinformatics: Intended Learning Outcomes
9 pages
Bioinformatics Overview
100% (1)
Bioinformatics Overview
18 pages
BIOINFORMATICS - eNOTES
No ratings yet
BIOINFORMATICS - eNOTES
23 pages
Capture D'écran . 2023-03-14 À 00.15.22
No ratings yet
Capture D'écran . 2023-03-14 À 00.15.22
54 pages
BCH 428 Slide.pptx (1)
No ratings yet
BCH 428 Slide.pptx (1)
32 pages
Biological Data Bases
No ratings yet
Biological Data Bases
36 pages
Datamining
No ratings yet
Datamining
15 pages
BCH 505 Bioinformatics 3(2 2) Databases
No ratings yet
BCH 505 Bioinformatics 3(2 2) Databases
17 pages
Data Retrieval
67% (3)
Data Retrieval
17 pages
FALLSEM2019-20 BIT2001 ETH VL2019201000690 Reference Material I 11-Jul-2019 Unit I New
No ratings yet
FALLSEM2019-20 BIT2001 ETH VL2019201000690 Reference Material I 11-Jul-2019 Unit I New
48 pages
Plant Biotechnology
No ratings yet
Plant Biotechnology
44 pages
Index: Auroras Technological and Research Institute
No ratings yet
Index: Auroras Technological and Research Institute
56 pages
BIOINFORMATICS
No ratings yet
BIOINFORMATICS
85 pages
Introduction To Bioinformatics (Databases)
No ratings yet
Introduction To Bioinformatics (Databases)
28 pages
Bioinformatics Biological Database
No ratings yet
Bioinformatics Biological Database
31 pages
Bio PPT
No ratings yet
Bio PPT
35 pages
module 4 merged
No ratings yet
module 4 merged
283 pages
Bio in For Matics
No ratings yet
Bio in For Matics
4 pages
Lecture 5- DataBase
No ratings yet
Lecture 5- DataBase
18 pages
Bioinform-Tica-Pdf-May-6-2010-12-38-Pm-3-5-Meg
No ratings yet
Bioinform-Tica-Pdf-May-6-2010-12-38-Pm-3-5-Meg
105 pages
A Review Article On Bioinformatics Tools and Software
No ratings yet
A Review Article On Bioinformatics Tools and Software
14 pages
Nucleic_Acid_Databases
No ratings yet
Nucleic_Acid_Databases
37 pages
Bioinformatics
No ratings yet
Bioinformatics
22 pages
Unit 6 - Bioinformatics
No ratings yet
Unit 6 - Bioinformatics
41 pages
Biological Data and Database
No ratings yet
Biological Data and Database
13 pages
"MBG1002 Biological Databases Week II
No ratings yet
"MBG1002 Biological Databases Week II
37 pages
M Lec 01 & 02 Biological Database
No ratings yet
M Lec 01 & 02 Biological Database
50 pages
Presentation 11
No ratings yet
Presentation 11
20 pages
2024.HF_BioInformatics_Lec3p
No ratings yet
2024.HF_BioInformatics_Lec3p
11 pages
Biological Information on Artificial Intelligence
No ratings yet
Biological Information on Artificial Intelligence
20 pages
CMSC 838T - Lecture 9: Bioinformatics Databases
No ratings yet
CMSC 838T - Lecture 9: Bioinformatics Databases
65 pages
Exploring Database and Analyzing Protein Sequence
No ratings yet
Exploring Database and Analyzing Protein Sequence
70 pages
Bioinformatics - Group21 - Report - Application of Bioinformatics in Agriculture
No ratings yet
Bioinformatics - Group21 - Report - Application of Bioinformatics in Agriculture
11 pages
Lecture_3
No ratings yet
Lecture_3
55 pages
Bio in For Matics
No ratings yet
Bio in For Matics
17 pages
Biological Databases Genbank
No ratings yet
Biological Databases Genbank
31 pages
Lec2 Databases
No ratings yet
Lec2 Databases
135 pages
Databases and Ontologies
No ratings yet
Databases and Ontologies
1 page
Introduction to Bioinformatics, Sequence and Genome Analysis
From Everand
Introduction to Bioinformatics, Sequence and Genome Analysis
Jerry H. Swift
No ratings yet
Introduction to Bioinformatics Using Action Labs
From Everand
Introduction to Bioinformatics Using Action Labs
Jean-Louis Lassez
5/5 (1)
Bioinformatics Unveiled
From Everand
Bioinformatics Unveiled
Joan Melody
No ratings yet
Lecture4-Protein Data Analysis
No ratings yet
Lecture4-Protein Data Analysis
26 pages
Lecture4-Gene Prediction Problem - Simiarity Based Method
No ratings yet
Lecture4-Gene Prediction Problem - Simiarity Based Method
5 pages
Lecture3-DNA Data Analysis
No ratings yet
Lecture3-DNA Data Analysis
17 pages
Lecture3-Structural Bioinformatics-Secondary Resources
No ratings yet
Lecture3-Structural Bioinformatics-Secondary Resources
26 pages
Lecture1-Bioinformatics Technologies
No ratings yet
Lecture1-Bioinformatics Technologies
69 pages
Lecture2-Structural Bioinformatics
No ratings yet
Lecture2-Structural Bioinformatics
8 pages
Bioinformatics Notes
No ratings yet
Bioinformatics Notes
40 pages
BIO316 (1)
No ratings yet
BIO316 (1)
102 pages
Basic Bioinformatics Syllabus
No ratings yet
Basic Bioinformatics Syllabus
2 pages
Book Chapter
No ratings yet
Book Chapter
17 pages
Bioinformatics Manual
No ratings yet
Bioinformatics Manual
117 pages
An Overview of Phoneutria Nigriventer Spider Venom
No ratings yet
An Overview of Phoneutria Nigriventer Spider Venom
29 pages
Protein Sequence
No ratings yet
Protein Sequence
36 pages
Bioinformatics
No ratings yet
Bioinformatics
24 pages
Bioinformatics Database Worksheet
No ratings yet
Bioinformatics Database Worksheet
10 pages
Greco 2015
No ratings yet
Greco 2015
5 pages
Bio Python Tutorial
No ratings yet
Bio Python Tutorial
331 pages
Abhilash-SWISS MODEL Seminar 2023
No ratings yet
Abhilash-SWISS MODEL Seminar 2023
25 pages
Bif401 Manual 2023
No ratings yet
Bif401 Manual 2023
27 pages
Bioinformatics 1
No ratings yet
Bioinformatics 1
57 pages
CDD: NCBI's Conserved Domain Database
No ratings yet
CDD: NCBI's Conserved Domain Database
5 pages
CLC Main Workbench User Manual
No ratings yet
CLC Main Workbench User Manual
573 pages
BIOINFORMATICS ASSIGNMENT_final.dr_01
No ratings yet
BIOINFORMATICS ASSIGNMENT_final.dr_01
17 pages
Tutorial
No ratings yet
Tutorial
365 pages
Science and Technology Botany
No ratings yet
Science and Technology Botany
10 pages
1 What Is Bioinformatics
No ratings yet
1 What Is Bioinformatics
34 pages
Genome Annotation
No ratings yet
Genome Annotation
24 pages
Concepts of Bioinformatics PDF
100% (2)
Concepts of Bioinformatics PDF
20 pages
BIOINFOMATICS - Information Sources and Applications
No ratings yet
BIOINFOMATICS - Information Sources and Applications
80 pages
Ahmed Saad Qatea / 4 Stage
No ratings yet
Ahmed Saad Qatea / 4 Stage
10 pages
Quiz Dna
100% (3)
Quiz Dna
8 pages
Human Blood Plasma Proteins Structure and Function 1st Edition Johann Schaller instant download
100% (1)
Human Blood Plasma Proteins Structure and Function 1st Edition Johann Schaller instant download
56 pages
STS Repoort Introduction
No ratings yet
STS Repoort Introduction
57 pages
Journal of Plant Physiology: Sciencedirect
No ratings yet
Journal of Plant Physiology: Sciencedirect
10 pages
Unit-3 Bioinformatics
No ratings yet
Unit-3 Bioinformatics
15 pages

Lecture2-DataMining for Bioinformatics

Uploaded by

Lecture2-DataMining for Bioinformatics

Uploaded by

Data Mining for

You might also like