Distributed Query Processing

The document discusses distributed query processing. It describes how distributed queries extend centralized query processing to account for factors like network communication costs and data partitioning across multiple sites. Some key techniques for distributed query execution include row blocking to batch data transfers, multi-cast optimization to reduce communication costs, and semi-joins to minimize data shipped between sites during joins.

Uploaded by

Afaq Ahmad

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PPTX, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

57 views17 pages

Distributed Query Processing

Uploaded by

Afaq Ahmad

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PPTX, PDF, TXT or read online on Scribd

You are on page 1/ 17

Distributed Query Processing

Group Members
M. Arslan BCS07183033
Adnan Ali BCS07183037
Amina Sajid BCS07183040
Motivation
• Cost and scalability: network of off-shelf
machines
• Integration of different software vendors
(with own DBMS)
• Integration of legacy systems
• Applications inherently distributed, such as
workflow or collaborative-design
• State-of-the-art distributed information
technologies (e-businesses)
Distribute Query Processing
• Query Processing Basics
– centralized query processing
– distributed query processing
Problem Statement
• Input: Query such as „Biological objects in
study A referenced in a literature in journal Y“.
• Output: Answer
• Objectives:
– response time, throughput, first answers, little IO, ...
• Centralized vs. Distributed Query Processing
– same basic problem
– but, more and different parameters, such(data sites
or available machine power) and objectives
Steps in Query Processing
• Input: Declarative Query
– SQL, XQuery, ...
• Step 1: Translate Query into Algebra
– Tree of operators (query plan generation)
• Step 2: Optimize Query
– Tree of operators (logical) - also select partitions of table
– Tree of operators (physical) – also site annotations
– (Compilation)
• Step 3: Execution
– Interpretation; Query result generation
Algebra
A.d
A.a =
SELECT A.d
B.b,
FROM A, B
A.c =
WHERE A.a = B.b
35
AND A.c = 35 X

A B

– relational algebra for SQL very well understood

– algebra for XQuery mostly understood
Query Optimization
A.d A.d
A.a =
B.b,
hashjoin
A.c =
35
X B.b

index
A B B
A.c

– logical, e.g., push down cheap predicates

– enumerate alternative plans, apply cost model
– use search heuristics to find cheapest plan
Basic Query Optimization
• Classical Dynamic Programming algorithm
– Performs join order optimization
– Input : Join query on n relations
– Output : Best join order
Query Execution
John
A.d
(John, 35, CS)
hashjoin (CS)
(AS)
(John, 35, CS) B.b
(Mary, 35, EE) (Edinburgh, CS,5.0)
(Edinburgh, AS, 6.0)
index
B
A.c
– library of operators (hash join, merge join, ...)
– exploit indexes and clustering in database
– pipelining (iterator model)
Summary : Centralized Queries
• Basic SQL (SPJG, nesting) well understood
• Very good extensibility
– spatial joins, time series, UDF, xquery, etc.
• Current problems
– Better statistics : cost model for optimization
– Physical database design expensive & complex
• Some Trends
– interactiveness during execution
– approximate answers, top-k
– self-tuning capabilities (adaptive; robust; etc.)
Distributed Query Processing: Basics
• Idea:
Extension of centralized query processing. (System
R* et al. in 80s)
• What is different?
– extend physical algebra: send&receive operators
– other metrics : optimize for response time
– resource vectors, network interconnect matrix
– caching and replication
– less predictability in cost model (adaptive algos)
– heterogeneity in data formats and data models
Issues in Distributed Databases
• Plan enumeration
– The time and space complexity of traditional dynamic
programming algorithm is very large
– Iterative Dynamic Programming (heuristic for large
queries)
• Cost Models
– Classic Cost Model
– Response Time Model
– Economic Models
Query Execution Techniques for
Distributed Databases
• Row Blocking
• Multi-cast optimization
• Multi-threaded execution
• Joins with horizontal partitioning
• Semi joins
• Top n queries
Query Execution Techniques for DD

• Row Blocking –
– SEND and RECEIVE operators in query plan
to model communication
– Implemented by TCP/IP, UDP, etc.
– Ship tuples in block-wise fashion (batch);
smooth burstiness
Query Execution Techniques for DD
• Multi-cast Optimization
– Location of sending/receiving may affect
communication costs; forwarding versus multi-casting
• Multi-threaded execution
– Several threads for operators at the same site (intra-
query parallelism)
– May be useful to enable concurrent reads for diverse
machines (while continuing query processing)
– Must consider if resources warrant concurrent operator
execution (say two sorts each needing all memory)
Query Execution Techniques for DD
• Joins with Data (horizontal) partitioning:
– Hash-based partitioning to conduct joins on independent partitions
• Semi Joins :
– Reduce communication costs; Send only “join keys” instead of
complete tuples to the site to extract relevant join partners
• Double-pipelined hash joins :
– Non-blocking join operators to deliver first results quickly; fully
exploit pipelined parallelism, and reduce overall response time
• Top n queries :
– Isloate top n tuples quickly and only perform other expensive
operations (like sort, join, etc) on those few (use “stop” operators)

Lect#2 DDBS (Characteristics and Layers of Query Processing)
80% (10)
Lect#2 DDBS (Characteristics and Layers of Query Processing)
20 pages
Distributed Query Processing
No ratings yet
Distributed Query Processing
31 pages
Distributed Query Processing
No ratings yet
Distributed Query Processing
24 pages
Vu Lec 30
No ratings yet
Vu Lec 30
28 pages
Chapter 8
No ratings yet
Chapter 8
65 pages
SF8 - Unit 2 DDB
No ratings yet
SF8 - Unit 2 DDB
97 pages
CSE 453 Slide 3
No ratings yet
CSE 453 Slide 3
72 pages
Unit II QUERY PROCESSING AND DECOMPOSITION
No ratings yet
Unit II QUERY PROCESSING AND DECOMPOSITION
24 pages
Chapter 5: Overview of Query Processing
No ratings yet
Chapter 5: Overview of Query Processing
18 pages
Chapter 8
No ratings yet
Chapter 8
65 pages
4 2 Query - Processing
No ratings yet
4 2 Query - Processing
106 pages
Adaptive Query Processing
No ratings yet
Adaptive Query Processing
140 pages
4-Query - Processing (1) - PTIT
No ratings yet
4-Query - Processing (1) - PTIT
72 pages
Query Optimization
No ratings yet
Query Optimization
29 pages
QueryProcessing Lect 3
No ratings yet
QueryProcessing Lect 3
26 pages
DDB Lec 4 PDF
No ratings yet
DDB Lec 4 PDF
69 pages
L04 Query Processing
No ratings yet
L04 Query Processing
19 pages
DDP ch7
No ratings yet
DDP ch7
1 page
Lecture5 - Query - Processing 1
No ratings yet
Lecture5 - Query - Processing 1
23 pages
07.overview of Query Processing
No ratings yet
07.overview of Query Processing
35 pages
Distributed Query Optimization: Oscar Romero Alberto Abelló Gamazo
No ratings yet
Distributed Query Optimization: Oscar Romero Alberto Abelló Gamazo
44 pages
Distributed Databases Data Warehousing: CPS 216 Advanced Database Systems
No ratings yet
Distributed Databases Data Warehousing: CPS 216 Advanced Database Systems
11 pages
Outline: Distributed Query Processing
No ratings yet
Outline: Distributed Query Processing
8 pages
Query Processing
No ratings yet
Query Processing
28 pages
Query Processing Overview
No ratings yet
Query Processing Overview
16 pages
6-Query Intro
No ratings yet
6-Query Intro
15 pages
Unit VIII - Query Processing and Security
No ratings yet
Unit VIII - Query Processing and Security
29 pages
Distibuted System
No ratings yet
Distibuted System
11 pages
Query Processing
No ratings yet
Query Processing
121 pages
Chapter 2 Adb
No ratings yet
Chapter 2 Adb
21 pages
ADB - Unit - III (Chapter-2) - Query Processing and Decomposition
No ratings yet
ADB - Unit - III (Chapter-2) - Query Processing and Decomposition
42 pages
Module 1 - Query Processing
No ratings yet
Module 1 - Query Processing
20 pages
Query Proc Notes
No ratings yet
Query Proc Notes
10 pages
Query Processing Concepts
No ratings yet
Query Processing Concepts
99 pages
2 Chapter 3 Query Optimization
No ratings yet
2 Chapter 3 Query Optimization
29 pages
Query
No ratings yet
Query
13 pages
Adbms Notes
No ratings yet
Adbms Notes
17 pages
Query
No ratings yet
Query
104 pages
Chapter 5
No ratings yet
Chapter 5
45 pages
Chapter 2 - Query Processing and Optimization
100% (1)
Chapter 2 - Query Processing and Optimization
28 pages
Ivunit Query Processing
No ratings yet
Ivunit Query Processing
12 pages
CH 02
No ratings yet
CH 02
127 pages
Query Optimization
No ratings yet
Query Optimization
103 pages
Layers of Query Processing
No ratings yet
Layers of Query Processing
11 pages
Chapter 4 Query Optimization
100% (2)
Chapter 4 Query Optimization
35 pages
4 Query Processing
No ratings yet
4 Query Processing
79 pages
Distributed Query Processing +
No ratings yet
Distributed Query Processing +
19 pages
Chapter 2
No ratings yet
Chapter 2
47 pages
2 Algorithms For Query Processing Optimization
No ratings yet
2 Algorithms For Query Processing Optimization
46 pages
Query Processing Questions and Explanation
No ratings yet
Query Processing Questions and Explanation
8 pages
Query Processing
No ratings yet
Query Processing
5 pages
Chapter 1 Query Processing and Optimization
No ratings yet
Chapter 1 Query Processing and Optimization
129 pages
Ch-9 Multidatabase Query Processing
No ratings yet
Ch-9 Multidatabase Query Processing
46 pages
Distributed Query Processing
No ratings yet
Distributed Query Processing
3 pages
Unit-4 DBMS Merged
No ratings yet
Unit-4 DBMS Merged
156 pages
DDBS Unit 2
No ratings yet
DDBS Unit 2
7 pages
1 Query Processing
No ratings yet
1 Query Processing
4 pages
Advanced Database System Chapter Three Query Processing and Optimization
No ratings yet
Advanced Database System Chapter Three Query Processing and Optimization
94 pages
Couchbase Certified Java Developer - Exam Practice Tests
From Everand
Couchbase Certified Java Developer - Exam Practice Tests
Cristian Scutaru
No ratings yet
The Tech Interview Playbook: From DSA to System Design
From Everand
The Tech Interview Playbook: From DSA to System Design
Chinmoy Mukherjee
No ratings yet
6th International Conference On NLP & Artificial Intelligence Techniques (NLAI 2025)
No ratings yet
6th International Conference On NLP & Artificial Intelligence Techniques (NLAI 2025)
3 pages
Deep Learning Thesis Topics
100% (3)
Deep Learning Thesis Topics
5 pages
Jurnal
No ratings yet
Jurnal
19 pages
Semantic Search
No ratings yet
Semantic Search
9 pages
SachidanandaPanigrahi CV
No ratings yet
SachidanandaPanigrahi CV
3 pages
Business Data Mining - Syllabus7675535
No ratings yet
Business Data Mining - Syllabus7675535
1 page
GIKI BootCamp
No ratings yet
GIKI BootCamp
4 pages
cs311 Sample Paper by ???? ???? ??'? CH
No ratings yet
cs311 Sample Paper by ???? ???? ??'? CH
9 pages
AIP491 SP23AI08 Capstone Project Report
No ratings yet
AIP491 SP23AI08 Capstone Project Report
91 pages
(IEEE) The Role of Cognition in Information Security (2020)
No ratings yet
(IEEE) The Role of Cognition in Information Security (2020)
2 pages
Department Library Managment System Report
No ratings yet
Department Library Managment System Report
29 pages
Database Management Systems Unit-1
100% (1)
Database Management Systems Unit-1
5 pages
Do Llms Understand User Preferences? Evaluating Llms On User Rating Prediction
No ratings yet
Do Llms Understand User Preferences? Evaluating Llms On User Rating Prediction
11 pages
NLP - Module 5
No ratings yet
NLP - Module 5
58 pages
Chapter 7dm Cubes 1
No ratings yet
Chapter 7dm Cubes 1
37 pages
Cit208 Calculus Educational Consult Eze-Ego QQQZZZW Updated
No ratings yet
Cit208 Calculus Educational Consult Eze-Ego QQQZZZW Updated
31 pages
Neha Resume-1
No ratings yet
Neha Resume-1
3 pages
Image Caption Generator Using AI: Review - 1
No ratings yet
Image Caption Generator Using AI: Review - 1
9 pages
Cognizant
No ratings yet
Cognizant
4 pages
DBMS Viva Questions With Answers
No ratings yet
DBMS Viva Questions With Answers
3 pages
BD Cad Classifier Ds
No ratings yet
BD Cad Classifier Ds
2 pages
Audit in Cis Module
No ratings yet
Audit in Cis Module
24 pages
Cyber Threat Detection Synopsis
No ratings yet
Cyber Threat Detection Synopsis
14 pages
Database Management System Notes - TutorialsDuniya
No ratings yet
Database Management System Notes - TutorialsDuniya
108 pages
Lecture 1.1.2 (File Based System)
No ratings yet
Lecture 1.1.2 (File Based System)
16 pages
Copy of Math Lesson Google Slides Theme by SlideWin
No ratings yet
Copy of Math Lesson Google Slides Theme by SlideWin
29 pages
Scribd
No ratings yet
Scribd
3 pages
Knowledge Management
No ratings yet
Knowledge Management
3 pages
20 Monitoring and Evaluation Tools
No ratings yet
20 Monitoring and Evaluation Tools
3 pages
Int 306
No ratings yet
Int 306
19 pages

Distributed Query Processing

Uploaded by

Distributed Query Processing

Uploaded by

Distributed Query Processing

– relational algebra for SQL very well understood

– logical, e.g., push down cheap predicates

You might also like