0% found this document useful (0 votes)

16 views11 pages

NoSQL - Unit 2

Nosql db notes

Uploaded by

yashwanthchandolu11

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

16 views11 pages

NoSQL - Unit 2

Nosql db notes

Uploaded by

yashwanthchandolu11

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 11

U2

Distribution Models

Definition: Techniques to optimize data distribution

across multiple servers or nodes for better performance,
availability, and scalability.

Achieved through:
Sharding: Data partitioned into smaller chunks across
multiple nodes.
Replication: Copying data across nodes for fault
tolerance and high availability.
Master-Slave
Peer-to-peer
Sharding: Horizontal partitioning of data across multiple
servers to scale and distribute the load efficiently.

How:
Split large datasets into shards, each stored on a
different node.
Sharding criteria can be based on user ID, region,
date, or other attributes.
Data locality: Helps distribute data closer to where it's
needed (e.g., geographical sharding).

Key Aspects:
Shard Key: A specific field used to divide the data
(e.g., customer ID, product ID).
Uniform Distribution: Ideally, shards should be evenly
distributed to avoid hot spots.
Global Indexing: Maintains a global index that helps to
locate data across shards.

Advantages:
Scalability
Performance: Parallel access to different data parts
improves throughput.
Fault Isolation: Failure of one shard doesn’t affect
others.

Challenges:
Data Rebalancing: Adding/removing shards requires
migrating data.
Consistency
Query Complexity across multiple shards may impact
performance.
Master-Slave Replication
One master node holds authoritative data, while slave
nodes replicate the data for read scalability and fault
tolerance.

How:
Master: Handles write operations (INSERT, UPDATE).
Slaves: Replicas that handle read queries.
Synchronous vs Asynchronous replication based on
latency and consistency needs.

Key Aspects:
Replication Lag: Asynchronous replication can
introduce a delay in data synchronization.
Failover Mechanism: In case of master failure, a slave
can be promoted to master.
Eventual Consistency: Slaves may not have the most
up-to-date data immediately after write operations.

Advantages:
Read Scalability
Fault Tolerance: Automatic failover in case of master
failure (with proper configuration).
Simple Architecture

Challenges:
Write Bottleneck: Master can become a bottleneck for
write-heavy workloads.
Replication Lag: May cause temporary data
inconsistency between master and slaves.
Single Point of Failure: If master fails and no failover
mechanism is in place, writes are blocked.
Peer-to-Peer Replication
Every node (peer) is equal, with no central master. All
nodes handle both reads and writes.

How:
Distributed Sync: Data is synchronized across all
nodes, and each peer can handle both read and write
operations.
Conflict Resolution: Conflicts (e.g., same data
modified in two nodes) are resolved using
mechanisms like versioning or last-write-wins.

Key Aspects:
Decentralized: No central master, and all peers
communicate directly.
Conflict Handling: Must ensure data consistency
through advanced techniques (e.g., vector clocks).
Eventual Consistency: Peers may not have the same
data immediately after updates.

Advantages:
Fault Tolerance: No SPOF
High Availability
Load Distribution: Equal distribution of read and write
operations across peers.

Challenges:
Data Consistency
Conflict Management: Requires efficient mechanisms
to resolve conflicts when peers have conflicting
updates.
Network Overhead
Sharding + Replication
Combining sharding (data partitioning) and replication
(data duplication) for scalable, fault-tolerant distributed
systems.

How:
Sharding: Splits data across multiple nodes based on
a shard key (e.g., customer ID).
Replication: Each shard is replicated on multiple
nodes to provide fault tolerance and high availability.
Partitioning & Replication: Partitioning data (sharding)
ensures scalability, while replication ensures data
availability and fault tolerance.

Key Aspects:
Data Redundancy
Consistency Model: Ensures consistency (often
eventual consistency) across shards and replicas.
Fault Isolation

Advantages:
Scalability
Availability
Improved Performance: Load balancing between
shards and replicas for both read and write
operations.

Challenges:
Complexity in Management: Managing both sharding
and replication requires careful planning
Data Synchronization
Rebalancing: Data may need to be redistributed
across shards as the system scales
Consistency & Relaxing Consistency

Consistency: Ensures all nodes have the same data after

an update operation.
Types:
i. Strong Consistency: Immediate synchronization;
all clients see updated data.
ii. Eventual Consistency: Updates propagate
asynchronously; all replicas converge eventually.
iii. Causal Consistency: Updates maintain a cause-
effect order.

Relaxing Consistency: Sacrificing immediate

synchronization for scalability/performance.
Techniques:
Eventual Consistency: Used in distributed systems
(e.g., DynamoDB, Cassandra).
Quorum Reads/Writes: Ensures consistency only
for a subset of nodes.
Trade-offs:
↑ Availability & performance.
↓ Consistency guarantees.
CAP Theorem

A distributed system can only achieve two out of three:

Consistency (C): All nodes see the same data
simultaneously.
Availability (A): System continues to operate despite
failures.
Partition Tolerance (P): System functions despite
network partition.

Scenarios:
CA Systems: No partition tolerance; suited for single-
node systems (e.g., RDBMS).
AP Systems: No strong consistency; common in geo-
distributed systems (e.g., DNS).
CP Systems: Sacrifice availability during partition
(e.g., MongoDB).

Applications: Helps design systems based on trade-offs.

Version Stamps

Concept: Identifiers for tracking changes/versioning in

distributed systems.

Purpose:
Detect conflicts in updates.
Enable reconciliation in peer-to-peer or eventually
consistent systems.

Types:
Logical Timestamps: Tracks order of events (Lamport
timestamps).
Vector Clocks: Tracks causal relationships between
updates.

Applications:
Conflict detection in distributed databases.
Version control systems (e.g., Git).

Challenges:
↑ Overhead in managing clocks.
Resolving conflicting timestamps.
Map-Reduce

Concept: Framework for parallel processing of large

datasets using clusters.

Steps:
Map: Input data → key-value pairs.
Shuffle: Group data by keys across nodes.
Reduce: Combine values with the same key to
produce results.

Key Features:
Parallel processing using mappers/reducers.
Fault Tolerance: Re-runs failed tasks.
Data locality minimizes network transfer.

Use Cases: Analytics, indexing, log processing (e.g.,

Hadoop, Spark).

Challenges: Not ideal for iterative algorithms or real-time

processing.
Partitioning & Combining

Partitioning: Splitting data into logical chunks for parallel

processing.
Based on key-value mapping (e.g., hash partitioning).
Enables distributed reduce operations.

Combining: Reduces data at mapper stage before

shuffling.
Minimizes data transfer across nodes.
Example: Pre-aggregating sales data per product on
mapper nodes.

Applications:
Scaling computations across clusters.
Efficient large-scale data processing.

Challenges:
Non-combinable reducers (e.g., counting unique
elements).
Balancing partitions for equal load distribution.
Composing Map-Reduce Calculations

Concept: Combining multiple Map-Reduce stages for

complex computations.
Process:
Output of one stage → Input for the next (e.g., pipes-
and-filters model).
Example:
Task: Compare monthly sales year-over-year.
Stage 1: Aggregate sales per product per month.
Stage 2: Compare results of each month for
consecutive years.
Advantages:
Reusability: Intermediate outputs useful for other
tasks.
Scalability: Breaks down complex logic into smaller,
manageable stages.
Materialized views improve efficiency.
Tools: Apache Pig (simplified Map-Reduce), Hive (SQL-like
interface)

BMC Remedy AR Systems 8.1.00 Online Documentation PDF
No ratings yet
BMC Remedy AR Systems 8.1.00 Online Documentation PDF
4,492 pages
SOLIDserver Administrator Guide-6.0.2
50% (2)
SOLIDserver Administrator Guide-6.0.2
1,284 pages
Ebook - Cracking The System Design Interview Course
100% (2)
Ebook - Cracking The System Design Interview Course
91 pages
Ch02 - Big Data Storage Concepts
No ratings yet
Ch02 - Big Data Storage Concepts
23 pages
Exploring Hadoop Ecosystem (Volume 2): Stream Processing
From Everand
Exploring Hadoop Ecosystem (Volume 2): Stream Processing
Wei Liu
No ratings yet
LPC1768 ADC Programming Tutorial
No ratings yet
LPC1768 ADC Programming Tutorial
11 pages
1.install ASM Using ASMLib 19c
No ratings yet
1.install ASM Using ASMLib 19c
49 pages
User Id Create For Active Directory - SOP
50% (2)
User Id Create For Active Directory - SOP
4 pages
Lab 5 - Using The Nmap Scripting Engine (NSE) and Metasploit To Exploit Windows XP
100% (1)
Lab 5 - Using The Nmap Scripting Engine (NSE) and Metasploit To Exploit Windows XP
9 pages
Module 2
No ratings yet
Module 2
36 pages
Lec 3 - Basic Concepts
No ratings yet
Lec 3 - Basic Concepts
32 pages
NoSQL - Unit2
No ratings yet
NoSQL - Unit2
8 pages
NoSQL Databases UNIT-2
No ratings yet
NoSQL Databases UNIT-2
29 pages
Big Data Management and Nosql Databases: Doc. Rndr. Irena Holubova, PH.D
No ratings yet
Big Data Management and Nosql Databases: Doc. Rndr. Irena Holubova, PH.D
27 pages
Nosql Mod2
No ratings yet
Nosql Mod2
25 pages
Module 2
No ratings yet
Module 2
40 pages
NoSQL M2
No ratings yet
NoSQL M2
47 pages
Nosql Systems: Sharding, Replication and Consistency: Riccardo Torlone Università Roma Tre
No ratings yet
Nosql Systems: Sharding, Replication and Consistency: Riccardo Torlone Università Roma Tre
28 pages
Nosql 1
No ratings yet
Nosql 1
40 pages
Unit - 1 Part - 2
No ratings yet
Unit - 1 Part - 2
12 pages
DRKP Module 2 1
No ratings yet
DRKP Module 2 1
77 pages
Chapter 1 Introduction
No ratings yet
Chapter 1 Introduction
48 pages
Module 2 Nosql
No ratings yet
Module 2 Nosql
10 pages
NoSQL Module 2
No ratings yet
NoSQL Module 2
76 pages
Mathina BDA
No ratings yet
Mathina BDA
11 pages
BDA CH 2 (StorageConcepts)
No ratings yet
BDA CH 2 (StorageConcepts)
33 pages
Class 7 - Scaling, Sharding, Consistent Hashing
No ratings yet
Class 7 - Scaling, Sharding, Consistent Hashing
4 pages
Dynamo: Amazon'S Highly Available Key-Value Store: Csci 8101: Advanced Operating Systems Presented By: Chaithra KN
No ratings yet
Dynamo: Amazon'S Highly Available Key-Value Store: Csci 8101: Advanced Operating Systems Presented By: Chaithra KN
23 pages
Distribution Model
100% (1)
Distribution Model
24 pages
2 NoSQL Databases Principles
No ratings yet
2 NoSQL Databases Principles
58 pages
Nosql Module 2
100% (1)
Nosql Module 2
87 pages
Nosql Data Management
No ratings yet
Nosql Data Management
13 pages
CH-07 Replication
No ratings yet
CH-07 Replication
35 pages
Lec21Notes Merged
No ratings yet
Lec21Notes Merged
20 pages
III Sharding Strategies
No ratings yet
III Sharding Strategies
30 pages
Unit 4
No ratings yet
Unit 4
13 pages
Big Data Storage Concepts
No ratings yet
Big Data Storage Concepts
31 pages
A Thorough Introduction To Distributed Systems
No ratings yet
A Thorough Introduction To Distributed Systems
31 pages
Gcru 2 Nosql
No ratings yet
Gcru 2 Nosql
52 pages
Nosql Databases
No ratings yet
Nosql Databases
379 pages
Module 2 Final
No ratings yet
Module 2 Final
39 pages
System Design
No ratings yet
System Design
385 pages
Irs Unit-4
No ratings yet
Irs Unit-4
19 pages
Big Data IN A Gist
No ratings yet
Big Data IN A Gist
16 pages
Chapter 4 1712934164766
No ratings yet
Chapter 4 1712934164766
28 pages
SDA Presentation
No ratings yet
SDA Presentation
12 pages
Assignment2 CCL 24
No ratings yet
Assignment2 CCL 24
9 pages
Distributed Systems Practitioners Dimos Raptis Raspoznan
No ratings yet
Distributed Systems Practitioners Dimos Raptis Raspoznan
259 pages
Unit I
No ratings yet
Unit I
17 pages
unit3 dbms
No ratings yet
unit3 dbms
17 pages
6q9k5yndkd9j-SDE DF400 020 Full Deck
No ratings yet
6q9k5yndkd9j-SDE DF400 020 Full Deck
81 pages
Introduction To Distributed Systems
No ratings yet
Introduction To Distributed Systems
9 pages
ICS 408 Exam A
No ratings yet
ICS 408 Exam A
5 pages
Lecture 8
No ratings yet
Lecture 8
14 pages
Fault Tolerance Unit 3-4
No ratings yet
Fault Tolerance Unit 3-4
32 pages
Important System Design Concepts - Shumbul Arifa
No ratings yet
Important System Design Concepts - Shumbul Arifa
36 pages
Assignment Systems2023
100% (3)
Assignment Systems2023
11 pages
Nosql M2-P1-P2
No ratings yet
Nosql M2-P1-P2
75 pages
Module 2 Nosql
No ratings yet
Module 2 Nosql
31 pages
Module-2 NOSQL
No ratings yet
Module-2 NOSQL
5 pages
Data Engineering Unit 3
No ratings yet
Data Engineering Unit 3
4 pages
0zI2XrFJX5tR CjuECI f5HwGdQkpL8DAkTmwDPyFm3H0eCERMEvG9fH
No ratings yet
0zI2XrFJX5tR CjuECI f5HwGdQkpL8DAkTmwDPyFm3H0eCERMEvG9fH
13 pages
Designs and Issues
No ratings yet
Designs and Issues
3 pages
CC Unit 3
No ratings yet
CC Unit 3
19 pages
Big Data Slides
No ratings yet
Big Data Slides
26 pages
Consistency Models in Distributed Systems
No ratings yet
Consistency Models in Distributed Systems
1 page
NoSQL - U1
No ratings yet
NoSQL - U1
8 pages
CSIT B Project Work Details
No ratings yet
CSIT B Project Work Details
2 pages
Tech Mahindra 3rd Round Student List
No ratings yet
Tech Mahindra 3rd Round Student List
3 pages
CSIT B - Project Work-First Review Presentation Schedule-Circular
No ratings yet
CSIT B - Project Work-First Review Presentation Schedule-Circular
3 pages
Undertaking - Students (Attendance)
No ratings yet
Undertaking - Students (Attendance)
1 page
What Is Software Testing
No ratings yet
What Is Software Testing
7 pages
SMS Modem User Manual
No ratings yet
SMS Modem User Manual
21 pages
Aspera File Transfer Level 2 Quiz - Attempt Review
No ratings yet
Aspera File Transfer Level 2 Quiz - Attempt Review
12 pages
HP Pavilion Desktop TP01-1126d - Compressed
No ratings yet
HP Pavilion Desktop TP01-1126d - Compressed
2 pages
6 Bacnet Interface - Easylab: Analog Value Objects
No ratings yet
6 Bacnet Interface - Easylab: Analog Value Objects
1 page
HP All-In-One 1.4.3 & ProLiant Storage Server
No ratings yet
HP All-In-One 1.4.3 & ProLiant Storage Server
18 pages
Full Download Transactions On Pattern Languages of Programming IV James Noble PDF
No ratings yet
Full Download Transactions On Pattern Languages of Programming IV James Noble PDF
55 pages
Red Hat Enterprise Linux 6 Deployment Guide en US
No ratings yet
Red Hat Enterprise Linux 6 Deployment Guide en US
809 pages
DSP Mod 6
No ratings yet
DSP Mod 6
6 pages
Historian 2020 CSP Exam LMSP 1
No ratings yet
Historian 2020 CSP Exam LMSP 1
7 pages
DX Diag
No ratings yet
DX Diag
34 pages
Datasheet Ultimate Su650 25 Inch Sata SSD 20230620
No ratings yet
Datasheet Ultimate Su650 25 Inch Sata SSD 20230620
2 pages
MANUALj
No ratings yet
MANUALj
42 pages
OmniPCX Office - IP Port Use
No ratings yet
OmniPCX Office - IP Port Use
10 pages
Module 5 Notes Bcs302
No ratings yet
Module 5 Notes Bcs302
22 pages
Acer 4750-4752-4755 JE40-HR (UMA Discrete) 10267-1
No ratings yet
Acer 4750-4752-4755 JE40-HR (UMA Discrete) 10267-1
102 pages
All Programs List
No ratings yet
All Programs List
8 pages
CB-Abbreviation of Computer Related Word by - by Tanbircox
No ratings yet
CB-Abbreviation of Computer Related Word by - by Tanbircox
82 pages
Transport Layer Protocols and Services: October 2016
No ratings yet
Transport Layer Protocols and Services: October 2016
5 pages
Question Papers of Computer Communication Networks
100% (2)
Question Papers of Computer Communication Networks
32 pages
Clevo m350c m360c m361c m362c SM
No ratings yet
Clevo m350c m360c m361c m362c SM
128 pages
LSS CANopen en
No ratings yet
LSS CANopen en
4 pages
2018 06 28 Perimeta ClearIP Inbound Scenario Configuration Guide 73b8e3be72
No ratings yet
2018 06 28 Perimeta ClearIP Inbound Scenario Configuration Guide 73b8e3be72
14 pages
Power Off Reset Reason Backup
No ratings yet
Power Off Reset Reason Backup
5 pages

NoSQL - Unit 2

Uploaded by

NoSQL - Unit 2

Uploaded by

U2

Definition: Techniques to optimize data distribution

Consistency: Ensures all nodes have the same data after

Relaxing Consistency: Sacrificing immediate

A distributed system can only achieve two out of three:

Applications: Helps design systems based on trade-offs.

Concept: Identifiers for tracking changes/versioning in

Concept: Framework for parallel processing of large

Use Cases: Analytics, indexing, log processing (e.g.,

Challenges: Not ideal for iterative algorithms or real-time

Partitioning: Splitting data into logical chunks for parallel

Combining: Reduces data at mapper stage before

Concept: Combining multiple Map-Reduce stages for

You might also like