DA Assignment 20241015 091512 0000

Da assignment

Uploaded by

chittimallasaidulu3

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

10 views19 pages

DA Assignment 20241015 091512 0000

Da assignment

Uploaded by

chittimallasaidulu3

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 19

DESIGN ANALYTICS

1.Data Reduction as a Data Pre-

processing
1. Improved Efficiency: Reduces
the amount of data to be
processed, speeding up analysis.
2. Memory Management: Helps in
fitting large datasets into
memory for analysis.
3. Enhanced Interpretability:
Simplifies data, making it easier
to visualize and understand.
4. Noise Reduction: Eliminates
redundant or irrelevant data,
improving model accuracy.
5. Scalability: Facilitates the
handling of larger datasets by
compressing them into smaller,
manageable forms.

2. Identifying Data Quality and

Quality Measures
1. Accuracy: Ensures data values
are correct and reliable.
2. Completeness: Measures the
extent to which all required data
is present.
3. Consistency: Checks for
uniformity of data across
different sources and systems.
4. Timeliness: Evaluates whether
data is up-to-date and available
when needed.
5. Uniqueness: Assesses the
presence of duplicates to
maintain data integrity.

3. Various Analytics Techniques

1. Descriptive Analytics:
Summarizes historical data to
understand past performance.
2. Inferential Analytics: Makes
predictions or generalizations
about a population based on a
sample.
3. Predictive Analytics: Uses
historical data to forecast future
outcomes and trends.
4. Prescriptive Analytics:
Recommends specific actions
based on data-driven insights.
5. Exploratory Data Analysis
(EDA): Investigates datasets to
discover patterns and
relationships.

4. Data Imputation Techniques

1. Mean/Median/Mode
Imputation: Replaces missing
values with statistical measures
of central tendency.
2. K-Nearest Neighbors (KNN):
Estimates missing values based
on the values of similar data
points.
3. Regression Imputation:
Predicts missing values using
regression models based on
other variables.
4. Multiple Imputation: Creates
multiple datasets with different
imputed values to reflect
uncertainty.
5. Last Observation Carried
Forward (LOCF): Uses the last
observed value to fill in missing
data for time series.

5. Need for Business Modeling

1. Strategic Alignment: Ensures
business processes support
overall organizational goals.
2. Operational Efficiency:
Identifies inefficiencies and
streamlines processes for better
performance.
3. Enhanced Decision-Making:
Provides a clear framework for
analyzing data and making
informed decisions.
4. Risk Management: Helps in
identifying potential risks and
formulating mitigation strategies.
5. Communication Tool: Acts as a
visual representation to facilitate
communication among
stakeholders.

6. a) Apache Spark
1. Unified Engine: Supports batch
processing, streaming, machine
learning, and graph processing.
2. In-Memory Processing: Offers
faster data processing by storing
data in memory rather than on
disk.
3. Scalability: Easily scales across
clusters of computers for
handling large datasets.
4. Support for Multiple
Languages: Compatible with
Python, Java, Scala, and R.
5. Extensive Libraries: Includes
built-in libraries for SQL,
machine learning (MLlib), and
graph processing (GraphX).
6. b) Cloudera Impala
1. SQL-Based Engine: Allows
users to run SQL queries on large
datasets in Hadoop.
2. Low Latency: Designed for fast
query execution, enabling real-
time analytics.
3. Integration with Hadoop:
Works seamlessly with HDFS and
HBase for efficient data access.
4. Columnar Storage: Optimizes
performance by storing data in a
columnar format.
5. Compatibility: Supports
various BI tools for data
visualization and reporting.

7. What is Data? Handling Large

Collections of Data
1. Definition: Data is a collection
of facts, statistics, or information
that can be analyzed.
2. Types of Data: Includes
structured, unstructured, and
semi-structured data.
3. Storage Solutions: Utilizes
databases (SQL/NoSQL) for
effective data storage and
retrieval.
4. Distributed Processing:
Employs frameworks like Hadoop
and Spark for large-scale data
processing.
5. Data Pipeline Management:
Implements ETL (Extract,
Transform, Load) processes to
handle data flows efficiently.

8. Constraints and Influences on

Data Architecture Design
1. Data Volume: High data
volumes require scalable storage
solutions.
2. Data Variety: Diverse data
types necessitate flexible and
adaptable architecture.
3. Data Velocity: Real-time data
processing needs impact design
choices.
4. Compliance Regulations: Legal
and regulatory requirements
influence data governance and
security measures.
5. Technology Trends: Emerging
technologies can shape
architectural decisions for
efficiency and innovation.
9. Analytics Applications in
Various Business Domains
1. Healthcare: Analyzes patient
data for improved treatment
outcomes and operational
efficiency.
2. Finance: Risk assessment and
fraud detection using historical
transaction data.
3. Retail: Customer behavior
analysis for targeted marketing
and inventory management.
4. Manufacturing: Predictive
maintenance to minimize
equipment downtime and
improve production efficiency.
5. Telecommunications: Churn
prediction to retain customers
and optimize service offerings.

10. Data Management and Steps in

Data Analysis
1. Definition: Data management
encompasses practices for
collecting, storing, and using
data securely and efficiently.
2. Data Collection: Gathering
relevant data from various
sources.
3. Data Cleaning: Identifying and
correcting errors and
inconsistencies in the dataset.
4. Data Exploration:
Understanding data
characteristics through
visualizations and summary
statistics.
5. Data Interpretation: Analyzing
results to draw meaningful
conclusions and inform
decisions.

11. Applications of Data Modeling

in Business
1. Database Design: Structuring
data for efficient storage and
retrieval.
2. Business Process Mapping:
Visualizing processes to identify
bottlenecks and improve
workflows.
3. Data Integration: Aligning data
from multiple sources for
comprehensive analysis.
4. Decision Support: Providing a
framework for analyzing data to
support strategic decisions.
5. Regulatory Compliance:
Ensuring data structures adhere
to industry regulations and
standards.

12. Differentiating SQL and NoSQL

1. Structure: SQL databases are
relational; NoSQL databases are
non-relational or semi-
structured.
2. Schema: SQL databases have
fixed schemas; NoSQL databases
allow flexible, dynamic schemas.
3. Query Language: SQL uses
Structured Query Language;
NoSQL uses various query
languages or APIs.
4. Data Integrity: SQL focuses on
ACID compliance; NoSQL often
prioritizes availability and
partition tolerance (CAP
theorem).
5. Scalability: SQL databases
typically scale vertically; NoSQL
databases are designed for
horizontal scaling.
13. Definition of Database and
Types
1. Database Definition: A
structured collection of data
stored electronically.
2. Relational Databases: Store
data in tables with predefined
schemas (e.g., MySQL, Oracle).
3. NoSQL Databases: Handle
unstructured or semi-structured
data; include document, key-
value, and graph databases (e.g.,
MongoDB, Cassandra).
4. Data Warehouses: Centralized
repositories designed for
analysis and reporting,
integrating data from multiple
sources.
5. Data Variables: Refer to
characteristics of the data, such
as categorical (qualitative) and
numerical (quantitative)
variables.

Questions: DDL Worksheet
No ratings yet
Questions: DDL Worksheet
3 pages
DF Disaster Recovery Plan
No ratings yet
DF Disaster Recovery Plan
40 pages
Module 1 & 2 DAEH QB
No ratings yet
Module 1 & 2 DAEH QB
69 pages
CSGW Tool User Manual: 2.1 Import From A CSV Format Points List File
No ratings yet
CSGW Tool User Manual: 2.1 Import From A CSV Format Points List File
5 pages
WT Unit-V
No ratings yet
WT Unit-V
22 pages
Competing Against Sangfor
No ratings yet
Competing Against Sangfor
3 pages
SRU ADA Unit-1
No ratings yet
SRU ADA Unit-1
50 pages
Data Communications and Networking by Wayne Tomasi6
25% (4)
Data Communications and Networking by Wayne Tomasi6
2 pages
DMT Unit1
No ratings yet
DMT Unit1
46 pages
BTech 5 CSE Data Analytics With Python Unit 2 and 3 Notes
No ratings yet
BTech 5 CSE Data Analytics With Python Unit 2 and 3 Notes
36 pages
Data Analytics Fundamentals
No ratings yet
Data Analytics Fundamentals
3 pages
DATA ANALYTICS
No ratings yet
DATA ANALYTICS
42 pages
BDA 02 - Fundamentals
No ratings yet
BDA 02 - Fundamentals
64 pages
Big Data Analytics Unit-1
100% (2)
Big Data Analytics Unit-1
5 pages
Untitled Document
No ratings yet
Untitled Document
21 pages
Data 101 Terms
No ratings yet
Data 101 Terms
6 pages
03 - BiNOX Overview & CLI
No ratings yet
03 - BiNOX Overview & CLI
21 pages
DA UNIT 1 & 2
No ratings yet
DA UNIT 1 & 2
44 pages
MariaDB - Tutorial For Beginners
No ratings yet
MariaDB - Tutorial For Beginners
37 pages
Data Structures & Algorithms: AVL Tree
No ratings yet
Data Structures & Algorithms: AVL Tree
20 pages
Unit-2
No ratings yet
Unit-2
22 pages
WT Unit-Iv
No ratings yet
WT Unit-Iv
37 pages
Manan1
No ratings yet
Manan1
65 pages
DA UNIT-I
No ratings yet
DA UNIT-I
19 pages
21 Expand Tree On Initial Render 169158
No ratings yet
21 Expand Tree On Initial Render 169158
5 pages
DA UNIT 2
No ratings yet
DA UNIT 2
18 pages
LZ4 Streaming Format
No ratings yet
LZ4 Streaming Format
12 pages
Archiving FP2
No ratings yet
Archiving FP2
40 pages
DA unit-II
No ratings yet
DA unit-II
15 pages
Data_Engineering_Part_1__1735286787
No ratings yet
Data_Engineering_Part_1__1735286787
22 pages
MBA Data Mining Unit 1 Notes
No ratings yet
MBA Data Mining Unit 1 Notes
12 pages
Database Systems Using Oracle SQL Developer Data Modeler To Build Erds Practices
No ratings yet
Database Systems Using Oracle SQL Developer Data Modeler To Build Erds Practices
3 pages
Devops Full Notes
No ratings yet
Devops Full Notes
220 pages
Web Hosting PDF
100% (2)
Web Hosting PDF
11 pages
Automatic Starter (Real Time Project)Sem[1]
No ratings yet
Automatic Starter (Real Time Project)Sem[1]
24 pages
21CS71 IMP
No ratings yet
21CS71 IMP
29 pages
UNIT-1_BigData
No ratings yet
UNIT-1_BigData
10 pages
Data_Analytics_Course_Summary
No ratings yet
Data_Analytics_Course_Summary
2 pages
unit II (3)
No ratings yet
unit II (3)
32 pages
business analytics iit
No ratings yet
business analytics iit
2 pages
DAA II Mid Important Questions
No ratings yet
DAA II Mid Important Questions
1 page
DSBDA EndSem2023 12F FlyHigh
No ratings yet
DSBDA EndSem2023 12F FlyHigh
20 pages
ISPFL9 Module1
100% (1)
ISPFL9 Module1
22 pages
DA
No ratings yet
DA
10 pages
Ch5 Big Data and Analytics Definitions
No ratings yet
Ch5 Big Data and Analytics Definitions
2 pages
Business Intelligence Notes
No ratings yet
Business Intelligence Notes
27 pages
Presentation 20
No ratings yet
Presentation 20
31 pages
It (r20) 4-1 Big Data Analytics Digital Notes
No ratings yet
It (r20) 4-1 Big Data Analytics Digital Notes
84 pages
BDA1-4 bunits
No ratings yet
BDA1-4 bunits
113 pages
unit 1 big data
No ratings yet
unit 1 big data
15 pages
R15a0530 Bda PDF
No ratings yet
R15a0530 Bda PDF
43 pages
Document (20)-1
No ratings yet
Document (20)-1
8 pages
Unit 1
No ratings yet
Unit 1
36 pages
Ca Easytrieve
No ratings yet
Ca Easytrieve
364 pages
VSAN Stretched Cluster & 2 Node Guide
No ratings yet
VSAN Stretched Cluster & 2 Node Guide
135 pages
Nva100 Mb0 Manual PR 0300
100% (1)
Nva100 Mb0 Manual PR 0300
63 pages
all questions
No ratings yet
all questions
7 pages
Lecture 2
No ratings yet
Lecture 2
14 pages
Da Unit Ii
No ratings yet
Da Unit Ii
25 pages
Grossary 6
No ratings yet
Grossary 6
7 pages
Unit1 Introduction To Data Analytics and Data Analytics Lifecycle Notes
No ratings yet
Unit1 Introduction To Data Analytics and Data Analytics Lifecycle Notes
13 pages
Advanced Database Concepts
No ratings yet
Advanced Database Concepts
7 pages
Unit_1.pptx
No ratings yet
Unit_1.pptx
57 pages
ecdl_exercises_module_1
No ratings yet
ecdl_exercises_module_1
13 pages
Pages From Alt Codes List of Alt Key Codes Symbols
No ratings yet
Pages From Alt Codes List of Alt Key Codes Symbols
6 pages
Data Analytics
No ratings yet
Data Analytics
30 pages
Unit 1 Introduction to Data Analytics
No ratings yet
Unit 1 Introduction to Data Analytics
20 pages
Code Will Sum-Up The Value of A Listview
No ratings yet
Code Will Sum-Up The Value of A Listview
4 pages
BUSINESS ANALYTICS NOTES
No ratings yet
BUSINESS ANALYTICS NOTES
31 pages
Cours Openerp v5
No ratings yet
Cours Openerp v5
124 pages
Heap Sort and Quick Sort-2
No ratings yet
Heap Sort and Quick Sort-2
54 pages
Data Management & Data Architecture
No ratings yet
Data Management & Data Architecture
21 pages
BDA Assignment 1: Big Data Features and Characteristics
No ratings yet
BDA Assignment 1: Big Data Features and Characteristics
14 pages
Data Warehouse
No ratings yet
Data Warehouse
10 pages
Data Processing
No ratings yet
Data Processing
5 pages
BATCH 8 ppt NEW 12
No ratings yet
BATCH 8 ppt NEW 12
12 pages
Super 25 Unit 1 and Unit 2 (1)
No ratings yet
Super 25 Unit 1 and Unit 2 (1)
15 pages
Reviewerku
No ratings yet
Reviewerku
6 pages
Access: Busn 216
No ratings yet
Access: Busn 216
8 pages
STQA Book
No ratings yet
STQA Book
129 pages
Unit-2
No ratings yet
Unit-2
15 pages
DA_Chapter_1_Notes
No ratings yet
DA_Chapter_1_Notes
3 pages
ESG Dell Storage Portfolio Brochure
No ratings yet
ESG Dell Storage Portfolio Brochure
12 pages
Chapter Two
No ratings yet
Chapter Two
14 pages
abhijitya_midsem
No ratings yet
abhijitya_midsem
6 pages
Interface Python With SQL Database
No ratings yet
Interface Python With SQL Database
22 pages
PHP Differences Questions
No ratings yet
PHP Differences Questions
18 pages
Adbms Finals Reviewer
No ratings yet
Adbms Finals Reviewer
3 pages
Cheat Sheet
No ratings yet
Cheat Sheet
2 pages
Fda 1
No ratings yet
Fda 1
5 pages
Cs601 Midterm Solved Mcqs by Junaid
No ratings yet
Cs601 Midterm Solved Mcqs by Junaid
64 pages
BUSINESS-ANALYTICS-CHAPTER1-3
No ratings yet
BUSINESS-ANALYTICS-CHAPTER1-3
3 pages
Distributed Systems 2 Mark Question & Answers
No ratings yet
Distributed Systems 2 Mark Question & Answers
16 pages
Selenium - TestNg
No ratings yet
Selenium - TestNg
14 pages
Databases: System Concepts, Designs, Management, and Implementation
From Everand
Databases: System Concepts, Designs, Management, and Implementation
Jonathan Rigdon
No ratings yet
SQL Database Mastery: Advanced Techniques for Database Management
From Everand
SQL Database Mastery: Advanced Techniques for Database Management
Adam Jones
No ratings yet