विंडोमैकसॉफ्टवेयरसेटिंग्ससुरक्षाएंड्रॉइडउत्पादकतालिनक्सप्रदर्शनएप्पलकॉन्फ़िगरेशन सभी

RStudio में ggplot2 और अन्य पैकेजों का उपयोग करके डेटा विज़ुअलाइज़ेशन कैसे करें

संपादित 2 सप्ताह पहले द्वारा ExtremeHow संपादकीय टीम

आरस्टूडियोडेटा दृश्यजीजीप्लॉट2पैकेजग्राफिक्सडेटा विज्ञानविश्लेषिकीउपकरणप्रोग्रामिंगपुस्तकालय

RStudio में ggplot2 और अन्य पैकेजों का उपयोग करके डेटा विज़ुअलाइज़ेशन कैसे करें

अनुवाद अपडेट किया गया 2 सप्ताह पहले

डेटा का विश्लेषण और समझ के लिए डेटा विज़ुअलाइज़ेशन एक महत्वपूर्ण कौशल है। डेटा विज्ञान की दुनिया में, R अपने आंकड़ों और डेटा विज़ुअलाइज़ेशन के बेहतरीन क्षमताओं के कारण सबसे लोकप्रिय प्रोग्रामिंग भाषाओं में से एक है। यह दस्तावेज़ आपको RStudio में ggplot2 और अन्य महत्वपूर्ण R पैकेजों का उपयोग करके डेटा विज़ुअलाइज़ेशन कैसे करें, इसकी मार्गदर्शिका प्रदान करेगा। हम पैकेजों की स्थापना से लेकर उन्नत प्लॉटिंग तकनीकों तक सब कुछ कवर करेंगे।

परिचय

डेटा विज़ुअलाइज़ेशन का तात्पर्य डेटा को एक ग्राफ या मैप जैसे दृश्य संदर्भ में प्रस्तुत करना है, जिससे डेटा को आसानी से समझा जा सके। R में, कई पैकेज हमें ये विज़ुअलाइज़ेशन बनाने की अनुमति देते हैं, लेकिन ggplot2 सबसे बहुमुखी और व्यापक रूप से उपयोग किया जाता है।

ggplot2 ग्राफ़िक्स के व्याकरण पर आधारित है, जो डेटा को एक दृश्य स्थान में मैपिंग करने के लिए एक दर्शन है। यह दर्शन डेटा से कार्यक्रमगत तरीके से जटिल प्लॉट्स बनाने की अनुमति देता है।

पर्यावरण सेट करना

हमें ggplot2 के साथ काम शुरू करने से पहले, यह सुनिश्चित करना होगा कि हमारे कंप्यूटर पर R और RStudio स्थापित हो। एक बार जब वे स्थापित हो जाते हैं, RStudio खोलें और कंसोल में निम्नलिखित कमांड दर्ज करके ggplot2 पैकेज स्थापित करें:

install.packages("ggplot2")

इसके अतिरिक्त, हम कई अन्य पैकेजों का उपयोग करेंगे जैसे कि dplyr डेटा हेरफेर के लिए और tidyr डेटा साफ़ करने के लिए। आप इन्हें निम्नलिखित तरीके से स्थापित कर सकते हैं:

install.packages("dplyr")
install.packages("tidyr")

बेसिक ggplot2 कमांड्स

ggplot2 स्थापित करने के बाद, इसे एक R सत्र में निम्नलिखित तरीके से लोड किया जा सकता है:

library(ggplot2)

एक ggplot2 प्लॉट की मूल संरचना में शामिल हैं:

उदाहरण के लिए, एक बुनियादी स्कैटर प्लॉट बनाने के लिए:

ggplot(data = mtcars, aes(x = wt, y = mpg)) +
    geom_point()

यहां, mtcars डेटा सेट का उपयोग किया गया है, और चर wt (कार का वजन) और mpg (मील प्रति गैलन) को क्रमशः x और y अक्षों पर मैप किया गया है। geom_point() कार्यपद्धति का उपयोग स्कैटर प्लॉट बनाने के लिए किया गया है।

अपने प्लॉट को अनुकूलित करना

ggplot2 आपके प्लॉट की दिखावट को अनुकूलित करने के लिए एक सेट प्रदान करता है:

हमारे पिछले स्कैटर प्लॉट में सुधार करते हैं:

ggplot(data = mtcars, aes(x = wt, y = mpg)) +
    geom_point(color = "blue", size = 3) +
    ggtitle("कार का वजन बनाम MPG का स्कैटर प्लॉट") +
    xlab("वजन") +
    ylab("मील प्रति गैलन") +
    theme_minimal()

यह एक न्यूनतम थीम के भीतर नीले बिंदुओं, एक शीर्षक और अनुकूलित अक्ष लेबल के साथ एक प्लॉट बनाएगा।

फेसिंग

फेसिंग एक तरीके है कि एक डेटा सेट में एक ही चर पर आधारित कई प्लॉट्स बनाना। यह विभिन्न उपसमूहों में पैटर्न को समझने में सहायक हो सकता है:

ggplot(data = mtcars, aes(x = wt, y = mpg)) +
    geom_point() +
    facet_wrap(~cylinder)

यह cyl चर, जो कार में सिलेंडरों की संख्या का प्रतिनिधित्व करता है, के प्रत्येक अद्वितीय मान के लिए एक अलग स्कैटर प्लॉट बनाता है।

ggplot2 में लेयरिंग

ggplot2 की एक शक्तिशाली विशेषता यह है कि इसमें एक ही प्लॉट पर कई ज्यामितियों और घटकों को लेयर किया जा सकता है। उदाहरण के लिए, हम एक स्कैटर प्लॉट में एक स्मूथिंग लाइन जोड़ सकते हैं:

ggplot(data = mtcars, aes(x = wt, y = mpg)) +
    geom_point() +
    geom_smooth(method = "lm") // लीनियर मॉडल

geom_smooth() कार्यप्रणाली एक लीनियर मॉडल का उपयोग करके सर्वश्रेष्ठ फिट की एक लाइन जोड़ती है।

अन्य पैकेजों के साथ कार्य करना

ggplot2 के अलावा, अन्य पैकेज जैसे कि dplyr और tidyr, डेटा को साफ़ करने और हेरफेर करने के लिए अक्सर सहायक होते हैं:

dplyr का उपयोग करना

dplyr एक R पैकेज है जो डेटा हेरफेर के लिए एक सेट प्रदान करता है:

उदाहरण के लिए, प्रत्येक सिलेंडर समूह का औसत mpg पता करने के लिए:

library(dplyr)

mtcars %>%
    group_by(cylinder) %>%
    summarise(average_mpg = mean(mpg))

tidyr का उपयोग करना

tidyr का उपयोग डेटा को साफ करने के लिए किया जाता है। यह डेटा फ्रेम को पुन: आकार देने में मदद करता है:

एक डेटा सेट को व्यापक से लंबे स्वरूप में बदलने के लिए:

library(tidyr)

# मान लें एक डेटा सेट 'wide_data' है
long_data 	
	

यदि आपको लेख की सामग्री में कुछ गलत लगता है, आप कर सकते हैं


टिप्पणियाँ