RStudio में ggplot2 और अन्य पैकेजों का उपयोग करके डेटा विज़ुअलाइज़ेशन कैसे करें

संपादित 2 सप्ताह पहले द्वारा ExtremeHow संपादकीय टीम

आरस्टूडियो डेटा दृश्य जीजीप्लॉट2 पैकेज ग्राफिक्स डेटा विज्ञान विश्लेषिकी उपकरण प्रोग्रामिंग पुस्तकालय

RStudio में ggplot2 और अन्य पैकेजों का उपयोग करके डेटा विज़ुअलाइज़ेशन कैसे करें

अनुवाद अपडेट किया गया 2 सप्ताह पहले

डेटा का विश्लेषण और समझ के लिए डेटा विज़ुअलाइज़ेशन एक महत्वपूर्ण कौशल है। डेटा विज्ञान की दुनिया में, R अपने आंकड़ों और डेटा विज़ुअलाइज़ेशन के बेहतरीन क्षमताओं के कारण सबसे लोकप्रिय प्रोग्रामिंग भाषाओं में से एक है। यह दस्तावेज़ आपको RStudio में ggplot2 और अन्य महत्वपूर्ण R पैकेजों का उपयोग करके डेटा विज़ुअलाइज़ेशन कैसे करें, इसकी मार्गदर्शिका प्रदान करेगा। हम पैकेजों की स्थापना से लेकर उन्नत प्लॉटिंग तकनीकों तक सब कुछ कवर करेंगे।

परिचय

डेटा विज़ुअलाइज़ेशन का तात्पर्य डेटा को एक ग्राफ या मैप जैसे दृश्य संदर्भ में प्रस्तुत करना है, जिससे डेटा को आसानी से समझा जा सके। R में, कई पैकेज हमें ये विज़ुअलाइज़ेशन बनाने की अनुमति देते हैं, लेकिन ggplot2 सबसे बहुमुखी और व्यापक रूप से उपयोग किया जाता है।

ggplot2 ग्राफ़िक्स के व्याकरण पर आधारित है, जो डेटा को एक दृश्य स्थान में मैपिंग करने के लिए एक दर्शन है। यह दर्शन डेटा से कार्यक्रमगत तरीके से जटिल प्लॉट्स बनाने की अनुमति देता है।

पर्यावरण सेट करना

हमें ggplot2 के साथ काम शुरू करने से पहले, यह सुनिश्चित करना होगा कि हमारे कंप्यूटर पर R और RStudio स्थापित हो। एक बार जब वे स्थापित हो जाते हैं, RStudio खोलें और कंसोल में निम्नलिखित कमांड दर्ज करके ggplot2 पैकेज स्थापित करें:

install.packages("ggplot2")

इसके अतिरिक्त, हम कई अन्य पैकेजों का उपयोग करेंगे जैसे कि dplyr डेटा हेरफेर के लिए और tidyr डेटा साफ़ करने के लिए। आप इन्हें निम्नलिखित तरीके से स्थापित कर सकते हैं:

install.packages("dplyr")
install.packages("tidyr")

बेसिक ggplot2 कमांड्स

ggplot2 स्थापित करने के बाद, इसे एक R सत्र में निम्नलिखित तरीके से लोड किया जा सकता है:

library(ggplot2)

एक ggplot2 प्लॉट की मूल संरचना में शामिल हैं:

डेटा: डेटा सेट जिसे विज़ुअलाइज़ करना है।
सौंदर्य मैपिंग: परिभाषित करता है कि कैसे चर दृश्य गुणों को मैप किए जाते हैं, जैसे कि x और y अक्ष, रंग, आकार, आदि।
ज्यामिति: प्लॉट का प्रकार जो निर्मित होना है (उदाहरण के लिए, लाइन, बार, स्कैटर)।

उदाहरण के लिए, एक बुनियादी स्कैटर प्लॉट बनाने के लिए:

ggplot(data = mtcars, aes(x = wt, y = mpg)) +
    geom_point()

यहां, mtcars डेटा सेट का उपयोग किया गया है, और चर wt (कार का वजन) और mpg (मील प्रति गैलन) को क्रमशः x और y अक्षों पर मैप किया गया है। geom_point() कार्यपद्धति का उपयोग स्कैटर प्लॉट बनाने के लिए किया गया है।

अपने प्लॉट को अनुकूलित करना

ggplot2 आपके प्लॉट की दिखावट को अनुकूलित करने के लिए एक सेट प्रदान करता है:

ggtitle() - ग्राफ में एक शीर्षक जोड़ें।
xlab() और ylab() – अक्षों को लेबल दें।
theme() – गैर-डेटा सेटिंग को बदलें।

हमारे पिछले स्कैटर प्लॉट में सुधार करते हैं:

ggplot(data = mtcars, aes(x = wt, y = mpg)) +
    geom_point(color = "blue", size = 3) +
    ggtitle("कार का वजन बनाम MPG का स्कैटर प्लॉट") +
    xlab("वजन") +
    ylab("मील प्रति गैलन") +
    theme_minimal()

यह एक न्यूनतम थीम के भीतर नीले बिंदुओं, एक शीर्षक और अनुकूलित अक्ष लेबल के साथ एक प्लॉट बनाएगा।

फेसिंग

फेसिंग एक तरीके है कि एक डेटा सेट में एक ही चर पर आधारित कई प्लॉट्स बनाना। यह विभिन्न उपसमूहों में पैटर्न को समझने में सहायक हो सकता है:

ggplot(data = mtcars, aes(x = wt, y = mpg)) +
    geom_point() +
    facet_wrap(~cylinder)

यह cyl चर, जो कार में सिलेंडरों की संख्या का प्रतिनिधित्व करता है, के प्रत्येक अद्वितीय मान के लिए एक अलग स्कैटर प्लॉट बनाता है।

ggplot2 में लेयरिंग

ggplot2 की एक शक्तिशाली विशेषता यह है कि इसमें एक ही प्लॉट पर कई ज्यामितियों और घटकों को लेयर किया जा सकता है। उदाहरण के लिए, हम एक स्कैटर प्लॉट में एक स्मूथिंग लाइन जोड़ सकते हैं:

ggplot(data = mtcars, aes(x = wt, y = mpg)) +
    geom_point() +
    geom_smooth(method = "lm") // लीनियर मॉडल

geom_smooth() कार्यप्रणाली एक लीनियर मॉडल का उपयोग करके सर्वश्रेष्ठ फिट की एक लाइन जोड़ती है।

अन्य पैकेजों के साथ कार्य करना

ggplot2 के अलावा, अन्य पैकेज जैसे कि dplyr और tidyr, डेटा को साफ़ करने और हेरफेर करने के लिए अक्सर सहायक होते हैं:

dplyr का उपयोग करना

dplyr एक R पैकेज है जो डेटा हेरफेर के लिए एक सेट प्रदान करता है:

mutate() – नई चर बनाता है।
filter() – स्थितियों के आधार पर पंक्तियों को फिल्टर करता है।
summarise() – डेटा का सारांश प्रस्तुत करता है और सारांश जैसे कि औसत, माध्यिका, आदि प्रदान करता है।

उदाहरण के लिए, प्रत्येक सिलेंडर समूह का औसत mpg पता करने के लिए:

library(dplyr)

mtcars %>%
    group_by(cylinder) %>%
    summarise(average_mpg = mean(mpg))

tidyr का उपयोग करना

tidyr का उपयोग डेटा को साफ करने के लिए किया जाता है। यह डेटा फ्रेम को पुन: आकार देने में मदद करता है:

pivot_longer() – व्यापक स्वरूप को लंबे स्वरूप में बदलता है।
pivot_wider() – लंबे स्वरूप को व्यापक स्वरूप में बदलता है।

एक डेटा सेट को व्यापक से लंबे स्वरूप में बदलने के लिए:

library(tidyr) # मान लें एक डेटा सेट 'wide_data' है long_data

यदि आपको लेख की सामग्री में कुछ गलत लगता है, आप कर सकते हैं

RStudio में ggplot2 और अन्य पैकेजों का उपयोग करके डेटा विज़ुअलाइज़ेशन कैसे करें

परिचय

पर्यावरण सेट करना

बेसिक ggplot2 कमांड्स

अपने प्लॉट को अनुकूलित करना

फेसिंग

ggplot2 में लेयरिंग

अन्य पैकेजों के साथ कार्य करना

dplyr का उपयोग करना

tidyr का उपयोग करना

टिप्पणियाँ

RStudio में ggplot2 और अन्य पैकेजों का उपयोग करके डेटा विज़ुअलाइज़ेशन कैसे करें

खोजें ExtremeHow (hi)