<?xml version="1.0"?>
<feed xmlns="http://www.w3.org/2005/Atom" xml:lang="en">
	<id>https://lms.onnocenter.or.id/wiki/index.php?action=history&amp;feed=atom&amp;title=Dataset_missing_values_imputation</id>
	<title>Dataset missing values imputation - Revision history</title>
	<link rel="self" type="application/atom+xml" href="https://lms.onnocenter.or.id/wiki/index.php?action=history&amp;feed=atom&amp;title=Dataset_missing_values_imputation"/>
	<link rel="alternate" type="text/html" href="https://lms.onnocenter.or.id/wiki/index.php?title=Dataset_missing_values_imputation&amp;action=history"/>
	<updated>2026-04-20T03:06:38Z</updated>
	<subtitle>Revision history for this page on the wiki</subtitle>
	<generator>MediaWiki 1.45.1</generator>
	<entry>
		<id>https://lms.onnocenter.or.id/wiki/index.php?title=Dataset_missing_values_imputation&amp;diff=72259&amp;oldid=prev</id>
		<title>Unknown user: Created page with &quot;Menangani &#039;&#039;&#039;missing values&#039;&#039;&#039; dalam dataset adalah langkah penting dalam proses analisis data untuk memastikan kualitas dan akurasi hasil. Berikut adalah contoh kode Python y...&quot;</title>
		<link rel="alternate" type="text/html" href="https://lms.onnocenter.or.id/wiki/index.php?title=Dataset_missing_values_imputation&amp;diff=72259&amp;oldid=prev"/>
		<updated>2025-04-01T01:42:02Z</updated>

		<summary type="html">&lt;p&gt;Created page with &amp;quot;Menangani &amp;#039;&amp;#039;&amp;#039;missing values&amp;#039;&amp;#039;&amp;#039; dalam dataset adalah langkah penting dalam proses analisis data untuk memastikan kualitas dan akurasi hasil. Berikut adalah contoh kode Python y...&amp;quot;&lt;/p&gt;
&lt;p&gt;&lt;b&gt;New page&lt;/b&gt;&lt;/p&gt;&lt;div&gt;Menangani &amp;#039;&amp;#039;&amp;#039;missing values&amp;#039;&amp;#039;&amp;#039; dalam dataset adalah langkah penting dalam proses analisis data untuk memastikan kualitas dan akurasi hasil. Berikut adalah contoh kode Python yang menunjukkan cara mengidentifikasi dan mengatasi missing values menggunakan pustaka &amp;#039;&amp;#039;&amp;#039;pandas&amp;#039;&amp;#039;&amp;#039; dan &amp;#039;&amp;#039;&amp;#039;scikit-learn&amp;#039;&amp;#039;&amp;#039;.&lt;br /&gt;
&lt;br /&gt;
==1. &amp;#039;&amp;#039;&amp;#039;Mengidentifikasi Missing Values&amp;#039;&amp;#039;&amp;#039;==&lt;br /&gt;
&lt;br /&gt;
Langkah pertama adalah mendeteksi keberadaan missing values dalam dataset. Fungsi `isnull()` atau `isna()` dari pandas dapat digunakan untuk tujuan ini.&lt;br /&gt;
&lt;br /&gt;
 import pandas as pd&lt;br /&gt;
 &lt;br /&gt;
 # Contoh: Membuat DataFrame dengan missing values&lt;br /&gt;
 data = {&lt;br /&gt;
     &amp;#039;Nama&amp;#039;: [&amp;#039;Andi&amp;#039;, &amp;#039;Budi&amp;#039;, &amp;#039;Citra&amp;#039;, &amp;#039;Dewi&amp;#039;],&lt;br /&gt;
     &amp;#039;Usia&amp;#039;: [25, 30, None, 22],&lt;br /&gt;
     &amp;#039;Kota&amp;#039;: [&amp;#039;Jakarta&amp;#039;, None, &amp;#039;Bandung&amp;#039;, &amp;#039;Surabaya&amp;#039;]&lt;br /&gt;
 }&lt;br /&gt;
 df = pd.DataFrame(data)&lt;br /&gt;
 &lt;br /&gt;
 # Menampilkan jumlah missing values di setiap kolom&lt;br /&gt;
 print(&amp;quot;Jumlah missing values per kolom:&amp;quot;)&lt;br /&gt;
 print(df.isnull().sum())&lt;br /&gt;
&lt;br /&gt;
&amp;#039;&amp;#039;&amp;#039;Output:&amp;#039;&amp;#039;&amp;#039;&lt;br /&gt;
&lt;br /&gt;
 Jumlah missing values per kolom:&lt;br /&gt;
 Nama    0&lt;br /&gt;
 Usia    1&lt;br /&gt;
 Kota    1&lt;br /&gt;
 dtype: int64&lt;br /&gt;
&lt;br /&gt;
==2. &amp;#039;&amp;#039;&amp;#039;Mengatasi Missing Values&amp;#039;&amp;#039;&amp;#039;==&lt;br /&gt;
&lt;br /&gt;
Terdapat beberapa pendekatan untuk menangani missing values:&lt;br /&gt;
&lt;br /&gt;
* &amp;#039;&amp;#039;&amp;#039;Menghapus Data yang Mengandung Missing Values:&amp;#039;&amp;#039;&amp;#039;&lt;br /&gt;
&lt;br /&gt;
Jika jumlah missing values relatif kecil, Anda dapat menghapus baris atau kolom yang mengandung missing values menggunakan `dropna()`.&lt;br /&gt;
&lt;br /&gt;
  # Menghapus baris yang memiliki missing values&lt;br /&gt;
  df_cleaned = df.dropna()&lt;br /&gt;
  print(df_cleaned)&lt;br /&gt;
&lt;br /&gt;
- &amp;#039;&amp;#039;&amp;#039;Imputasi Missing Values:&amp;#039;&amp;#039;&amp;#039;&lt;br /&gt;
&lt;br /&gt;
Mengganti missing values dengan nilai tertentu seperti mean, median, atau modus.&lt;br /&gt;
&lt;br /&gt;
* &amp;#039;&amp;#039;&amp;#039;Mengisi dengan Mean (Rata-rata):&amp;#039;&amp;#039;&amp;#039;&lt;br /&gt;
Cocok untuk data numerik tanpa outlier signifikan.&lt;br /&gt;
&lt;br /&gt;
 # Mengisi missing values pada kolom &amp;#039;Usia&amp;#039; dengan mean&lt;br /&gt;
 df[&amp;#039;Usia&amp;#039;].fillna(df[&amp;#039;Usia&amp;#039;].mean(), inplace=True)&lt;br /&gt;
&lt;br /&gt;
* &amp;#039;&amp;#039;&amp;#039;Mengisi dengan Median:&amp;#039;&amp;#039;&amp;#039;&lt;br /&gt;
Sesuai untuk data numerik dengan distribusi miring atau memiliki outlier.&lt;br /&gt;
&lt;br /&gt;
 # Mengisi missing values pada kolom &amp;#039;Usia&amp;#039; dengan median&lt;br /&gt;
 df[&amp;#039;Usia&amp;#039;].fillna(df[&amp;#039;Usia&amp;#039;].median(), inplace=True)&lt;br /&gt;
&lt;br /&gt;
* &amp;#039;&amp;#039;&amp;#039;Mengisi dengan Modus (Nilai yang Paling Sering Muncul):&amp;#039;&amp;#039;&amp;#039;&lt;br /&gt;
Berguna untuk data kategorikal.&lt;br /&gt;
&lt;br /&gt;
 # Mengisi missing values pada kolom &amp;#039;Kota&amp;#039; dengan modus&lt;br /&gt;
 df[&amp;#039;Kota&amp;#039;].fillna(df[&amp;#039;Kota&amp;#039;].mode()[0], inplace=True)&lt;br /&gt;
&lt;br /&gt;
* &amp;#039;&amp;#039;&amp;#039;Menggunakan `SimpleImputer` dari scikit-learn:&amp;#039;&amp;#039;&amp;#039;&lt;br /&gt;
Pendekatan ini memungkinkan imputasi yang lebih terstruktur dan dapat digunakan dalam pipeline machine learning.&lt;br /&gt;
&lt;br /&gt;
 from sklearn.impute import SimpleImputer&lt;br /&gt;
 import numpy as np&lt;br /&gt;
 &lt;br /&gt;
 # Inisialisasi imputer untuk mengisi missing values dengan mean&lt;br /&gt;
 imputer = SimpleImputer(missing_values=np.nan, strategy=&amp;#039;mean&amp;#039;)&lt;br /&gt;
 &lt;br /&gt;
 # Mengimputasi kolom &amp;#039;Usia&amp;#039;&lt;br /&gt;
 df[[&amp;#039;Usia&amp;#039;]] = imputer.fit_transform(df[[&amp;#039;Usia&amp;#039;]])&lt;br /&gt;
&lt;br /&gt;
SimpleImputer juga mendukung strategi lain seperti `median`, `most_frequent` (modus), dan `constant`. citeturn0search8&lt;br /&gt;
&lt;br /&gt;
&amp;#039;&amp;#039;&amp;#039;Catatan:&amp;#039;&amp;#039;&amp;#039;&lt;br /&gt;
* Pemilihan metode imputasi harus disesuaikan dengan karakteristik data dan tujuan analisis.&lt;br /&gt;
* Setelah melakukan imputasi, penting untuk mengevaluasi kembali dataset untuk memastikan bahwa metode yang digunakan tidak memperkenalkan bias atau distorsi pada data.&lt;br /&gt;
* Untuk kasus yang lebih kompleks, seperti data dengan pola missing yang tidak acak, metode imputasi multivariat seperti `IterativeImputer` dari scikit-learn dapat dipertimbangkan. &lt;br /&gt;
&lt;br /&gt;
Dengan memahami dan menerapkan teknik-teknik di atas, Anda dapat menangani missing values dalam dataset secara efektif, sehingga meningkatkan kualitas dan keandalan analisis data Anda. &lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
==Pranala Menarik==&lt;br /&gt;
&lt;br /&gt;
* [[Orange]]&lt;/div&gt;</summary>
		<author><name>Unknown user</name></author>
	</entry>
</feed>