Orange: Pivot Table

From OnnoCenterWiki
Jump to: navigation, search

Sumber: https://docs.biolab.si//3/visual-programming/widgets/data/pivot.html


Bentuk kembali tabel data berdasarkan nilai kolom.

Input

Data: input data set

Output

Pivot Table: contingency matrix as shown in the widget
Filtered Data: subset selected from the plot
Grouped Data: aggregates over groups defined by row values

Pivot Table merangkum data dari tabel yang lebih luas ke dalam tabel statistik. Statistik dapat mencakup jumlah, rata-rata, jumlah, dll. Widget ini juga memungkinkan pemilihan subset dari tabel dan pengelompokan berdasarkan nilai baris, yang harus berupa variabel diskrit. Data dengan hanya variabel numerik tidak dapat ditampilkan dalam tabel.

Pivot-stamped.png
  • Discrete or numeric variable used for row values. Numeric variables are considered as integers.
  • Discrete variable used for column values. Variable values will appear as columns in the table.
  • Values used for aggregation. Aggregated values will appear as cells in the table.
  • Aggregation methods:
    • For any variable type:
      • Count: number of instances with the given row and column value.
      • Count defined: number of instances where the aggregation value is defined.
    • For numeric variables:
      • Sum: sum of values.
      • Mean: average of values.
      • Mode: most frequent value of the subset.
      • Min: smallest value.
      • Max: highest value.
      • Median: middle value.
      • Var: variance of the subset.
    • For discrete variables:
      • Majority: most frequent value of the subset.
  • Tick the box on the left to automatically output any changes. Alternatively, press Apply .

Variable Diskrit

Pivot-discrete.png

Contoh tabel pivot dengan hanya variabel diskrit yang dipilih. Kita menggunakan heart-disease data set untuk contoh ini. Baris sesuai dengan nilai-nilai variabel penyempitan diameter. Kolom kita adalah nilai-nilai gender, yaitu perempuan dan laki-laki. Kita menggunakan thal sebagai nilai dalam sel kami.

Kita telah memilih Count dan Mayoritas sebagai metode agregasi. Dalam pivot table, kita dapat melihat jumlah instance yang tidak memiliki penyempitan diameter dan wanita. Ada 72 pasien seperti itu. Secara bersamaan, ada 92 pasien pria yang tidak mengalami penyempitan diameter. Nilai Thal tidak berpengaruh di sini, kita hanya menghitung kejadian dalam data.

Baris kedua menunjukkan mayoritas. Ini berarti sebagian besar pasien wanita yang tidak mengalami penyempitan diameter memiliki hasil normal. Sebaliknya, pasien wanita yang mengalami penyempitan diameter paling sering memiliki cacat yang dapat dibalikkan.

Variabel Numerik

Pivot-continuous.png

Contoh tabel pivot dengan variabel numerik. Kita menggunakan heart-disease data set untuk contoh ini. Baris sesuai dengan nilai-nilai variabel penyempitan diameter. Kolom kita adalah nilai-nilai gender, yaitu perempuan dan laki-laki. Kita menggunakan sisa SBP sebagai nilai dalam sel kita.

Kita memilih Count, Sum and Median sebagai metode agregasi. Di bawah Count, kita melihat ada 72 pasien wanita yang tidak memiliki penyempitan diameter, sama seperti sebelumnya untuk nilai diskrit. Yang berbeda adalah sum dan median agregasi. Kita melihat bahwa jumlah tekanan darah sistolik istirahat untuk pasien wanita yang tidak memiliki penyempitan diameter adalah 9269 dan nilai median adalah 130.

Contoh

Kita menggunakan Forest Fires untuk contoh ini. Data dimuat di Datasets widget dan diteruskan ke Pivot Table. Forest Fires datasets melaporkan kebakaran hutan pada bulan dan hari terjadinya. Kita dapat menggabungkan semua kejadian kebakaran hutan dengan memilih Hitung sebagai metode agregasi dan menggunakan bulan sebagai baris dan hari sebagai nilai kolom. Karena jika kita menggunakan Count, nilai variabel tidak ada effek-nya.

Kita dapat memplot count dalam Line Plot. Tapi pertama-tama, mari kita sedikit mengatur data kita. Dengan Edit Domain, kita akan menyusun ulang nilai baris sehingga bulan akan muncul dalam urutan yang benar, yaitu dari Januari hingga Desember. Untuk melakukan hal yang sama pada kolom, kami akan menggunakan Select Columns dan menyusun ulang hari dari Monday hingga Sunday.

Akhirnya, data kita siap. Mari kita masukan ke Line Plot. Kita dapat melihat bahwa kebakaran hutan paling umum terjadi pada bulan Agustus dan September, sementara frekuensinya lebih tinggi selama akhir pekan dibandingkan pada hari kerja.

Pivot-example.png

Referensi

Pranala Menarik