Orange: Merge Data

From OnnoCenterWiki
Jump to: navigation, search

Sumber: https://docs.biolab.si//3/visual-programming/widgets/data/mergedata.html

Menggabungkan dua dataset, berdasarkan nilai atribut yang dipilih.

Input

Data: input dataset
Extra Data: additional dataset

Output

Data: dataset with features added from extra data

Widget Gabungkan Data digunakan untuk menggabungkan dua dataset secara horizontal, berdasarkan nilai atribut yang dipilih (kolom). Dalam input, diperlukan dua set data, data dan data ekstra. Baris dari dua set data dicocokkan dengan nilai pasangan atribut, yang dipilih oleh pengguna. Widget menghasilkan satu output. Ini sesuai dengan instance dari input data yang atribut (kolom) dari input data tambahan ditambahkan.

Jika pasangan atribut yang dipilih tidak mengandung nilai unik (dengan kata lain, atribut memiliki nilai duplikat), widget akan memberikan peringatan. Sebagai gantinya, seseorang dapat mencocokkan dengan lebih dari satu atribut. Klik pada ikon plus untuk menambahkan atribut untuk digabungkan. Hasil akhir harus merupakan kombinasi unik untuk setiap baris individual.

Merge-Data-stamped.png
  • Information on main data.
  • Information on data to append.
  • Merging type:
    • Append columns from Extra Data outputs all rows from the Data, augmented by the columns in the Extra Data. Rows without matches are retained, even where the data in the extra columns are missing.
    • Find matching pairs of rows outputs rows from the Data, augmented by the columns in the Extra Data. Rows without matches are removed from the output.
    • Concatenate tables treats both data sources symmetrically. The output is similar to the first option, except that non-matched values from Extra Data are appended at the end.
  • List of attributes from Data input.
  • List of attributes from Extra Data input.
  • Hasilkan Report.

Tipe Merging

Append Columns from Extra Data (left join)

Kolom dari Data Ekstra ditambahkan ke Data. Instance tanpa baris yang cocok akan memiliki nilai hilang yang ditambahkan.

Misalnya, tabel pertama mungkin berisi nama kota dan yang kedua adalah daftar kota dan koordinatnya. Kolom dengan koordinat kemudian akan ditambahkan ke data dengan nama kota. Jika nama kota tidak dapat dicocokkan, nilai yang hilang akan muncul.

Dalam contoh, input Data pertama berisi 6 kota, tetapi Data Ekstra tidak memberikan nilai Lat dan Lon untuk Bratislava, sehingga field tersebut akan kosong.

MergeData Append.png

Find matching pairs of rows (inner join)

Hanya baris-baris yang cocok yang akan ada pada output, dengan kolom Data Tambahan ditambahkan. Baris yang tidak ada kecocokan akan dihapus.

Dalam contoh, Bratislava dari input Data tidak memiliki nilai Lat dan Lon, sedangkan Beograd dari Extra Data tidak dapat ditemukan di kolom Kota yang kita gabungkan. Karenanya kedua instance dihapus - hanya intersection instance yang dikirim ke output.

MergeData Intersection.png

Concatenate tables (outer join)

Baris dari Data dan Data Ekstra akan ditampilkan pada output. Di mana baris tidak dapat dicocokkan, nilai yang hilang akan muncul.

Dalam contoh kita, baik Bratislava dan Belgrade sekarang hadir. Bratislava akan kehilangan nilai Lat dan Lon, sementara Belgrade akan memiliki nilai Populasi yang hilang.

MergeData Concatenate.png

Row index

Data akan digabungkan dalam urutan yang sama seperti yang muncul di tabel. Baris nomor 1 dari input Data akan bergabung dengan nomor baris 1 dari input Data Tambahan. Nomor baris ditetapkan oleh Orange berdasarkan urutan asli dari instance data.

Instance ID

This is a more complex option. Sometimes, data in transformed in the analysis and the domain is no longer the same. Nevertheless, the original row indices are still present in the background (Orange remembers them). In this case one can merge on instance ID. For example if you transformed the data with PCA, visualized it in the Scatter Plot, selected some data instances and now you wish to see the original information of the selected subset. Connect the output of Scatter Plot to Merge Data, add the original data set as Extra Data and merge by Instance ID.

MergeData-InstanceID.png

Merge dengan dua atau lebih atribute

Terkadang instance data kita unik sehubungan dengan kombinasi kolom, bukan kolom tunggal. Untuk menggabungkan lebih dari satu kolom, tambahkan kondisi pencocokan baris dengan menekan plus di samping kondisi yang cocok. Untuk menghapusnya, tekan x.

Dalam contoh di bawah ini, kita menggabungkan kolom siswa dan kolom kelas.

MergeData-multiple.png

Katakanlah kita memiliki dua set data dengan nama siswa dan kelas tempat mereka. Set data pertama memiliki nilai siswa dan yang kedua pada kursus elektif yang mereka pilih. Sayangnya, ada dua Jack di data kita, satu dari kelas A dan yang lain dari kelas B. Sama untuk Jane.

Untuk membedakan keduanya, kita dapat mencocokkan baris pada keduanya, nama siswa dan kelasnya.

MergeData-multiple2.png

Contoh

Menggabungkan dua kumpulan data menghasilkan penambahan atribut baru ke file asli, berdasarkan pada atribut umum yang dipilih. Dalam contoh di bawah ini, kita ingin menggabungkan file zoo.tab yang hanya berisi data faktual dengan zoo-with-images.tab yang berisi gambar. Kedua file berbagi nama atribut string yang umum. Sekarang, kami membuat workflow yang menghubungkan dua file. Data zoo.tab terhubung ke Data input dari Merge Data widget, dan data zoo-with-images.tab ke Extra Data input. Output dari Merge Data widget kemudian terhubung ke Data Table widget. Dalam yang terakhir, saluran Merged Data ditampilkan, di mana atribut gambar ditambahkan ke data original.

MergeData-Example.png

Kasus di mana kami ingin menyertakan semua instance dalam output, bahkan yang tidak ditemukan kecocokan dengan nama atribut, ditunjukkan dalam workflow berikut.

MergeData-Example2.png

Jenis penggabungan ketiga ditunjukkan dalam workflow berikutnya. Output terdiri dari kedua input, dengan nilai yang tidak diketahui akan ditetapkan saat di mana tidak ada kecocokan ditemukan.

MergeData-Example3.png

Referensi

Pranala Menarik