Orange: Outliers

From OnnoCenterWiki
Jump to: navigation, search

Sumber: https://docs.biolab.si//3/visual-programming/widgets/data/outliers.html

Deteksi outlier sederhana dengan membandingkan jarak antar instance.

Input

Data: input dataset
Distances: distance matrix

Output

Outliers: instances scored as outliers
Inliers: instances not scored as outliers

Outliers widget menerapkan salah satu dari dua metode untuk deteksi outlier. Kedua metode menerapkan klasifikasi ke dataset, satu dengan SVM (multiple kernel) dan yang lainnya dengan elliptical envelope. SVM satu kelas dengan non-linear kernel (RBF) berkinerja baik dengan distribusi non-Gaussian, sedangkan estimator Covariance hanya berfungsi untuk data dengan distribusi Gaussian.

Outliers-stamped.png


  • Information on the input data, number of inliers and outliers based on the selected model.
  • Select the Outlier detection method:
    • One class SVM with non-linear kernel (RBF): classifies data as similar or different from the core class:
      • Nu is a parameter for the upper bound on the fraction of training errors and a lower bound of the fraction of support vectors
      • Kernel coefficient is a gamma parameter, which specifies how much influence a single data instance has
    • Covariance estimator: fits ellipsis to central points with Mahalanobis distance metric
      • Contamination is the proportion of outliers in the dataset
      • Support fraction specifies the proportion of points included in the estimate
  • Produce a report.
  • Click Detect outliers to output the data.

Contoh

Di bawah, adalah contoh sederhana cara menggunakan widget ini. Kita menggunakan dataset Iris untuk mendeteksi outlier. Kita memilih satu kelas SVM dengan metode non-linear kernel(RBF), dengan Nu ditetapkan pada 20% (lebih sedikit kesalahan pelatihan, lebih banyak vektor dukungan). Kemudian kita mengamati outliers di Data Table widget, sementara kita mengirim inliers ke Scatter Plot.

Outliers-Example.png


Referensi

Pranala Menarik