0440949 Andreas van Cranenburgh, Leren November 2008 1. Mitchell opgave 6.1, 6.5, 6.6 6.1 P(cancer) = 0.078 volgens sectie 6.2.1, We nemen de kans op een true en false positive in het kwadraat om een ketting van twee tests te berekenen: ; (0.98**2)*0.008 0.0076832 ;(0.03**2)*0.992 0.0008928 Normaliseren: ; 0.0076832 / (0.0008928 + 0.0076832) ~0.89589552238805970149 De kans gaat omhoog omdat de kans dat uit de kleine groep mensen met de ziekte twee keer een true positive komt hoog is, terwijl het omgekeerde, twee keer een false positive uit de grote groep zonder de ziekte, onwaarschijnlijk is. 6.5 a -log2(n) b Ja, voorbeeld: de echte hypothese: "A of B" de training set: A A A B de minimale descriptie: A c. [...] 6.6 Wind: sunny overcast rain hot mild cool high normal weak 3/8 2/8 3/8 3/8 3/8 2/8 4/8 4/8 strong 2/6 2/6 2/6 1/6 3/6 2/6 3/6 3/6 zie .png voor het belief netwerk. 2. Experimenteer met WEKA met k-nearest-neighbour. Vergelijk deze methode met eerder besproken leermethoden: beslisbomen leren, backpropagation en naive Bayes op 2 datasets naar keuze. Zijn er verschillen? Waarom (niet)? Hangt het resultaat af van parameters van de "k" in k-nearest-neighbour? Steeds respectievelijk iris en cpu dataset, cross-validation met 10 folds. IBk (k-nearest neighbor, k=1) iris: Correctly Classified Instances 143 95.3333 % cpu: Correctly Classified Instances 112 53.5885 % J48 (beslisboom) iris: Correctly Classified Instances 144 96 % cpu: Correctly Classified Instances 109 52.1531 % NaiveBayes: iris: Correctly Classified Instances 144 96 % cpu: Correctly Classified Instances 71 33.9713 % MultilayerPerceptron: iris: Correctly Classified Instances 146 97.3333 % cpu: Correctly Classified Instances 76 36.3636 % Qua snelheid was IBk het snelst, daarna NaiveBayes, daarna het neurale net (vooral op de cpu dataset nam de laatste de tijd). Qua performance doen ze het allemaal goed bij de iris set, met de cpu set loopt het meer uiteen en komt k-nearest neighbor erg goed uit de bus gezien de snelheid van dit algoritme. verschillende k's (bij iris): K = 1: Correctly Classified Instances 143 95.3333 % K = 2: Correctly Classified Instances 142 94.6667 % K = 3: Correctly Classified Instances 143 95.3333 % K = 4: Correctly Classified Instances 143 95.3333 % .... K = 10: Correctly Classified Instances 144 96 % K = 15: Correctly Classified Instances 145 96.6667 % Het antwoord is dus: ja, de "k" maakt wel degelijk uit. Bij de cpu dataset ging de score juist omlaag als de "k" omhoog ging.