0440949 Andreas van Cranenburgh, Leren
November 2008

1. Mitchell opgave 6.1, 6.5, 6.6
6.1
P(cancer) = 0.078 volgens sectie 6.2.1,

We nemen de kans op een true en false positive in het kwadraat om een ketting
van twee tests te berekenen:

; (0.98**2)*0.008
        0.0076832

;(0.03**2)*0.992
	0.0008928

Normaliseren:
; 0.0076832 / (0.0008928 + 0.0076832)
        ~0.89589552238805970149

De kans gaat omhoog omdat de kans dat uit de kleine groep mensen met de ziekte
twee keer een true positive komt hoog is, terwijl het omgekeerde, twee keer een false positive uit de grote groep zonder de ziekte, onwaarschijnlijk is.


6.5
a -log2(n)
b Ja, voorbeeld:
de echte hypothese: "A of B"
de training set:
A
A
A
B

de minimale descriptie: A

c. [...]

6.6
Wind:
	sunny overcast rain	hot mild cool	high normal	
weak	3/8   2/8      3/8	3/8 3/8  2/8	4/8  4/8	
strong	2/6   2/6      2/6	1/6 3/6  2/6	3/6  3/6

zie .png voor het belief netwerk.


2. Experimenteer met WEKA met k-nearest-neighbour. Vergelijk deze methode met eerder besproken leermethoden: beslisbomen leren, backpropagation en naive Bayes op 2 datasets naar keuze. Zijn er verschillen? Waarom (niet)? Hangt het resultaat af van parameters van de "k" in k-nearest-neighbour?

Steeds respectievelijk iris en cpu dataset, cross-validation met 10 folds.

IBk (k-nearest neighbor, k=1)
iris: Correctly Classified Instances         143               95.3333 %
cpu:  Correctly Classified Instances         112               53.5885 %

J48 (beslisboom)
iris: Correctly Classified Instances         144               96      %
cpu:  Correctly Classified Instances         109               52.1531 %

NaiveBayes:
iris: Correctly Classified Instances         144               96      %
cpu:  Correctly Classified Instances          71               33.9713 %

MultilayerPerceptron:
iris: Correctly Classified Instances         146               97.3333 %
cpu:  Correctly Classified Instances          76               36.3636 %

Qua snelheid was IBk het snelst, daarna NaiveBayes, daarna het neurale net
(vooral op de cpu dataset nam de laatste de tijd).
Qua performance doen ze het allemaal goed bij de iris set, met de cpu set
loopt het meer uiteen en komt k-nearest neighbor erg goed uit de bus gezien de
snelheid van dit algoritme.

verschillende k's (bij iris):
K = 1: Correctly Classified Instances         143               95.3333 %
K = 2: Correctly Classified Instances         142               94.6667 %
K = 3: Correctly Classified Instances         143               95.3333 %
K = 4: Correctly Classified Instances         143               95.3333 %
....
K = 10: Correctly Classified Instances         144               96      %
K = 15: Correctly Classified Instances         145               96.6667 %

Het antwoord is dus: ja, de "k" maakt wel degelijk uit.
Bij de cpu dataset ging de score juist omlaag als de "k" omhoog ging.