DATA-MINING-CUP 2006

Aufgabenstellung
================

Ausgangssituation
-----------------
Versteigerungsplattformen sind heute ein fester Bestandteil des
Internet. So haben auch die meisten von uns schon Artikel ver- oder
ersteigert. Ein Name, der stellvertretend fr diesen Erfolg steht, ist
sicherlich eBay. Die weltweit erfolgreichste Internet-Auktions-
Plattform ist durch ihre Reichweite gleichermaen fr Privatauktionen
wie fr gewerbliche Anbieter interessant. Allen gemeinsam ist wohl auch
das Ziel, als Einsteller einer Auktion in ihrem Rahmen einen angemessen
Preis zu erzielen. Die Frage stellt sich: "Wie erhalte ich den optimalen
(hchsten) Preis?" Viele mehr oder weniger berufene Auktions-Experten
empfehlen hier kurze oder lange Laufzeiten, niedrige oder hohe
Startpreise, Auktionsenden am Wochenende oder Wochentags, und viele
Varianten mehr, die absolut sicher zum Erfolg fhren sollen. Im Rahmen
des DMC 2006 Wettbewerbs wollen wir diese Frage wissenschaftlich
beantworten. 


Szenario
--------
Ein Elektronik-Handelsunternehmen stellt fest, dass seine Internet-
Auktionen zum Teil sehr unterschiedliche Verkaufserlse erzielen.
Muster, die zu einer Erklrung fhren, sind fr den Verkaufsleiter nicht
zu erkennen. Vor dem Hintergrund der Erlsmaximierung mchte das
Unternehmen nun mittels Data Mining einen Vorschlag fr eine optimale
Auktionslistung (Start- und Endzeitpunkte, Laufzeit, Zusatzmerkmale,
etc.) erarbeiten. In einer ersten Fragestellung ist dafr ein Data
Mining Modell zu erstellen, welches in der Lage ist, fr jede neu
eingestellte Auktion eine Vorhersage zu treffen, ob der tatschlich
eintretende Verkaufserls ber dem durchschnittlichen Verkaufserls fr
diese Produktkategorie liegen wird.

Um diese Aufgabenstellung zu bearbeiten, fordert das Handelsunternehmen
bei eBay Daten zu abgelaufenen Auktionen der letzten Monate ber das
eBay-Marktdatenprogramm an. Die nach den geltenden
Datenschutzrichtlinien bereitgestellten Daten enthalten u.a. alle
notwendigen Informationen fr die Lsung dieser Aufgabe.  

Im konkreten Fall soll eine Stichprobe von 8.000 Online-Auktionen aus
der Kategorie "Audio&Hi-Fi:MP3-Player:Apple iPod" zur Gewinnung einer
Beschreibung (Klassifikationsmodell) fr die Vorhersage des
Verkaufserlses untersucht werden.
 
Die Stichprobe (dmc2006_train.txt) umfasst fr diese 8.000 Auktionen
einen Auszug auktionsrelevanter Daten. Eine genaue Beschreibung der
Merkmale befindet sich in der Datei DMC2006_Merkmale.pdf. 

Zustzlich wurde schon der mittlere Verkaufserls der Produktkategorie
(item_leaf_category_name) als Merkmal category_avg_gms berechnet und im
Merkmal gms_greater_avg festgehalten, ob der erzielte Verkaufserls ber
dem mittleren Verkaufserls der Produktkategorie liegt.

Unter Verwendung der Lerndaten (dmc2006_train.txt) ist ein
entsprechendes Modell zur Prognose, ob der eintretende Verkaufserls
ber dem durchschnittlichen Verkaufserls fr die zugehrige
Produktkategorie liegen wird, zu entwickeln. Ein Verkaufserls ber dem
Mittelwert wird dabei als Hochpreis, ein Verkaufserls unter oder gleich
dem Mittelwert als Niedrigpreis bezeichnet.

Im Rahmen des DATA-MINING-CUP Wettbewerbs soll das Modell zum Test
exemplarisch auf weitere 8.000 Online-Auktionen (dmc2006_class.txt)
angewandt werden, um die Klassenzugehrigkeit (Niedrigpreis oder
Hochpreis) zu ermitteln. 

Die folgende einfache Kostenmatrix bildet die Grundlage fr die
Optimierung der Klassifikation in Hoch- oder Niedrigpreisklasse:

                         | Hocherls  |  Niedrigerls
                         | erzielt    |  erzielt
-------------------------|------------|--------------
Auktionserls wird als   |   1 Punkt  |   -1 Punkt
Hocherls eingestuft     |            |
-------------------------|------------|--------------
Auktionserls wird als   | - 1 Punkt  |    1 Punkt
Niedrigerls eingestuft  |            |

Ziel ist es, eine maximale Punkteanzahl, d.h. hier richtige
Klassenzuordnungen, zu erreichen. 


Aufgabe
-------
Folgende Data-Mining-Aufgabe ist zu bearbeiten:

Aus den Daten (dmc2006_train.txt) ist ein Data-Mining-Modell zu
generieren, das eine Klassenzuordnung trifft (Hoch- oder Niedrigerls).
Dieses Modell ist exemplarisch auf die ausgewhlten 8.000 zu klassi-
fizierenden Online-Auktionen (dmc2006_train.txt) anzuwenden.


Einreichung des Ergebnisses
---------------------------
Einsendeschluss der Aufgabe ist Mittwoch, 31.05.2006, 24:00 Uhr. 

Als Ergebnis ist eine Liste der prognostizierten Auktionen in der Form
<ID>,<KLASSE> zu liefern. 

Bei <KLASSE> soll hierbei N fr Niedrigerls und H fr Hocherls
verwendet werden. 

Die Liste ist als Textdatei (nur DOS-Files, kein Unicode) an die
E-Mail-Adresse dmc@prudsys.de zu senden. 

Der Name der Datei ist aus der Teilnehmer-ID wie folgt
zu bilden:

   <Teilnehmer-ID>.txt (z.B. 0534-9823.txt)

Nur so ist es mglich, die eingesandte Lsung richtig dem jeweiligen
Wettbewerbsteilnehmer zuzuordnen.

Anmerkung: Ihre Teilnehmer-ID ist identisch mit dem Downloadpasswort,
welches Ihnen mit der Registrierung zum Wettbewerb zugegangen ist.

In der Datei sind somit ID-Merkmal und zugehrige Klasse einzutragen,
und zwar jedes ID-Merkmal auf einer Zeile:

   ...
   73846,N
   73892,H
   73268,N
   73726,N
   ...


Daten
-----
Zwei Textdateien werden zur Verfgung gestellt:

   dmc2006_train.txt ... Trainingsmenge, 8.000 Datenstze,
      Das Zielmerkmal lautet "gms_greater_avg".
      Das ID-Merkmal heit "auct_id".
      
   dmc2006_class.txt ... Daten von 8.000 Bestellungen, fr die
      eine Vorhersage zu treffen ist.

Die einzelnen Spalten sind durch Tabulator voneinander getrennt. Sofern
keine Werte angegeben wurden, sind die Werte nicht bekannt, sie sind in
diesen Fllen als fehlende Werte zu behandeln.


Bewertung der Ergebnisse
------------------------
Der Jury ist das Merkmal "gms_greater_avg" aller 8.000 zu bewertenden
Bestellungen (dmc2006_class.txt) bekannt. Die eingesandten Ergebnisse
werden mit der bekannten Information ber die tatschliche Zuordnung
nach der im Szenario beschriebenen Regel verglichen und gem der unten
stehenden Kostenmatrix bewertet. 

Zur Bewertung der korrekten Klassenzuordnung wird folgende Kostenmatrix
angesetzt (siehe Text oben):

   |  H    N
---------------
H  |  1   -1 
   |
N  | -1    1  

Das heit, wurde laut Modell eine Auktion der Klasse H zugeordnet, und
gehrt diese auch tatschlich zur Klasse H (Hocherls), dann bekommt der
Teilnehmer fr diesen Datensatz 1 Punkt. Wurde die Auktion
flschlicherweise der Klasse N zugeordnet, erhlt der Teilnehmer fr
diesen Datensatz -1 Punkt.
 
Gewinner ist der Teilnehmer mit der hchsten Punktzahl. Im Fall von
Punktgleichheit entscheidet das Los. Der Rechtsweg ist ausgeschlossen.


Beschreibung der Merkmale
-------------------------
Die verwendeten Merkmale sind in der Datei DMC2006_Merkmale.pdf
beschrieben.


V I E L   E R F O L G   B E I M   L  S E N   D E R
D M C   A U F G A B E   2 0 0 6


Kontakt
-------
prudsys AG
DMC Team
Bergstrae 61
09113 Chemnitz

E-Mail: dmc@prudsys.de
WWW:    http://www.data-mining-cup.de

