Montag, 4. September 2017

Zeitenwende bei der IMDb

Von der breiten Nutzerschar weitgehend unbemerkt, steht bei der IMDb eine drastische Änderung bevor. Doch zunächst die Entwarnung: Die sprichwörtlichen 99 Prozent der Benutzer sind auch nicht davon betroffen und werden überhaupt nichts bemerken. Doch für mich und viele andere sind die Ankündigungen äußerst ärgerlich.

Die meisten Anwender kennen ja nur den WWW-Zugang. Doch seit jeher gab es die meisten Daten der IMDb auch in Form von Listen in gepackten Textdateien, die auf drei FTP-Servern lagen und einmal wöchentlich aktualisiert wurden. Diese Listen enthalten nicht alle Informationen der IMDb, beispielsweise fehlen die Daten zu Oscars und Preisen bei Filmfestivals, doch die meisten und wichtigsten Daten zu Filmen und Personen sind vorhanden. Aus den Listen kann man mit geeigneten Programmen Datenbanken (im technischen Sinn) für beispielsweise MySQL oder PostgreSQL erstellen und dann offline nutzen - völlig werbefrei und mit aufgeräumter, klar strukturierter Oberfläche, also angenehmer für das Auge als die überladene Web-Version, und schneller in der Bedienung. Und man kann mit der Datenbanksprache SQL sehr komplexe Abfragen durchführen und Statistiken erstellen, was online überhaupt nicht möglich ist. Ich habe diese Möglichkeiten seit mehr als 15 Jahren genutzt - tatsächlich vergeht kaum ein Tag, an dem ich zuhause bin und nicht die lokalen IMDb-Daten benutze. Weitaus am häufigsten geht es dabei um einfache Abfragen von Filmen oder Fernsehsendungen, aber was für interessante und komplexe Dinge damit auch möglich sind, habe ich in meinem Artikel über die kulturell bedeutendsten Filme gezeigt - und das ist nur ein sehr kleiner Bruchteil der Möglichkeiten. Ich habe beispielsweise auch alle Filmtitel, die ich auf DVD und Blu-ray habe, mit einem Script direkt in die lokalen IMDb-Daten importiert. Damit kann ich nicht nur Fragen beantworten wie "von welchen Regisseuren habe ich die meisten Spielfilme auf DVD" (es führt Akira Kurosawa mit 21 vor Renoir (17), Mizoguchi (16) und Hitchcock (15)), sondern beispielsweise "aus welcher Dekade und welchem Land habe ich die meisten Spielfilme" (und die Antwort ist "1960-1969 Japan 36"), ohne dass ich Daten zu Regisseuren, Ländern und Erscheinungsjahren selbst hätte eingeben müssen - diese Informationen stecken ja in der IMDb.

Mit all diesen schönen Dingen ist nun Schluss - jedenfalls mit aktuellen Daten. Schon vor einigen Wochen waren auf dem FTP-Server der FU Berlin, den ich zum Download der Listen benutze, diese plötzlich nicht mehr am gewohnten Ort. Stattdessen fand sich dort dieses README, aus dem hervorgeht, dass der FTP-Zugang zu den Daten abgeschafft und durch einen Zugang über die Amazon-Cloud S3 ersetzt wird. Immerhin wurden die Listendateien noch nicht gelöscht, sondern in ein anderes Verzeichnis verschoben - doch nur bis zum 10. September, dann sollen die Daten tatsächlich gelöscht werden. Wörtlich steht im README: "This more robust and reliable solution will replace the IMDb FTP sites, which will be retired on 2017-09-10." Nun ist FTP altbewährt, simpel, robust und auf den Transport größerer Dateien als bei HTTP optimiert. Es ist sozusagen der VW-Bus unter den Internetprotokollen. Die proprietäre Cloud eines Internetkonzerns als robuster und verlässlicher zu erklären, ist doch etwas fragwürdig. Es beginnt schon damit, dass S3 nur mit Anmeldung funktioniert, während der FTP-Zugang natürlich völlig anonym ist. Und der Download von Daten aus S3 ist auch nicht umsonst. Kleine Datenmengen kosten wohl auch nur sehr wenig, aber trotzdem - bisher war es völlig umsonst.

Die IMDb wurde 1998 von Amazon gekauft. Als es damals Befürchtungen wegen einer bevorstehenden Kommerzialisierung gab, versprachen Amazon und die Leute von der IMDb, dass sich für die Nutzer nichts ändern werde. Dieses Versprechen wurde weitgehend gehalten - bis jetzt. In diesem Diskussionsforum der IMDb wurden die Änderungen ausführlicher angekündigt. Wie zu erwarten, war die Reaktion der User weitgehend negativ (ich habe auch meinen Senf dazugegeben). Daraufhin hat IMDb-Gründer und Chef (CEO) Col Needham in einem Posting vor zwei Wochen ein kleines bisschen zurückgerudert und die Gründe für den Umbau erläutert, die teilweise nachvollziehbar sind (schwere Wartbarkeit der Listen). Es soll jetzt wohl auch einen Zugang über HTTP geben, der keine Anmeldung bei S3 erfordert und keine Gebühren kostet. Soweit die gute Nachricht, auch wenn das vorerst noch vage bleibt und nach der Abschaltung von FTP erst mal nur die Cloud bleibt (wenn sich nicht in den nächsten Tagen noch etwas tut). Und auch dafür soll immerhin ein IMDb-Account nötig sein, was bisher auch nicht der Fall war. Doch das viel größere Ärgernis ist ohnehin, dass es nur noch einen Bruchteil der bisherigen Daten zum Download geben wird: "The sets of data we provide are updated to only include the essential ones that help with matching and linking to an IMDb title or name." Das soll wohl auch heißen, dass man sich von der Maßnahme noch mehr Hits auf www.imdb.com erhofft, als ob die prozentual sehr wenigen Nutzer der FTP-Daten da bisher eine nennenswerte Lücke gerissen hätten. Nebenbei sind natürlich auch bei den bisherigen Daten klickbare Links zur Online-Version vorhanden, wenn man ein passendes Programm wie AMDbFront verwendet. Welche wenigen Daten der ursprünglichen Planung nach zur Verfügung stehen sollten, kann man detailliert hier lesen. Wie Col Needham im erwähnten Posting schreibt, sollen daneben nun auch die fremdsprachigen AKA-Titel zugänglich bleiben. Das ist nur ein dürres Zugeständnis, ansonsten heißt es nur sehr vage: "Longer term, we are looking at the possibility of daily diff files for at least some of the data in the basic set."

Wie gesagt - all die oben erwähnten schönen Dinge werden dann mit neuen Daten nicht mehr möglich sein. Wie aus den Kommentaren im Diskussionsforum hervorgeht, bin ich keineswegs der einzige, der sich solche Programme oder Scripts rund um die Listen gebastelt hat. Ich werde jedenfalls am nächsten Wochenende, wenn es zum letzten Mal aktualisierte Daten in der alten Form gibt, meine Installation "einfrieren" und weiter betreiben, weil das für mich einfach unverzichtbar ist. Dass die Daten dann langsam veralten, muss ich in Kauf nehmen. Ob ich zusätzlich auch auf den neuen Zugang zugreife, weiß ich noch nicht. Da muss ich erst sehen, wie sich das entwickelt. Bei der Amazon-Cloud werde ich mich jedenfalls nicht anmelden. Wer selbst eine lokale IMDb betreibt, aber noch nichts von der Änderung mitbekommen hat, weil er die Daten nur selten aktualisiert (oder wer jetzt noch damit anfangen will), der sollte noch schnell aktuelle Listen herunterladen. In ein paar Tagen sind sie weg, vermutlich für immer, wenn nicht noch im letzten Moment ein Umdenken kommt.

UPDATE, 8. September: Gerade wurde bekanntgegeben, dass wegen der Bemühungen, die (nach wie vor arg geschrumpften) Daten auch über HTTP ohne einen S3-Account zur Verfügung zu stellen, die Abschaltung der FTP-Server auf den 7. November 2017 verschoben wurde.

ZWEITES UPDATE, Mai 2018: Die Sache ist nun endgültig gelaufen. Die Frist wurde ein zweites Mal bis Ende Dezember 2017 verlängert, doch dann war Schluss. Die FTP-Files sind bis auf Weiteres noch abrufbar, im neuen Verzeichnis ftp://ftp.fu-berlin.de/pub/misc/movies/database/frozendata/, doch sie werden nicht mehr aktualisiert. Alle Listen bis auf eine sind auf dem Stand vom 22.12.2017 eingefroren (deshalb "frozendata"), aber ausgerechnet die größte Liste, actors.list, wurde aus unerfindlichen Gründen auf dem Stand vom 22.09.2017 belassen (die Leute von der IMDb haben sich trotz mehrfacher Nachfrage nicht dazu geäußert).

Wie angekündigt, gibt es nun einen Zugang per HTTP, für den man keinen Account bei Amazon benötigt, aber wie ebenfalls angekündigt, gibt es nur noch einen Bruchteil der ursprünglichen Daten.

4 Kommentare:

  1. Ich gehöre wohl zu den sprichwörtlichen 99 Prozent der IMDb-User. Meine Filmsammlung habe ich mehr schlecht als recht in einer ganz „klassischen“ und „simplen“ Excel-Tabelle katalogisiert. Aber den Unmut kann ich natürlich verstehen. Das ist schon ärgerlich, wenn etwas Angestammtes mit so wenig Vorlauf einfach gekappt wird.
    Die Crew-Liste für die Übergangs- und die Cloud-Lösung ist mit „directors“ und „writers“ ja sehr, sehr übersichtlich geraten. Ich sehe, dass in der ursprünglichen Variante mindestens noch „cinematographer“, „actors“/ „actresses“, „composers“, „editors“, „producers“, „costume-designers“ und „production designers“ drin waren. War „plot“ eigentlich das „plot keywords“ – hätte man seine Liste also auch abgleichen können z. B. auf den Keyword „courtroom“ (wenn man etwa in seiner Sammlung alle Gerichtsfilme sucht)?
    Dieses oder letztes Jahr hat IMDb auf den Filmseiten die Diskussionsforen recht klanglos abgeschafft. Klar, da gab es viele Trolls, haufenweise Uninteressantes, aber manchmal auch sehr bemerkenswerte und interessante Ausführungen. IMDb scheint ja jetzt gerade vieles – und offenbar nicht zum Besseren – zu ändern.

    AntwortenLöschen
    Antworten
    1. Ich sehe, dass in der ursprünglichen Variante mindestens noch „cinematographer“, „actors“/ „actresses“, „composers“, „editors“, „producers“, „costume-designers“ und „production designers“ drin waren

      Ja, und außerdem gibt es noch "miscellaneous", was je nach Bedeutung und Bekanntheitsgrad des Films mehr oder weniger gut gefüllt ist und oft auch ganz fehlt. Um mal einen etwas bekannteren Film als Beispiel zu nehmen, bei CITIZEN KANE sind allein unter "miscellaneous" 61 Namen aufgelistet. Dass das jetzt auf Regisseure und Autoren eingedampft wird und sogar die Kameraleute wegfallen, ist schon kläglich. Und wenn ich das richtig verstanden habe, werden bei den Darstellern jetzt auch nur noch die Hauptrollen ("principal cast") aufgeführt (bei CITIZEN KANE sind es in der bisherigen Liste 246).

      War „plot“ eigentlich das „plot keywords“

      Nein, das sind die kurzen Zusammenfassungen von normalerweise einem Absatz oder auch nur ein oder zwei Zeilen, die man online unter "Plot Summary" findet. Da können auch mehrere zu einem Film vorhanden sein (oder gar keine), je nachdem, wieviele User da eben etwas eingereicht haben.

      hätte man seine Liste also auch abgleichen können z. B. auf den Keyword „courtroom“ (wenn man etwa in seiner Sammlung alle Gerichtsfilme sucht)?

      Ja, dafür gibt es keywords als eigene Liste. Außerdem kann man in allen Kategorien (z.B. auch in den Plot Summaries) eine Volltextsuche machen (das kann aber etwas dauern).

      Stimmt, die Löschung der Diskussionsforen hat auch wenig Begeisterung hervorgerufen.

      Löschen
  2. Ja, die IMDB... So toll und gut und nützlich sie immer war und immer noch ist, so versprach die Amazon-Übernahme Ende der 90er ja nichts Gutes.

    Ich habe mich innerhalb der letzten 10 Jahre bereits damit abgefunden, dass selbst die Datenbank mit ihren ausführlichen Angaben und Informationen wohl nicht (mehr) das eigentliche Ziel der Website darstellt, da man zu abwegigeren Filmemachern und technischen Details meist nur lückenhafte und stark fehlerbehaftete Angaben findet (wenn man überhaupt was findet), und sich das über die Jahre auch nie gebessert hat...

    Insofern ist das alles vermutlich lediglich ein weiterer Sargnagel auf dem sich immer weiter vom ursrünglichen "User" entfernenden Weg hin zum bevormundeten Konsumenten.

    Ich denke, es ist schon seit langem vernünftig und empfehlenswert, sich in keinerlei Hinsicht auf IMDB zu verlassen, und die angebotenen Features eben noch so lange (kostenlos) zu nutzen, wie sie angeboten werden. Die Utopie einer immer weiter wachsenden, frei zugänglichen Filmdatenbank mit immer mehr Informationen und Möglichkeiten der Interaktion mit den Daten, wird wohl für immer eine Utopie bleiben. Und etwaigen Glücksversprechen gilt es auch in Zukunft mit Vorsicht und Bedacht zu begegnen.

    AntwortenLöschen
    Antworten
    1. da man zu abwegigeren Filmemachern und technischen Details meist nur lückenhafte und stark fehlerbehaftete Angaben findet (wenn man überhaupt was findet)

      Da sind die Filme von Questi, die ich gerade besprochen habe, ein gutes Beispiel. Kein einziger davon findet sich in der IMDb.

      Und etwaigen Glücksversprechen gilt es auch in Zukunft mit Vorsicht und Bedacht zu begegnen.

      Das sowieso ... :-)

      Löschen

Wenn Du einen Kommentar hinterlässt und mit einem Google-Account eingeloggt bist oder deinen Namen (und ggf. Website) eingibst, werden diese Daten (und unter Umständen auch weitere personenbezogene Daten, wie z.B. deine IP-Adresse, auch bei anonymen Kommentaren) an Google-Server übermittelt. Mehr Infos dazu findest du in unserer Datenschutzerklärung und in der Datenschutzerklärung von Google.

Wenn Du über einen Google-Account eingeloggt bist, kannst du durch Ankreuzen der Checkbox "Ich möchte Benachrichtigungen erhalten" die Kommentare zu diesem Post abonnieren. Benachrichtigungs-Emails werden bei weiteren Kommentaren automatisch an die Email-Adresse verschickt, mit der Du im Google-Account eingeloggt bist. Das Abonnement kann jederzeit wieder gekündigt werden über den Link "Abmelden" in der Benachrichtigungs-Email.