Perplexity, OpenAI und Anthropic verwenden unrechtmäßig Artikel aus bekannten Publikationen, um ihre KI-Modelle zu trainieren

Von Nastya Bobkova | 23.06.2024, 15:18
Perplexity, OpenAI und Anthropic verwenden unrechtmäßig Artikel aus bekannten Publikationen, um ihre KI-Modelle zu trainieren

Reuters berichtet, dass einige Unternehmen für künstliche Intelligenz (KI) die robots.txt-Anweisungen ignorieren, die sie daran hindern sollen, Daten von Websites zu sammeln.

Was bekannt ist

Dies hat bei Verlegern Besorgnis ausgelöst, die behaupten, dass KI-Firmen ihre Inhalte ohne Erlaubnis stehlen und sie zum Trainieren ihrer Modelle verwenden.

Ein Beispiel ist Perplexity, das sich selbst als "kostenlose KI-Suchmaschine" bezeichnet. Das Unternehmen wurde beschuldigt, Forbes-Artikel zu stehlen und sie auf seinen eigenen Plattformen zu veröffentlichen. Wired berichtete außerdem, dass Perplexity die robots.txt von Condé Nast und anderen Publikationen ignoriert, um deren Inhalte abzugreifen.

Nach Angaben von Reuters ist Perplexity nicht das einzige Unternehmen dieser Art. Die Agentur erhielt ein Schreiben von TollBit, einem Startup, das Verlagen hilft, ihre Inhalte an KI-Unternehmen zu lizenzieren. In dem Schreiben heißt es, dass "KI-Agenten aus mehreren Quellen beschlossen haben, robots.txt zu umgehen, um Inhalte von Websites abzurufen".

TollBit nennt keine konkreten Unternehmen, aber Business Insider berichtet, dass OpenAI und Anthropic, Entwickler von ChatGPT bzw. Claude Chatbots, ebenfalls robots.txt ignorieren.

Die Verleger sind besorgt, dass KI-Unternehmen ihre Inhalte ohne ihre Zustimmung und ohne angemessene Vergütung nutzen. KI-Modelle können auf verzerrte oder ungenaue Daten trainiert werden, was zur Verbreitung von Fehlinformationen führen kann.

Einige Publikationen haben bereits Schritte unternommen, um ihre Inhalte zu schützen. So hat Forbes beispielsweise Perplexity von seiner Website verbannt.

Die Situation mit robots.txt und KI-Unternehmen zeigt die zunehmenden Spannungen zwischen Verlagen und KI-Unternehmen. Es ist wichtig, eine Lösung zu finden, die es KI-Unternehmen ermöglicht, auf die Daten zuzugreifen, die sie zum Trainieren ihrer Modelle benötigen, und die gleichzeitig die Interessen der Verleger schützt.

Quelle: Reuters