Você não é o único que se volta para a Wikipedia para fatos rápidos. Ultimamente, um dilúvio de treinamento de BOTS de IA em artigos da Wikipedia colocou uma enorme tensão nos servidores da organização.
Para conter o influxo de “tráfego não humano” raspando o site para treinamento de dados, a Wikipedia está adotando uma abordagem proativa: servir seus dados diretamente aos desenvolvedores de IA.
Na quarta -feira, a Wikimedia Foundation anunciou uma parceria Com a empresa de propriedade do Google Kaggle para lançar um conjunto de dados beta “com conteúdo estruturado da Wikipedia em inglês e francês”. Carregado em 15 de abril, a empresa disse que o conjunto de dados “simplifica o acesso a dados de artigo limpo e pré-paralisados que são imediatamente utilizáveis para modelagem, benchmarking, alinhamento, ajuste fino e análises exploratórias”.
De acordo com ARS TechnicaBots que rasparam as páginas da Wikipedia e da Wikimedia Commons 50 % de sua largura de bandaColocando uma tensão maciça na operação inteira da organização sem fins lucrativos. A Wikimedia espera que servir dados aos desenvolvedores os dissuadirem de implantar bots em todas as suas páginas.
Velocidade de luz mashable
A ascensão da IA generativa soltou uma enxurrada de robôs os rastreamentos com fome todos os cantos da Internet para obter mais dados. Para competir contra os rivais, as empresas de IA têm um apetite aparentemente insaciável por dados. Isso incluiu obras protegidas por direitos autorais, uma questão controversa com os artistas. Autores, artistas e músicos estão argumentando no tribunal que esse treinamento viola a lei de direitos autorais quando é feito sem crédito, compensação ou consentimento.
É por isso que empresas como Meta e OpenAI estão atualmente envolvidas em batalhas legais sobre a violação de direitos autorais de demandantes como o Autores Guild e The New York TimesAssim, quem argumenta essa prática não é protegida pelo Doutrina de uso justo.
Mas a diferença aqui é que todo o conteúdo da Wikipedia é licenciado sob o Creative Commons Attribution-Sharealike A licença, o que significa que seu conteúdo é gratuito para usar desde que seja adequadamente atribuído e distribuído sob a mesma licença. A Fundação Wikimedia disse Gizmodo Esse Kaggle pagou pelos dados através da Wikimedia Enterprise, e as empresas de IA “ainda devem respeitar os termos de atribuição e licenciamento da Wikipedia”.
A parceria entre a Wikimedia e a Kaggle representa um caminho mais sutil, permitindo que as empresas de IA treinem modelos em dados da Internet que foram legalmente e, pelo menos mais eticamente, obtidos.
Tópicos
Inteligência artificial