Un dataset di recensioni di film per la sentiment analysis

Questo dataset, a cura di Andrew Maas dell’Università di Stanford, contiene 50000 recensioni di film molto popolari suddivise equamente in due sottoinsiemi: uno di training e uno di test.

I dati raw sono in formato csv con tre campi: review, sentiment, set.

Il primo corrisponde alla recensione in inglese, il secondo è l’etichetta che indica la classe del giudizio (1 – positivo, 0 – negativo) e l’ultimo l’insieme di appartenenza (con due possibili valori: train e test).

Il suo impiego principale è per la sentiment analysis ed in particolare è stato utilizzato da Sebastian Raschka per mostrare come sia possibile gestire con Scikit-learn una quantità di dati consistente.

Si può scaricare dal link http://ai.stanford.edu/~amaas/data/sentiment/ (circa 80 Mb)

Lascia una risposta

L'indirizzo email non verrà pubblicato. I campi obbligatori sono contrassegnati *

Utilizzando il sito, accetti l'invio dei cookies da parte nostra. Maggiori informazioni

Questo sito utilizza i cookies per fornire la migliore esperienza di navigazione possibile. Continuando ad utilizzarlo senza modificare le impostazioni o cliccando su "Accetta" acconsenti al loro utilizzo.

Chiudi