数据集概况

本数据集采集于豆瓣电影,电影与明星数据收集于2019年8月上旬,影评数据(用户、评分、评论)收集于2019年9月初,共945万数据,其中包含14万部电影,7万演员,63万用户,416万条电影评分,442万条影评,该数据集正好弥补下国内公开电影​数据集的空缺。数据已经过初步清洗,可用于推荐系统、情感分析、QA问答、知识图谱等多个领域。

数据集共有5个文件: movies.csv、person.csv、users.csv、comments.csv、ratings.csv,关于各个文件的具体内容将在下文介绍。

使用许可

该数据集只为方便各位研究人员,如涉及侵犯个人或团体利益,请与我们联系,我们将主动撤销一切相关数据,谢谢!

数据使用需遵循豆瓣使用协议 & 豆瓣隐私政策,

该数据集仅限用于研究目的,我们不能保证数据的正确性以及任何场景的适用性。对于使用这份数据的用户,必须严格遵循下列条件:

未经许可,用户不得将此数据集用于任何商业或收入交易用途。
未经单独许可,用户不得重新转发数据。
用户在使用数据集时,必须声明数据来源。
在任何情况下,我们均不对因使用这些数据而造成的任何损失承担责任(包括但不限于数据丢失或数据不准确)。如果您有任何其他问题或意见,请发送电子邮件至: csu.ldw@csu.edu.cn

数据格式

Movie数据格式

电影数据共140502部,2019年之前的电影有139129,当前未上映的有1373部,包含21个字段,部分字段数据为空,字段说明如下:

MOVIE_ID: 电影ID,对应豆瓣的DOUBAN_ID
NAME: 电影名称
ALIAS: 别名
ACTORS: 主演
COVER: 封面图片地址
DIRECTORS: 导演
GENRES: 类型
OFFICIAL_SITE: 官方地址
REGIONS: 制片国家/地区
LANGUAGES: 语言
RELEASE_DATE: 上映日期
MINS: 片长
IMDB_ID: IMDbID
DOUBAN_SCORE: 豆瓣评分
DOUBAN_VOTES: 豆瓣投票数
TAGS: 标签
STORYLINE: 电影描述
SLUG: 加密的url,可忽略
YEAR: 年份
ACTOR_IDS: 演员与PERSON_ID的对应关系,多个演员采用“|”符号分割,格式“演员A:ID|演员B:ID”;
DIRECTOR_IDS: 导演与PERSON_ID的对应关系,多个导演采用“|”符号分割,格式“导演A:ID|导演B:ID”;

Person数据格式

Person文件只包括演员和导演,不包含豆瓣用户数据,共72959个名人数据,包含10个字段,每个PERSON_ID都会对应一个name,不存在PERSON_ID的数据已过滤,各个字段说明如下:

PERSON_ID: 名人ID
NAME: 演员名称
SEX: 性别
NAME_EN: 更多英文名
NAME_ZH: 更多中文名
BIRTH: 出生日期
BIRTHPLACE: 出生地
CONSTELLATORY: 星座
PROFESSION: 职业
BIOGRAPHY: 简介,存在简介数据的名人只有15135个。

User数据格式

users.csv数据为豆瓣用户的脱敏信息,主要是与评论和评分绑定在一起,共获取了639125用户数据,包含2个字段(已删除两个),具体的字段如下:

USER_MD5:USER_ID加密的MD5,去敏处理
USER_NICKNAME: 评论用户昵称
USER_AVATAR: 评论用户头像(已删除)
USER_URL: 评论用户url(已删除)

Rating数据格式

评分数据从评论数据中获得,由于豆瓣限制了未登录用户查看的数据量,所以每部电影最多320个评分,最终得到600384个用户的4169420条评分数据,涉及电影68471部,评分值为1-5分(1-很差,2-较差,3-还行,4-推荐,5-力荐),共包含5个字段,数据格式如下:

RATING_ID: 评分ID
USER_MD5:USER_ID加密的MD5
MOVIE_ID: 电影ID,对应豆瓣的DOUBAN_ID
RATING: 评分
RATING_TIME: 评分时间
Comment数据格式
评论数据共4428475 条,用户638963个,电影68887包含7个字段,各个字段说明如下:

COMMENT_ID: 评论ID
USER_MD5:USER_ID加密的MD5
MOVIE_ID: 电影ID,对应豆瓣的DOUBAN_ID
CONTENT: 评论内容
VOTES: 评论赞同数
RATINGS: 评论携带的分数
COMMENT_TIME: 评论时间

下载地址

暂时不对外公开,有兴趣的朋友可以加我微信了解:Ysnvbaby