언론사인 뉴스토마토의 3년치 뉴스 기사와 이중에서 샘플링된 작은 뉴스기사 데이터

data(cherry_tomato)

data(tomato)

Format

160,502 관측치와 7개의 변수를 포함하는 tibble 객체임. 변수들은 다음과 같음.:

title

뉴스 기사 제목

url

뉴스 기사 원본이 게시된 URL 주소

contents

어느 정도 정제된 뉴스 기사

author

뉴스 기사를 작성한 저자나 기관

create_dt

뉴스 기사를 생성한 일시.

category

뉴스 기사의 카테고리

subcategory

뉴스 기사의 서브 카테고리.

Source

"뉴스토마토 뉴스 기사 제공" in https://www.newstomato.com/, License : GPL-3

Details

tomato 데이터셋은 뉴스토마토의 2020.01.01 ~ 2022.12.31까지의 3년치 기사 데이터로, 어느 정도 정제된 기사로 HTML 태그 등이 정제되어 있음. cherry_tomato 데이터셋은 정치, 산업, 사회 3개 카테고리 기준으로 뉴스 본문의 길이가 25분위에서 75분위 사이 각각 100개 뉴스기사를 추출함. (300 관측치) 데이터셋의 이름은 작은 크기의 데이터셋이므로 방울토마토(cherry tomato)로 명명함.