tomato.Rd
언론사인 뉴스토마토의 3년치 뉴스 기사와 이중에서 샘플링된 작은 뉴스기사 데이터
160,502 관측치와 7개의 변수를 포함하는 tibble 객체임. 변수들은 다음과 같음.:
뉴스 기사 제목
뉴스 기사 원본이 게시된 URL 주소
어느 정도 정제된 뉴스 기사
뉴스 기사를 작성한 저자나 기관
뉴스 기사를 생성한 일시.
뉴스 기사의 카테고리
뉴스 기사의 서브 카테고리.
"뉴스토마토 뉴스 기사 제공" in https://www.newstomato.com/, License : GPL-3
tomato 데이터셋은 뉴스토마토의 2020.01.01 ~ 2022.12.31까지의 3년치 기사 데이터로, 어느 정도 정제된 기사로 HTML 태그 등이 정제되어 있음. cherry_tomato 데이터셋은 정치, 산업, 사회 3개 카테고리 기준으로 뉴스 본문의 길이가 25분위에서 75분위 사이 각각 100개 뉴스기사를 추출함. (300 관측치) 데이터셋의 이름은 작은 크기의 데이터셋이므로 방울토마토(cherry tomato)로 명명함.