파이썬데이터처리 2026년 1학기 방송통신대 중간과제물)뉴스 데이터 수집 및 전처리 공공 API를 활용한 데이터 수집 및 분석 등



파이썬데이터처리 2026년 1학기 방송통신대 중간과제물)뉴스 데이터 수집 및 전처리 공공 API를 활용한 데이터 수집 및 분석 등
파이썬데이터처리 2026년 1학기 방송통신대 중간과제물)뉴스 데이터 수집 및 전처리 공공 API를 활용한 데이터 수집 및 분석 등 파이썬데이터처리.zip
해당 자료는 해피레포트 유료 결제 후 열람 가능하며,
세일즈 링크를 통한 구매시 작성자에게 수수료가 지급됩니다.
분량 : 12 페이지 /zip 파일
설명 : – 교재를 중심으로 쉽게 따라할 수 있도록 자세한 설명을 담아 정성을 다해 명확하게 작성하였습니다.
– 파이썬 파일(py), 주피터노트북 파일(ipynb), csv 파일을 첨부하였습니다.
– 과제물 지시사항에 따른 형식과 내용으로 완벽하게 작성하였습니다.
– 한눈에 내용이 들어올 수 있게 가독성을 고려하여 일목요연하게 작성하였습니다.
– 한글맞춤법을 정확하게 준수하였습니다.

바쁜 일상 속에서 양질의 리포트를 작성하시는 데, 시간과 노력을 최소화할 수 있는 과제물로 리포트 작성에 참고하시어 좋은 성적 받으세요.^^

글자 모양(맑은고딕, 장평 100%, 크기 11 pt, 자간 0%)

과제 스트레스 싹~ 학점 쑥!

목차

문제 1. 뉴스 데이터 수집 및 전처리 (15점)

1. 개요
2. 데이터 수집
3. 결측치 및 데이터 정제
4. 비교분석

문제 2. 공공 API를 활용한 데이터 수집 및 분석 (15점)



1. Extract
2. Transform
3. Load & Insight

* 참고문헌

본문일부

문제 1. 뉴스 데이터 수집 및 전처리 (15점)

1. 개요

requests와 BeautifulSoup는 파이썬에서 웹 데이터를 수집할 때 가장 널리 사용되는 라이브러리다. 두 모듈을 함께 사용하면 웹 페이지를 가져오고 그 안의 정보를 구조적으로 추출할 수 있다.

먼저 requests는 웹 서버에 HTTP 요청을 보내는 라이브러리다. 쉽게 말해 브라우저 대신 파이썬 코드로 웹 페이지를 불러오는 역할을 한다. 특정 URL에 접속해 HTML 문서를 받아오거나, POST 방식으로 데이터를 전송하는 작업을 수행한다. 사용 방법은 매우 직관적이며, requests.get(URL) 형태로 요청을 보내고, response.text로 HTML 소스를 얻는다. 상태 코드(response.status_code)를 통해 요청 성공 여부도 확인할 수 있다.

BeautifulSoup는 가져온 HTML 문서를 분석하고 원하는 정보를 추출하는 파서(parser)다. HTML은 태그 구조로 이루어져 있기 때문에 단순 문자열 처리로는 원하는 데이터를 찾기 어렵다. BeautifulSoup는 HTML을 트리 구조로 변환해 주며, 태그 이름, 클래스, id 등을 기준으로 요소를 쉽게 선택할 수 있게 한다. BeautifulSoup은 문서를 트리 구조로 변환하여 특정 태그, 속성, 텍스트를 직관적으로 검색하거나 수정할 수 있게 하며, CSS 선택자나 태그 이름, 클래스 이름 등을 이용해 원하는 요소를 빠르게 찾아낼 수 있다. 예를 들어 soup.select(“div.title”)처럼 CSS 선택자를 이용해 특정 요소를 찾을 수 있다. 따라서 BeautifulSoup는 “가져온 웹 페이지를 해석하고 필요한 부분만 골라내는 도구”라고 이해하면 된다. 다만, 로그인이 필요하거나 동적 페이지 등의 경우에는 BeautifulSoup 대신 Selenium 모듈을 사용하는 것이 적합하다.



이상의 내용을 바탕으로 requests, BeautifulSoup 모듈을 사용하여 ‘부동산’과 ‘주식’이라는 키워드를 사용하여 관련 기사 100건을 수집하고 이 데이터를 문제의 지시사항에 따라 분석하였다.

참고문헌

한종대, 민경하(2025). 파이썬데이터처리. KNOU PRESS.

    
출처 : 해피레포트 자료실

답글 남기기