본문 바로가기

파이썬(PYTHON)/개념정리
[파이썬(Python)] 크롤링

명령 프롬프트 - pip install beautifulsoup4, pip install requests 실행

'''
#크롤링

- 2가지 패키지 설치함.
    ~ beautifulsoup ( 웹페이지 정보를 스크래핑 기능 제공)
    ~ requests ( http처리 요청 기능 제공)

- cmd화면에서
    ~ pip install beautifulsoup4
    ~ pip install requests 실행함
'''


특정 부분 추출하기

import requests
from bs4 import BeautifulSoup

source = requests.get("https:/")# 요청 url 전체 문자열 가져오기(혹시 몰라 사이트 주소는 복사하지 않았다.)

soup = BeautifulSoup(source.text, "html.parser") # 전체 문자열을 단어를 찾기 쉽도록 사용

src = soup.select("div.container > ul.secList > li.secDesc > h3") #html 태그를 이용하여 찾아감

for i in src :
    print(i.text) #태그는 빼고 텍스트만 출력

크롤링 법적 문제

#크롤링은 상대방의 허락없이 하는 행위는 불법행위!!! 
사이트 주소 뒤에 /robots.txt 를 붙여보면 allow와 disallow에 관한 정보가 나와있다.
allow 에서는 크롤링 가능.

#그래서, 일반적으로 정보제공 API를 이용함.
- 네이버 API
- 기상정보 API
- 공공데이터 포털 API(https://www.data.go.kr/)

# 네이버 API 이용

https://developers.naver.com/docs/common/openapiguide/apicall.md#%EB%B9%84%EB%A1%9C%EA%B7%B8%EC%9D%B8-%EB%B0%A9%EC%8B%9D-%EC%98%A4%ED%94%88-api-%ED%98%B8%EC%B6%9C-%EC%98%88

- github 통해서 파이썬 오픈 코드 열람 가능