파이썬(PYTHON)/개념정리
[파이썬(Python)] 크롤링
Hana_h
2022. 7. 31. 16:45
'''
#크롤링
- 2가지 패키지 설치함.
~ beautifulsoup ( 웹페이지 정보를 스크래핑 기능 제공)
~ requests ( http처리 요청 기능 제공)
- cmd화면에서
~ pip install beautifulsoup4
~ pip install requests 실행함
'''
import requests
from bs4 import BeautifulSoup
source = requests.get("https:/")# 요청 url 전체 문자열 가져오기(혹시 몰라 사이트 주소는 복사하지 않았다.)
soup = BeautifulSoup(source.text, "html.parser") # 전체 문자열을 단어를 찾기 쉽도록 사용
src = soup.select("div.container > ul.secList > li.secDesc > h3") #html 태그를 이용하여 찾아감
for i in src :
print(i.text) #태그는 빼고 텍스트만 출력
#크롤링은 상대방의 허락없이 하는 행위는 불법행위!!!
사이트 주소 뒤에 /robots.txt 를 붙여보면 allow와 disallow에 관한 정보가 나와있다.
allow 에서는 크롤링 가능.
#그래서, 일반적으로 정보제공 API를 이용함.
- 네이버 API
- 기상정보 API
- 공공데이터 포털 API(https://www.data.go.kr/)
# 네이버 API 이용
- github 통해서 파이썬 오픈 코드 열람 가능