'''
#크롤링
- 2가지 패키지 설치함.
~ beautifulsoup ( 웹페이지 정보를 스크래핑 기능 제공)
~ requests ( http처리 요청 기능 제공)
- cmd화면에서
~ pip install beautifulsoup4
~ pip install requests 실행함
'''
import requests
from bs4 import BeautifulSoup
source = requests.get("https:/")# 요청 url 전체 문자열 가져오기(혹시 몰라 사이트 주소는 복사하지 않았다.)
soup = BeautifulSoup(source.text, "html.parser") # 전체 문자열을 단어를 찾기 쉽도록 사용
src = soup.select("div.container > ul.secList > li.secDesc > h3") #html 태그를 이용하여 찾아감
for i in src :
print(i.text) #태그는 빼고 텍스트만 출력
#크롤링은 상대방의 허락없이 하는 행위는 불법행위!!!
사이트 주소 뒤에 /robots.txt 를 붙여보면 allow와 disallow에 관한 정보가 나와있다.
allow 에서는 크롤링 가능.
#그래서, 일반적으로 정보제공 API를 이용함.
- 네이버 API
- 기상정보 API
- 공공데이터 포털 API(https://www.data.go.kr/)
# 네이버 API 이용
- github 통해서 파이썬 오픈 코드 열람 가능
'파이썬(PYTHON) > 개념정리' 카테고리의 다른 글
[파이썬(Python)] 리스트 내포 반복문, 조건문 (1) | 2022.10.08 |
---|---|
[파이썬(Python)] mutable, immutable, 깊은 복사, 얕은 복사 (0) | 2022.09.17 |
[파이썬(Python)] 간단한 Quiz (0) | 2022.07.30 |
[파이썬(Python)] 정규표현식 (0) | 2022.07.30 |
[파이썬(Python)] SQL (0) | 2022.07.28 |