728x90
반응형

웹 크롤링 기초 3

[웹크롤링] 04. beautifulSoup 좀더 자세히

🙆‍♂️ 코드 리뷰 from requests import get from bs4 import BeautifulSoup base_url="https://community.bu.ac.kr/info/1787/subview.do" response = get(f"{base_url}") if response.status_code != 200: print("Can't") else: soup=BeautifulSoup(response.text,"html.parser") print(soup.find_all('td',class_="_artclTdTitle")) 현재 이코드로 돌리면 정제되지 않은 불필요한 정보도 얻을 수 있습니다. 출력값이 list 형태인 것을 생각해보고 다시 코드를 작성하면 from requests imp..

[웹크롤링] 02. requests 라이브러리

🙆‍♂️ requests 라이브러리 pypi에 등록되어 있는 다양한 프로젝트와 라이브러리 중 requests라는 라이브러리를 사용해서 파이썬 코드로 웹 사이트로 request를 보낼 것입니다. https://pypi.org/project/requests/ requests Python HTTP for Humans. pypi.org 설치는 위의 문서를 통해서 할 수 있습니다. 저는 anaconda의 jupyter-notebook을 사용해서 따로 설치를 하지 않아도 있습니다! import requests 이렇게 사용해도 되구 from requests import get 이렇게 사용해도 됩니다. 이렇게 사용할 것입니다. from requests import get webs=( "google.com", "airb..

[웹크롤링] 01. URL 포맷하기

🙆‍♂️ URL Formatting 먼저 URL Format을 해줘야 합니다. https가 있어야 웹 사이트 이동이 가능합니다. 그래서 https가 붙어있는 string은 그냥 이동하고 아니라면 https를 붙여서 이동해주는 작업이 필요합니다. webs=( "google.com", "airbnb.com", "https://www.naver.com", "twitter.com" ) for web in webs: if web.startswith("https://"): print(True) else: print(False) 우선 위의 코드를 보면 webs 튜플에 website들이 등록되어 있습니다. 그 밑에 for문을 보면 webs의 데이터들을 startwith 이라는 메소드를 통해서 값이 https://로 시..

728x90
반응형