728x90
반응형

웹 크롤링 4

[웹크롤링] 04. beautifulSoup 좀더 자세히

🙆‍♂️ 코드 리뷰 from requests import get from bs4 import BeautifulSoup base_url="https://community.bu.ac.kr/info/1787/subview.do" response = get(f"{base_url}") if response.status_code != 200: print("Can't") else: soup=BeautifulSoup(response.text,"html.parser") print(soup.find_all('td',class_="_artclTdTitle")) 현재 이코드로 돌리면 정제되지 않은 불필요한 정보도 얻을 수 있습니다. 출력값이 list 형태인 것을 생각해보고 다시 코드를 작성하면 from requests imp..

[웹크롤링] 03. beautifulsoup4

🙆‍♂️개념 웹 스크래핑을 위해서 beutifulsoup4를 설치해서 사용해야 합니다. https://pypi.org/project/beautifulsoup4/ beautifulsoup4 Screen-scraping library pypi.org 해당 라이브러리는 위에서 설명해줍니다. 저는 Anaconda의 Jupyter-notebook을 사용하기 때문에 설치되어 있답니다. 이 때 주의할 점이 웹 스크래핑을 할 때 상업적으로 이용할 목적이라면 아주아주 조심해야 합니다. 이용약관과 법을 잘 찾아서 해보시구 저는 비 상업적 목적으로 진행할 예정입니다. 🙋‍♂️ 학사 공지사항 가져오기 from requests import get base_url="https://community.bu.ac.kr/info/178..

[웹크롤링] 02. requests 라이브러리

🙆‍♂️ requests 라이브러리 pypi에 등록되어 있는 다양한 프로젝트와 라이브러리 중 requests라는 라이브러리를 사용해서 파이썬 코드로 웹 사이트로 request를 보낼 것입니다. https://pypi.org/project/requests/ requests Python HTTP for Humans. pypi.org 설치는 위의 문서를 통해서 할 수 있습니다. 저는 anaconda의 jupyter-notebook을 사용해서 따로 설치를 하지 않아도 있습니다! import requests 이렇게 사용해도 되구 from requests import get 이렇게 사용해도 됩니다. 이렇게 사용할 것입니다. from requests import get webs=( "google.com", "airb..

[웹크롤링] 01. URL 포맷하기

🙆‍♂️ URL Formatting 먼저 URL Format을 해줘야 합니다. https가 있어야 웹 사이트 이동이 가능합니다. 그래서 https가 붙어있는 string은 그냥 이동하고 아니라면 https를 붙여서 이동해주는 작업이 필요합니다. webs=( "google.com", "airbnb.com", "https://www.naver.com", "twitter.com" ) for web in webs: if web.startswith("https://"): print(True) else: print(False) 우선 위의 코드를 보면 webs 튜플에 website들이 등록되어 있습니다. 그 밑에 for문을 보면 webs의 데이터들을 startwith 이라는 메소드를 통해서 값이 https://로 시..

728x90
반응형