crawl

크롤링 BeautifulSoup 요약 2019.11.06 2
크롤링(Crawl) 2편 2019.10.27 2
웹 크롤링 Crawl 1편 2019.10.24 1
Python BeautifulSoup 웹크롤링/HTML 파싱. 2018.04.25

크롤링 BeautifulSoup 요약

2019. 11. 6. 19:49

BeautifulSoup

HTML, XML 문서를 구조적으로 분석하여 원하는 데이터를 쉽게 추출하게 도와주는 모듈.
bs4 (버전4)를 사용하기를 권장함.

간단하게 요약

설치
pip install beautifulsoup4
pip install lxml

from bs4 import BeautifulSoup
soup = BeautifulSoup(html) # html 문서를 파싱한다. (string, network connection 등)
print(soup.prettify())  # HTML을 이쁘게 출력한다.

soup.title # <title>hello</title>
soup.title.string # hello
soup.title.parent.name # head
soup.p # <p class="tt"><b>hi</b></p>
soup.p['class']  # tt
soup.a  # <a class='sister' href='http://abc.com/el' id='link1'>El</a>

soup.find_all('a') # [<a>..</a>, <a>...</a>, <a>..</a> ]

soup.find(id='link3') # <a href="http://abc.com/ea', id='link3'>EA</a>

for link in soup.find_all('a'):
	print(link.get('href')) # http://....

soup.get_text() # hello hi El....

BeautifulSoup(markup, parser)
- markup : html 문서 스트링, html 문서 파일핸들, 네트웍 커넥션 등
- parser : ‘html.parser’ 또는 ‘lxml’
- lxml이 더 빠르고 관대함. xml도 지원.
태그 출력은 preffify() : 이쁘게 출력한다. soup.prettify()
그대로 출력하려면 str()로 타입캐스팅. str(soup)
태그는 .태그명으로 접근한다. 기본적으로 이름이 있고 .name 으로 알 수 있으며 name을 변경하면 문서에도 반영된다.
- soup.p = “div”
태그의 속성은 [속성]으로 접근한다. 또는 get()으로 접근할 수 있다. 속성은 .attrs로 알 수 있다.
- soup.p.attrs # 속성목록 조회 {‘class’:‘bold’}
- soup.p[‘class’] : 속성을 구한다. 키가 없으면 KeyError 발생
- soup.p.get(‘class’) : 위와 같지만 키가 없으면 None리턴으로 존재여부 체크를 할 수 있음.
- 속성값이 여러개면 리스트로 반환된다.
태그의 속성 수정
- soup.p[‘class’]=‘verybold’
- soup.p[‘id’]=1
- soup.p
 
- del soup.p[‘class’] # 속성 삭제
스트링 변경
- soup.p.string.replace_with(“new text”)
스트링 추출 (string vs text)
- soup.p.string : p태그 내의 스트링. 주의! 내부에 순수하게 스트링만 존재해야함. 아니면 None. (태그가 있어도 안됨.)
- soup.p.text 또는 soup.p.get_text() : 내부의 텍스트를 전체 가져옴.
태그의 자손. 리스트로 리턴한다.
- soup.p.contents : 리스트로 가져온다.

find / find_all

태그를 찾는다. 클래스나 아이디로도 검색가능. find는 한 개를 찾고 find_all은 복수개를 찾는다. find_all은 리스트로 리턴한다.

find_all(“title”) : title태그를 모두 찾는다.
find_all(“p”, “title”) : p태그 중 class가 title인 태그를 모두 찾는다.
find_all(id=“link2”) : ID로 찾는다.
find_all(class_=re.compile(“itl”)) : 클래스명에 itl이 들어간 태그들 모두 추출
find_all(text=“elise”) : 문자열 찾기
find_all(“a”, text=“elise”) : 태그내의 문자열로 태그 찾기
정규식 지원
- soup.find_all( re.compile("^b")) : b로 시작하는 태그 모두 추출. ( b, body 등)
여러 태그 추출도 가능
- soup.find_all([“a”, “b”]) : 리스트로 주면 리스트내의 태그들을 모두 찾는다.
- find_all(“a”, limit=2) : 최대 2개만 찾는다.
- find_all(“title”, recursive=False) : 1뎁스(직계차일드)만 검색함. 예를 들면 soup.html.에서 위와 같이 찾으면 [] 리턴(not found.)
- find_all() 대신 ()만 사용해도 같다. (함수이름 생략) 예를 들면 soup.title.find_all(text=True)는 soup.title(text=True) 와 동일.
- find()는 처음 발견된 한 개만 리턴. (find_all에서 limit=1을 주면 동일한데, 리스트가 아닌 스트링(태그객체)으로 리턴.)
- Not Found인 경우, find()는 None 리턴. find_all()은 [] 리턴.

find_parent/ find_parents

find / find_all의 반대. 상위계층으로 올라가면서 찾는다.
a_string = soup.find(text=‘top10’) # u’top10’
a_string.find_parents(“a”) # [ a태그들을 가져옴 ]
a_string.find_parent(“p”) # p태그를 가져옴.

select

soup.select(선택자) : css 선택자로 검색한다. 그냥 태그를 쓰면 태그 검색. 항상 리스트로 리턴함.
soup.select(‘title’)
soup.select(“body a”)
soup.select(“html head title”)
soup.select(“head > title”) : 헤드내부에 1단계 뎁스에서 title 찾기.
클래스 찾기 : soup.select(".sister") 또는 soup.select("[class~=sister]")
ID로 찾기 : soup.select("#link1")
속성으로 찾기
- soup.select(‘a[href=“http://abc.com/elise”]’)
- soup.select(‘a[href^=“http://abc.com/”]’) : 이것으로 시작하는 링크들. 끝나는 링크는 href$를 사용.

get_text

텍스트 부분만 모두 추출한다. 하나의 스트링을 만들어 리턴.
.text로 해도 된다.

strings/stripped_strings

둘 다 스트링들만 리스트로 추출하는 건데, stripped_strings는 필요없는 것을 제거함.
줄바꿈, 공백 등 필요없는 것들에 제거한 스트링 리스트를 리턴. [text for text in soup.stripped_strings]

Author: crazyj7@gmail.com

저작자표시 비영리 변경금지 (새창열림)

'Python' 카테고리의 다른 글

파이썬 개발환경/가상환경구축 (0)	2019.12.01
진법 표현 및 수 스트링 변환 (1)	2019.11.24
크롤링(Crawl) 2편 (2)	2019.10.27
웹 크롤링 Crawl 1편 (1)	2019.10.24
인코딩에러 cp949 (1)	2019.10.02

Crawling 2 WebDriver

브라우저로 볼때는 분명 데이터가 있는데, 크롤링으로 HTML을 가져와서 보면 없는 경우가 있다.
이것은 브라우저에는 JS를 구동기능이 포함되어 HTML 문서가 동적으로 변화하기 때문에 단순하게 네트웍으로 HTML 문서를 받은 것과 항상 일치한다는 보장이 없기 때문이다
따라서 브라우저처럼 작동하여 변화된 HTML을 만들면 원하는 정보를 얻을 수 있는데 이것이 web driver이다.

구글 크롬 브라우저의 경우 이러한 것을 제공한다.
파이썬에서는 selenium 패키지를 설치하고, 운영체제에는 ChromeDriver를 설치해야 한다.
중요한 것은 현재 크롬브라우저의 버전과 ChromeDriver의 버전이 일치해야 한다!!!
버전이 다르다면 작동하지 않을 것이다.

https://sites.google.com/a/chromium.org/chromedriver/downloads

여기에서 자신의 크롬브라우저와 같은 버전의 드라이버를 받는다. 드라이버는 실행파일인데, PATH에 연결된 경로에 실행파일을 복사하면 준비가 다 된것이다.

전에 실패한 실시간 기사 조회

전에 코드에서 html 을 urllib으로 가져오지 말고 web driver를 구동하여 가져와서 파싱해 보자.

from selenium import webdriver
from bs4 import BeautifulSoup

url = 'https://m.media.daum.net/m/media/economic'

options = webdriver.ChromeOptions()
options.add_argument('headless')
browser = webdriver.Chrome(chrome_options=options)
browser.implicitly_wait(3)

browser.get(url)
html = browser.page_source
soup = BeautifulSoup(html, 'html.parser')

subnews = soup.find("div", "section_sub")
realnews = subnews.find("div", "box_realtime")
print(realnews)

browser.quit()

output

<div class="box_g box_realtime">
<h3 class="tit_g">실시간 주요 경제 뉴스</h3>
<ul category="economic" class="list_thumb">
<li>
<a class="link_news #MAIN_NEWS#article @1" href="http://v.media.daum.net/v/20191023201603468?f=m">
<div class="wrap_thumb">
<img alt="삼성물산 '1조6천억 분식회계' 적발..수천억 손실이 순익 둔갑" class="thumb_g" height="68" src="//t1.daumcdn.net/thumb/F240x180ht.u/?fname=https%3A%2F%2Ft1.daumcdn.net%2Fnews%2F201910%2F23%2Fhani%2F20191023201603606uvoz.jpg"/>
</div>
<div class="cont_thumb">
<strong class="tit_thumb">
<span class="txt_g">삼성물산 '1조6천억 분식회계' 적발..수천억 손실이 순익 둔갑</span>
<span class="txt_cp">5분전</span>
</strong>
</div>
</a>
</li>
<li>
<a class="link_news #MAIN_NEWS#article @2" href="http://v.media.daum.net/v/20191023191757086?f=m">
<div class="wrap_thumb">
<img alt='野, 기재부에 "민부론 검토자료 내놔라"..與 "제출 의무 없어"' class="thumb_g" height="68" src="//t1.daumcdn.net/thumb/F240x180ht.u/?fname=https%3A%2F%2Ft1.daumcdn.net%2Fnews%2F201910%2F23%2Fnewsis%2F20191023191757773esif.jpg"/>
</div>
<div class="cont_thumb">
<strong class="tit_thumb">
<span class="txt_g">野, 기재부에 "민부론 검토자료 내놔라"..與 "제출 의무 없어"</span>
<span class="txt_cp">1시간전</span>

전에는 ul 태그 내부가 비었었는데 이제 내용을 가져올 수 있게 되었다.
코드를 정리하여 기사 제목만 가져와보자. 이것도 좀 더 쉽게 하려면 F12키로 개발자모드로 간 다음 추출할 부분에 대해 selector 값을 쉽게 가져올 수 있다.

selector를 적당히 수정하면 목록을 쉽게 추출할 수있다.

# news = soup.select('#kakaoContent > div.section_sub > div.box_g.box_realtime > ul > li:nth-child(1) > a > div.cont_thumb > strong > span.txt_g')
news = soup.select('#kakaoContent > div.section_sub > div.box_g.box_realtime > ul > li > a > div.cont_thumb > strong > span.txt_g')
for item in news:
    print(item.text)

output

삼성물산 '1조6천억 분식회계' 적발..수천억 손실이 순익 둔갑
野, 기재부에 "민부론 검토자료 내놔라"..與 "제출 의무 없어"
은행권 "예대율 낮춰라".. 예금 확보 비상
경기 하강기 커지는 재정 역할.."세계 주요국도 확장 정책"
文 시정 연설 두고 '소득주도성장 실패' 공방 벌인 여야(종합)
한진그룹 총수일가, GS홈쇼핑에 지분 팔아 상속세 마련?
홍남기 "법인세 인하 투자증가로 연결 안 돼..신중한 입장"
김영진, 기재위 국감서 '황교안 계엄령 개입' 의혹 언급..野 반발
[단독]에어부산, 괌에서 '기체결함'으로 긴급 회항..13시간 지연 출항
[단독]정부 '직무급 도입-임금체계 개편' 병합 논의

전에 단순한 방식으로 안되는 작업이 이제 원하는 부분을 깔끔하게 추출하였다.

추가로…

아래는 만약 같은 페이지내에서 뭔가를 클릭해야 내용이 더 보여서 그 내용도 추출하기 위한 작업이다.

다음 실시간 검색어 조회

모바일용 웹 주소를 이용하였다. 일반 PC용 주소로 사용하면 데이터가 많아서 느릴 수 있으니 텍스트 위주의 페이지로 접근하는 것이 더 용이하다.
중간에 보면 실시간 검색어 목록이 다 나오도록 확장 버튼을 클릭하는 것을 추가하였다.

from selenium import webdriver
from bs4 import BeautifulSoup

def getTop10Daum():
    url = "https://m.daum.net"

    # browser = webdriver.PhantomJS()
    # browser.implicitly_wait(3)

    options = webdriver.ChromeOptions()
    options.add_argument('headless')
    # browser = webdriver.Chrome(options=options)
    # browser = webdriver.Chrome()
    browser = webdriver.Chrome(chrome_options=options)
    browser.implicitly_wait(3)

    browser.get(url)
    browser.save_screenshot("web1.png")

    # mAside > div.head_issue > div.roll_issue.\#searchrank\#rolling > strong > a

    # browser.find_element_by_xpath('//*[@id="mAside"]/div[1]/div[1]/strong/a').click()
    browser.find_element_by_css_selector('div.roll_issue.\#searchrank\#rolling > strong > a').click()
    browser.save_screenshot("web2.png")

    html = browser.page_source
    soup = BeautifulSoup(html, 'html.parser')
    # print(soup)
    notices = soup.select('div.realtime_layer div.panel')

    resultlist = []

    for n in notices:
        # print ('aria-hidden-', n['aria-hidden'])
        if n['aria-hidden']=='false':
            lis = n.select('li')
            for l in lis:
                result = dict()
                result['rank'] = l.select_one('.num_issue').text
                result['title']= l.select_one('.txt_issue').text
                result['url'] = l.a['href']
                # print(l.select_one('.num_issue').text)
                # print(l.select_one('.txt_issue').text)
                # print('href=',l.a['href'])
                resultlist.append(result)
    browser.quit()

    # print(resultlist)
    return resultlist


if __name__ == '__main__':
    items = getTop10Daum()
    for it in items:
        print(it['rank'], it['title'], it['url'])

output

1 서효림 https://m.search.daum.net/search?w=tot&q=%EC%84%9C%ED%9A%A8%EB%A6%BC&DA=ATG&nil_mtopsearch=issuekwd&logical=issue&pin=issue
2 이다희 https://m.search.daum.net/search?w=tot&q=%EC%9D%B4%EB%8B%A4%ED%9D%AC&DA=ATG&nil_mtopsearch=issuekwd&logical=issue&pin=issue
3 김칠준 변호사 https://m.search.daum.net/search?w=tot&q=%EA%B9%80%EC%B9%A0%EC%A4%80+%EB%B3%80%ED%98%B8%EC%82%AC&DA=ATG&nil_mtopsearch=issuekwd&logical=issue&pin=issue
4 정경심 교수 https://m.search.daum.net/search?w=tot&q=%EC%A0%95%EA%B2%BD%EC%8B%AC+%EA%B5%90%EC%88%98&DA=ATG&nil_mtopsearch=issuekwd&logical=issue&pin=issue
5 송성문 https://m.search.daum.net/search?w=tot&q=%EC%86%A1%EC%84%B1%EB%AC%B8&DA=ATG&nil_mtopsearch=issuekwd&logical=issue&pin=issue
6 김준기 https://m.search.daum.net/search?w=tot&q=%EA%B9%80%EC%A4%80%EA%B8%B0&DA=ATG&nil_mtopsearch=issuekwd&logical=issue&pin=issue
7 오재일 https://m.search.daum.net/search?w=tot&q=%EC%98%A4%EC%9E%AC%EC%9D%BC&DA=ATG&nil_mtopsearch=issuekwd&logical=issue&pin=issue
8 김수미 아들 https://m.search.daum.net/search?w=tot&q=%EA%B9%80%EC%88%98%EB%AF%B8+%EC%95%84%EB%93%A4&DA=ATG&nil_mtopsearch=issuekwd&logical=issue&pin=issue
9 인헌고등학교 https://m.search.daum.net/search?w=tot&q=%EC%9D%B8%ED%97%8C%EA%B3%A0%EB%93%B1%ED%95%99%EA%B5%90&DA=ATG&nil_mtopsearch=issuekwd&logical=issue&pin=issue
10 이승호 https://m.search.daum.net/search?w=tot&q=%EC%9D%B4%EC%8A%B9%ED%98%B8&DA=ATG&nil_mtopsearch=issuekwd&logical=issue&pin=issue

Author: crazyj7@gmail.com

저작자표시 비영리 변경금지 (새창열림)

'Python' 카테고리의 다른 글

진법 표현 및 수 스트링 변환 (1)	2019.11.24
크롤링 BeautifulSoup 요약 (2)	2019.11.06
웹 크롤링 Crawl 1편 (1)	2019.10.24
인코딩에러 cp949 (1)	2019.10.02
ipynb와 py 양방향 전환 (2)	2019.09.30

웹 크롤링 Crawl 1편

2019. 10. 24. 20:56

crawl1

Crawling 크롤링

파이썬으로 간단하게 Web 페이지 크롤링하기.

인터넷 상의 자료들을 프로그래밍을 하여 Web URL로 받아 분석하여 필요한 정보를 가공하는 작업.

1단계 HTML 그대로 받기

HTML이 있는 URL 주소를 입력하면 대부분 그대로 보이는 페이지를 긁어올 수 있다. (로그인 인증이 필요하거나 특정 조건이 필요한 경우는 고급 방식을 사용해야 한다.)

### daum 기사 수집  
import urllib.request  
from bs4 import BeautifulSoup  
  
url = 'https://m.media.daum.net/m/media/economic'  
  
conn = urllib.request.urlopen(url)  
# art_eco = conn.read()  
soup = BeautifulSoup(conn, "html.parser")  
  
# print(soup)  
with open('output.txt', 'wt', encoding='utf8') as f:  
    f.write(str(soup))

print로 출력할 수도 있지만 보통 내용이 많아 파일로 저장해서 분석한다.
스트링 검색으로 원하는 부분을 잘 찾는다.

2단계 HTML 파싱하여 필요한 부분만 뽑기

HTML 내용에서 일부만을 발췌하고 싶다면 HTML 구조를 파악하여 어떻게 필요한 부분만을 select 할 수 있는 방법을 알아야 한다. BeautifulSoup 모듈을 사용하면 그나마 쉽게(?) 추출할 수 있다.
보통 홈페이지의 HTML은 시일이 지나면 업데이트되어 구조가 변경될 경우 기존 select 규칙이 안먹힌다. 그 때 그 때 업데이트를 해주어야 정상적으로 동작할 것이다. (아래 예제가 안돌아가면 스스로 업데이트하길 바란다.)

파싱할 텍스트

<strong class="tit_thumb">  
<em class="emph_g"><a class="link_txt #series_title @2" href="/m/media/series/1366383">글로벌포스트</a></em>  
<a class="link_txt #article @2" href="http://v.media.daum.net/v/20191023082142459?f=m">中 암호화폐 투자자 "한국 시장은 고사 상태"</a>  
</strong>  
</li>  
<li>  
<a class="link_thumb #series_thumb @3" href="http://v.media.daum.net/v/20191023070002158?f=m">  
<img alt='[김현석의 월스트리트나우] "트럼프는 워런을 이기고 재선된다"' class="thumb_g" src="//img1.daumcdn.net/thumb/S176x136ht.u/?fname=https%3A%2F%2Fimg1.daumcdn.net%2Fnews%2F201910%2F23%2Fked%2F20191023070003367kwmc.jpg&amp;scode=media"/>  
</a>  
<strong class="tit_thumb">  
<em class="emph_g"><a class="link_txt #series_title @3" href="/m/media/series/465092">월스트리트나우</a></em>  
<a class="link_txt #article @3" href="http://v.media.daum.net/v/20191023070002158?f=m">"트럼프는 워런을 이기고 재선된다"</a>  
</strong>

태그로 가져오기

위에서 a태그들을 모두 가져와서 출력해 보자.
find_all은 리스트 타입으로 리턴한다. 앞에서부터 발견된 해당 태그들을 리스트 아이템으로 append 추가한다.
보통 너무 많이 출력되서 찾기가 힘들 정도이다. 하나씩 보자.

arta = soup.find_all("a")  
print(arta)

출력 결과

[<a class="link_daum #logo" href="http://m.daum.net/" id="daumLogo">
<img alt="Daum" height="25" src="//t1.daumcdn.net/media/news/news2016/m640/tit_daum.png" width="24"/>
</a>, <a class="tit_service #service_news" href="/m/media/" id="kakaoServiceLogo">뉴스</a>, <a class="link_relate link_entertain #service_enter" href="/m/entertain/">연예</a>, <a class="link_relate link_sport #service_sports" href="https://m.sports.media.daum.net/m/sports/">스포츠
                    </a>, <a class="link_search #GNB#default#search" href="http://mtop.search.daum.net/" id="link_search">
<span class="ico_media ico_search">통합검색</span>
</a>, <a class="link_gnb #media_home" href="/m/media/"><span class="txt_gnb">홈</span></a>, <a class="link_gnb #media_society" href="/m/media/society"><span class="txt_gnb">사회</span></a>, <a class="link_gnb #media_politics" href="/m/media/politics"><span class="txt_gnb">정치</span></a>, <a class="link_gnb #media_economic" href="/m/media/economic"><span class="screen_out">선택됨</span><span class="txt_gnb">경제</span></a>, <a class="link_gnb #media_foriegn" href="/m/media/foreign"><span class="txt_gnb">국제</span></a>, <a class="link_gnb #media_culture" href="/m/media/culture"><span class="txt_gnb">문화</span></a>, <a class="link_gnb #media_digital" href="/m/media/digital"><span class="txt_gnb">IT</span></a>, <a class="link_gnb #media_ranking" href="/m/media/ranking"><span class="txt_gnb">랭킹</span></a>, <a class="link_gnb #media_series" href="/m/media/series"><span class="txt_gnb">연재</span></a>, <a class="link_gnb #media_photo" href="/m/media/photo"><span class="txt_gnb">포토</span></a>, <a class="link_gnb #media_tv" href="/m/media/tv"><span class="txt_gnb">TV</span></a>, <a class="link_gnb #media_1boon" href="/m/media/1boon"><span class="txt_gnb">1boon</span></a>, <a class="link_gnb #media_exhibition" href="https://gallery.v.daum.net/p/home"><span class="txt_gnb">사진전</span></a>, <a class="link_thumb #article_thumb" href="http://v.media.daum.net/v/20191022192703507?f=m">
<img alt='WTO 개도국 지위 간담회 농민 반발로 파행..정부 "곧 결론낼 것"' class="thumb_g" src="//img1.daumcdn.net/thumb/S720x340ht.u/?fname=https%3A%2F%2Fimg1.daumcdn.net%2Fnews%2F201910%2F22%2Fyonhap%2F20191022192703823dgcc.jpg&amp;scode=media"/>
</a>, <a class="link_cont #article_main" href="http://v.media.daum.net/v/20191022192703507?f=m">
<strong class="tit_thumb">WTO 개도국 지위 간담회 농민 반발로 파행..정부 "곧 결론낼 것"</strong>
<span class="info_thumb"><span class="txt_cp">연합뉴스</span><span class="ico_news ico_reply">댓글수</span>25</span>
</a>, <a class="link_relate #article_sub @1" href="http://v.media.daum.net/v/20191022201613686?f=m">

클래스와 ID에 주목하라

보통 태그로 가져오게되면 여러군데 있는 정보들이 마구 섞여서 나온다. index 번호를 잘 찾는다 해도 금방 변경될 수 있다.
그나마 좀 나은 방법은 일반적으로 태그들의 속성이나 클래스를 두어 카테고리화하여 작성한 경우가 많으므로 그 정보들로 데이터를 잘 필터링해야 한다.
클래스로 검색하려면 soup.find 또는 find_all에서 class_=“클래스명” 지정해 주고, ID로 검색하려면 파라미터에 id=“아이디” 를 추가한다.
위 a 태그들 중에 기사 제목같은 것만 뽑고 싶은데, 클래스를 잘 보면 link_news 라고 된 부분만 추출해 보자.

arta = soup.find_all("a", class_='link_news')  
print(arta)

output

[<a class="link_news #RANKING#popular_female#article @1" href="http://v.media.daum.net/v/20191022040803988?f=m">
<em class="txt_age emph_g2">
<span class="num_news age20">20</span>대<span class="txt_arr">↓</span> </em>
                                        심상찮은 경제 2위 중국·4위 독일.. R의 공포 급속 확산
                                    </a>, <a class="link_news #RANKING#popular_female#article @2" href="http://v.media.daum.net/v/20191023143008200?f=m">
<em class="txt_age emph_g2">
<span class="num_news age30">30</span>대                                        </em>
                                        '내일채움공제' 첫 5년 만기자 탄생..중기부 "정책 확대·개선하겠다"
                                    </a>, <a class="link_news #RANKING#popular_female#article @3" href="http://v.media.daum.net/v/20191023161257078?f=m">
<em class="txt_age emph_g2">

어느 정도 뽑히면 이제 내부를 탐색

a 태그중 link_news 클래스 속성이 있는 것을 다 뽑았다. 여기서 딱 제목만 뽑고 싶은데…
태그내에 있는 텍스트만 추출하면?
a태그 하나씩 가져와서 텍스트만 출력하는데 텍스트 앞뒤 공백을 제거하자.

arta = soup.find_all("a", class_='link_news')  
for art in arta:  
    print(art.text.strip())

output

20대↓ 
                                        심상찮은 경제 2위 중국·4위 독일.. R의 공포 급속 확산
30대                                        
                                        '내일채움공제' 첫 5년 만기자 탄생..중기부 "정책 확대·개선하겠다"
40대                                        
                                        액상형 전자담배 '사용자제→중단' 권고..청소년 즉시중단

거의 다 나온 것 같은데, 쓸데없는 스트링이 더 있었다. 잘 보면 em 태그에 있는 것이 연령대 스트링이 추가된 것이다. 뒤에 기사제목이 별도의 태그가 없어서 태그로 추출도 어렵다.
이때는 내용들을 분해해서 list로 받아 index를 찾으면 된다. 하위 개체들 중 마지막이 해당 텍스트가 될 것이다.

arta = soup.find_all("a", class_='link_news')  
for art in arta:  
    print( art.contents[-1].strip() )

output

'내일채움공제' 첫 5년 만기자 탄생..중기부 "정책 확대·개선하겠다"
환자 1명이 '졸피뎀' 1만1456정 구입..국내 처방환자 176만명
액상형 전자담배 '사용자제→중단' 권고..청소년 즉시중단
돌아온 미세먼지의 나날들..'잿빛 하늘' 내년 봄까지 이어질 듯
구조조정 나선 LG디스플레이, 올해 적자 1조원 넘어설 듯
정부 "'개도국 포기' 논의" 농민들 불렀지만..시작부터 '아수라장'
경영난 위워크, 결국 손정의 품으로.."100억달러 더 투입"
이탄희 "검찰 전관예우 더 심각, 전화 한통 값 수천만원"

깔끔하게 제목만 뽑을 수 있었다.

좀 더 편하게 찾을 수는 없을까?

브라우저의 개발자 모드(F12 키를 누르면 나온다.)에서 원하는 텍스트를 찾아서 검사 또는 element 보기를 하면 해당 텍스트의 상위 태그 및 속성 정보들을 모두 볼 수 있다. 오른쪽창에서 해당 텍스트 위치가 있는 소스로 이동한다. 하단보면 태그 구조가 나온다.
이를 기반으로 필터링 규칙을 잘 잡으면 빨리 찾을 수 있을 것이다.
crawl1

위의 부분을 한 번 찾아보려고 시도했는데…

subnews = soup.find("div", "section_sub")  
realnews = subnews.find("div", "box_realtime")  
print(realnews)  
  
news = soup.find("span", "txt_g")  
print(news)

결과는

<div class="box_g box_realtime">
<h3 class="tit_g">실시간 주요 경제 뉴스</h3>
<ul category="economic" class="list_thumb">
</ul>
<a class="link_more #MAIN_NEWS#more" href="#none">더보기<span class="ico_news"></span></a>
</div>
None

안타깝게도 정보가 없다. 우리가 원하는 정보는 list_thumb 클래스ul 태그 내부인데 비어 있다.
실제로 이러한 경우가 종종 있다. 이 경우는 보통 html을 요청했을 때, javascript가 포함되어 브라우저에서 작동시켜야 내용이 채워지는 경우들이다. 따라서 html 자체만을 보는 것으로는 원하는 결과를 얻을 수 없다.

귀찮지만 이럴때는 다른 방식을 사용해야 한다.
가상의 브라우저를 만들어 JS를 구동시킨 결과를 파싱하면 되는 것이다.

다음화에서 계속…

Author: crazyj7@gmail.com

저작자표시 비영리 변경금지 (새창열림)

'Python' 카테고리의 다른 글

크롤링 BeautifulSoup 요약 (2)	2019.11.06
크롤링(Crawl) 2편 (2)	2019.10.27
인코딩에러 cp949 (1)	2019.10.02
ipynb와 py 양방향 전환 (2)	2019.09.30
ipynb 노트북 파일 형상관리 (1)	2019.09.27

Python BeautifulSoup 웹크롤링/HTML 파싱.

2018. 4. 25. 15:47

HTML 파싱하여 원하는 부분 추출하기.

+ Beautifulsoup 설치

pip install beautifulsoup4

버전 4

+ URL로 HTML 가져와서파싱하기

from urllib.request import Request, urlopen

from bs4 import BeautifulSoup

url="http://www.naver.com/"

html = urlopen(url).read()

soup = BeautifulSoup(html, 'html.parser')

rank = soup.find("dl", id="ranklist") # dl tag, id=ranklist search.

for i in rank.find_all("li", value=True, id=False): # li tag, value exist, id no exist. search

print( i.get_text(" ", strip=True) ) # 문자열을 가져오는데, 태그는 공백으로 두고, 앞뒤 공백 제거.

+헤더 추가

req = Request(url)

req.add_header('User-Agent', 'Mozilla/5.0')

html = urlopen(req).read()

+BeautifulSoup html 서치.

-모든 태그 검색

html_as=soup.find_all("a") # 모든 a 태그 검색. 접근시 html_as[0], [1], .. 첫번째가 0인덱스.

soup("a") # 상동

-스트링이 있는 title 태그 모두 검색

soup.title.find_all(string=True)

soup.title(string=True)

-a태그 두 개만 가져옴.

soup.find_all("a", limit=2)

-스트링 검색

soup.find_all(string="elsie") 해당 스트링 검색

or검색을 하려면 array 로 입력 ["aa", "bb"]

정규식을 쓰려면 re.compile("정규식")

-태그와 속성(클래스)값으로 검색

soup.find_all("p", "title")

soup.select('p[class="title"]')

ex)

-태그와 태그 사이 찾기

soup.find_all(["a", "b"])

-속성(클래스)값 가져오기

soup.p['class']

soup.p['id']

-보기 좋게 출력

soup.b.prettify()

-검색

soup.body.b 각 첫번째 노드

soup.a # 처음으로 나오는 a태그

-태그와 클래스명 검색

soup.find_all("a", class_="sister") # class_ 를 사용. 예약어라서 _를 사용.

-태그와 ID로 찾기

soup.find("div", id="articlebody")

soup.find("div", { "id":"articlebody" } )

soup.find(id="articlebody")

soup.select("#articlebody") ; id로 검색.

soup.select("div#articlebody") ; 태그와 id로 검색.

-태그와 클래스로 찾기

soup.select('div ol[class="list1"]')

find_all 이나 select는 array로 리턴. 복수개!

하나만 찾을 때는 find 사용.

-검색결과 없으면 None

-태그의 이름 얻기

soup.find("div").name

-속성 얻기

soup.find("div")['class'] 없으면 에러

soup.find("div").get('class') 없으면 None

-태그 사이에 있는 중간의 텍스트 얻기

contents 속성 사용.

aaa

one

soup.b.string ==> one

soup.b.contents[0] ==> one

soup.p.contents ==> aaa, one, cc

원하는 원소 인덱스를 사용.

-다음 형제 태그

soup.p.next_sibling

-태그 내부 추적 검색

ptag = soup.p

ptag('table')[0]('tr')[0]('td')[0]

-태그 사이 텍스트 전체

ptag.get_text()

+ HTML 파일에서 읽기

import codecs

page_html = codecs.open('a.html', 'r', 'utf-8')

page_soup = soup(page_html, "html.parser")

+태그 추적하기

예)

// span 태그의 아이디로 먼저 검색하고, 자식중에 2번째 table 태그를 찾음.

testwebsite_container = page_soup.find("span", id="MainContent2_ctl00_lblContent").findAll("table")[1]

skiptrcnt=1 # skip first tr block

for i,record in enumerate(testwebsite_container.findAll('tr')): # 모든 tr태그를 검색.

if skiptrcnt>i:

continue

# 처음 n개는 스킵한다.

tnum = record('td')[0].text # 첫 번째 td의 텍스트

desc = record('td')[1].text

doclink = record('td')[2].text #세번째 td의 텍스트 (a link의 보이는 링크명으로 보이는 부분이 나옴.)

alink = record('td')[2].find("a") # 세번째 td에서 하위에 a태그를 찾음.

if alink :

doclinkurl=testwebsite+alink['href'] # 속성! href의 값을 가져온다.

closingdate = record('td')[3].text

detail = record('td')[4].text # td태그 내부에 br태그가 있으면 줄바뀜이 생김.

detail = detail.replace('\n', '') # 줄바뀜 제거.

저작자표시 (새창열림)

'Python' 카테고리의 다른 글

File I/O, Directory list, read/write (0)	2018.07.04
WebAPI thread work status (0)	2018.07.03
Python 데이터 저장/로딩 Pickle (0)	2018.04.25
Python 커맨드라인 파싱 (0)	2018.04.17
Python 쉘 커맨드 실행 (0)	2018.04.12

PREV 1 NEXT

크레이지J의 탐구생활

crawl

크롤링 BeautifulSoup 요약

BeautifulSoup

간단하게 요약

find / find_all

find_parent/ find_parents

select

get_text

strings/stripped_strings

'Python' 카테고리의 다른 글

크롤링(Crawl) 2편

Crawling 2 WebDriver

전에 실패한 실시간 기사 조회

다음 실시간 검색어 조회

'Python' 카테고리의 다른 글

웹 크롤링 Crawl 1편

Crawling 크롤링

1단계 HTML 그대로 받기

2단계 HTML 파싱하여 필요한 부분만 뽑기

태그로 가져오기

클래스와 ID에 주목하라

어느 정도 뽑히면 이제 내부를 탐색

좀 더 편하게 찾을 수는 없을까?

'Python' 카테고리의 다른 글

Python BeautifulSoup 웹크롤링/HTML 파싱.

'Python' 카테고리의 다른 글

+ Recent posts

티스토리툴바