이제 크롬을 삭제(프로그램 추가/제거에서 크롬 삭제)하고 아래 경로에서 재설치. (바이러스 검사해본 결과 이상 없어서 저도 이렇게 복구했습니다.) 설치 후 한 번 더 위와 같이 구글 업데이트 서비스 사용 안함으로 해주세요. (크롬을 설치하니 자동으로 서비스 시작으로 되는 것 같더군요.)
브라우저로 볼때는 분명 데이터가 있는데, 크롤링으로 HTML을 가져와서 보면 없는 경우가 있다.
이것은 브라우저에는 JS를 구동기능이 포함되어 HTML 문서가 동적으로 변화하기 때문에 단순하게 네트웍으로 HTML 문서를 받은 것과 항상 일치한다는 보장이 없기 때문이다
따라서 브라우저처럼 작동하여 변화된 HTML을 만들면 원하는 정보를 얻을 수 있는데 이것이 web driver이다.
구글 크롬 브라우저의 경우 이러한 것을 제공한다.
파이썬에서는 selenium 패키지를 설치하고, 운영체제에는 ChromeDriver를 설치해야 한다.
중요한 것은 현재 크롬브라우저의 버전과 ChromeDriver의 버전이 일치해야 한다!!!
버전이 다르다면 작동하지 않을 것이다.
전에는 ul 태그 내부가 비었었는데 이제 내용을 가져올 수 있게 되었다.
코드를 정리하여 기사 제목만 가져와보자. 이것도 좀 더 쉽게 하려면 F12키로 개발자모드로 간 다음 추출할 부분에 대해 selector 값을 쉽게 가져올 수 있다.
selector를 적당히 수정하면 목록을 쉽게 추출할 수있다.
# news = soup.select('#kakaoContent > div.section_sub > div.box_g.box_realtime > ul > li:nth-child(1) > a > div.cont_thumb > strong > span.txt_g')
news = soup.select('#kakaoContent > div.section_sub > div.box_g.box_realtime > ul > li > a > div.cont_thumb > strong > span.txt_g')for item in news:print(item.text)
output
삼성물산 '1조6천억 분식회계' 적발..수천억 손실이 순익 둔갑
野, 기재부에 "민부론 검토자료 내놔라"..與 "제출 의무 없어"
은행권 "예대율 낮춰라".. 예금 확보 비상
경기 하강기 커지는 재정 역할.."세계 주요국도 확장 정책"
文 시정 연설 두고 '소득주도성장 실패' 공방 벌인 여야(종합)
한진그룹 총수일가, GS홈쇼핑에 지분 팔아 상속세 마련?
홍남기 "법인세 인하 투자증가로 연결 안 돼..신중한 입장"
김영진, 기재위 국감서 '황교안 계엄령 개입' 의혹 언급..野 반발
[단독]에어부산, 괌에서 '기체결함'으로 긴급 회항..13시간 지연 출항
[단독]정부 '직무급 도입-임금체계 개편' 병합 논의
전에 단순한 방식으로 안되는 작업이 이제 원하는 부분을 깔끔하게 추출하였다.
추가로…
아래는 만약 같은 페이지내에서 뭔가를 클릭해야 내용이 더 보여서 그 내용도 추출하기 위한 작업이다.
다음 실시간 검색어 조회
모바일용 웹 주소를 이용하였다. 일반 PC용 주소로 사용하면 데이터가 많아서 느릴 수 있으니 텍스트 위주의 페이지로 접근하는 것이 더 용이하다.
중간에 보면 실시간 검색어 목록이 다 나오도록 확장 버튼을 클릭하는 것을 추가하였다.
from selenium import webdriver
from bs4 import BeautifulSoup
defgetTop10Daum():
url ="https://m.daum.net"# browser = webdriver.PhantomJS()# browser.implicitly_wait(3)
options = webdriver.ChromeOptions()
options.add_argument('headless')# browser = webdriver.Chrome(options=options)# browser = webdriver.Chrome()
browser = webdriver.Chrome(chrome_options=options)
browser.implicitly_wait(3)
browser.get(url)
browser.save_screenshot("web1.png")# mAside > div.head_issue > div.roll_issue.\#searchrank\#rolling > strong > a# browser.find_element_by_xpath('//*[@id="mAside"]/div[1]/div[1]/strong/a').click()
browser.find_element_by_css_selector('div.roll_issue.\#searchrank\#rolling > strong > a').click()
browser.save_screenshot("web2.png")
html = browser.page_source
soup = BeautifulSoup(html,'html.parser')# print(soup)
notices = soup.select('div.realtime_layer div.panel')
resultlist =[]for n in notices:# print ('aria-hidden-', n['aria-hidden'])if n['aria-hidden']=='false':
lis = n.select('li')for l in lis:
result =dict()
result['rank']= l.select_one('.num_issue').text
result['title']= l.select_one('.txt_issue').text
result['url']= l.a['href']# print(l.select_one('.num_issue').text)# print(l.select_one('.txt_issue').text)# print('href=',l.a['href'])
resultlist.append(result)
browser.quit()# print(resultlist)return resultlist
if __name__ =='__main__':
items = getTop10Daum()for it in items:print(it['rank'], it['title'], it['url'])