셰도우 핀즈는 21년간 국회를 유령처럼 떠돌던 스토킹 처벌법의 데이터를 추적하고, 한국 언론사가 이를 다루는 문제적 태도를 비평하기위해 크롤 앤 스티치(Crawl & Stitch) 프로젝트를 시작했습니다.
웹 크롤링 기술 기반으로 온라인 뉴스 페이지를 긁어 모아서 페미니즘의 관점으로 촘촘하게 의미를 연결시키고 재맥락화한다는 뜻의 프로젝트명입니다.
1️⃣ 스토킹 처벌법의 조속한 통과 및 시행 2️⃣ 스토킹 범죄의 지속적/전문적/통합적 통계 구축과 이를 위한 연구용역 사업 추진 3️⃣ 스토킹 초동 단계에서 피해자 신변보호조치 강화 4️⃣ 현 '여성폭력방지기본법'에서 정의하는 '2차 피해' 개념에 준거해, 피해자의 고통을 가중시키는 기사 작성으로 추가 피해를 확산시킨 기자와 언론사 저지 및 징계방안 마련
빅카인즈와 네이버뉴스를 기반으로 1999년 1월부터 2020년 9월까지의스토킹 관련 기사를 자동으로 아카이빙했습니다.
방법적으로는 웹 크롤링 코드를 프로그래밍 해서, '스토킹'이란 키워드를 넣고 검색후 구글 스프레드 시트에 리스트화하는 방식을 썼습니다. 셰도우 핀즈 처럼 시민운동, 비영리단체 섹터에서 뉴스기사 기반의 통계 등 데이터 작업을 하고 계실 활동가분들에게, 도움이 되고자 아래의 코드를 오픈소스화해서 공유합니다.
<aside> 💻 깃헙(GitHub)에서 웹 크롤링 전체 코드 보러가기
</aside>
부분 발췌
import requests
response = requests.post('<https://www.bigkinds.or.kr/api/news/search.do>', headers={
'Referer': '<https://www.bigkinds.or.kr/v2/news/search.do>',
'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.116 Safari/537.36',
}, json={
'indexName': 'news',
'searchKey': '스토킹',
'startDate': '2020-07-01',
'endDate': '2020-07-25',
'startNo': 1,
'resultNumber': 100,
})
print(response.json())