위키백과 데이터베이스 다운로드

데이터베이스 덤프 파일을 여러 정적 HTML로 변환하는 대신 동적 HTML 생성기를 사용할 수도 있습니다. 위키 페이지를 탐색하는 것은 위키 사이트를 탐색하는 것과 같지만 브라우저에서 요청하는 경우 콘텐츠를 가져오고 로컬 덤프 파일에서 변환합니다. 위키백과는 우리의 수에 따라 거의 38,000개의 책에 관한 기사를 가지고 있습니다. 모든 책 정보와 최종 json 파일의 크기는 우리가 책의 55 MB 가치를 찾기 위해 총 파일의 50 GB (압축되지 않은)를 통해 검색 의미 약 55 MB입니다! 책 정보의 제한된 하위 집합만 유지한다는 점을 감안할 때 의미가 있습니다. 영어 버전은 dumps.wikimedia.org/enwiki. 다음 코드를 사용하여 데이터베이스의 사용 가능한 버전을 봅니다. Hadoop Map현재 데이터베이스 덤프에서 쿼리를 줄일 수 있지만 각 단일 매퍼 입력을 위해 InputRecordFormat에 대한 확장이 필요합니다. 자바 메서드 (작업 제어, 매퍼, 감속기 및 XmlInputRecordFormat)의 작업 세트는 위키 백과의 Hadoop에서이 문제를 해결할 수있는 무엇입니까? 거의 모든 위키백과 문서에 오프라인으로 액세스할 수 있습니다. 채석장을 사용하여 현재 데이터베이스 덤프에서 SQL 쿼리를 수행할 수 있습니다(비활성화된 Special:Asksql 페이지의 대체).

공정한 경고 : 이 글을 쓰는 시점에서 약 23GB이며 대부분의 광대역 연결에서 다운로드하는 데 몇 시간이 걸릴 수 있습니다. 또한 프로세스 중에 실패하면 수동으로 다운로드해야 하기 때문에 안정적인 연결을 원할 수도 있습니다. XOWA 응용 프로그램에서 도구 옵션을 클릭한 다음 중앙을 다운로드하십시오. 다운로드할 수 있는 옵션에 대한 다양한 옵션이 표시됩니다. 오픈 소스이기 때문에 이러한 파일은 지속적으로 업데이트되지 않지만 괜찮다면 이것이 가장 쉬운 방법입니다. 많은 수의 기사를 다운로드하려면 웹 크롤러를 사용하지 마십시오. 서버의 공격적인 크롤링은 위키백과의 극적인 속도를 저하시킬 수 있습니다. 책을 찾고 있지만 이 함수는 위키백과에서 모든 범주의 기사를 검색하는 데 사용할 수 있습니다.

템플릿을 범주의 템플릿으로 바꿉니다(예: Infobox 언어에서 언어를 찾으면) 범주 내의 아티클의 정보만 반환합니다. 이 작업을 수행 할 수있는 몇 가지 방법이 있습니다, 나는 위키 백과에서 직접 XML 파일을 다운로드하여, 키위스 (맥, 윈도우, 리눅스)를 통해 ZIM 파일로 수행하는 방법을 보여 드리겠습니다, 위키 택시 (윈도우)와 XML 파일을 읽고. 이제 위키백과 콘텐츠를 얻을 시간입니다. XOWA는 `오프라인` 옵션을 가지고 있어 위키백과 자체에서 `덤프 파일`을 다운로드 및/또는 열 수 있지만, 이를 시도하기 전에 XOWA 소프트웨어를 사용할 때 자신감을 가지고 있어야 합니다. 이 프로젝트의 원래 원동력은 위키백과의 모든 책에 대한 정보를 수집하는 것이었지만, 곧 관련 솔루션이 더 광범위하게 적용가능하다는 것을 깨달았습니다. 여기에 다루고 함께 제공되는 Jupyter 노트북에 제시된 기술은 위키백과에 있는 모든 문서와 함께 효율적으로 작업할 수 있게 해주며 다른 웹 데이터 소스로 확장할 수 있습니다. 특정 지점에서 위키백과에서 온 정보를 표시하는 소프트웨어를 빌드한다고 가정해 보작합니다. 프로그램이 라이브 버전에서 볼 수 있는 것과 다른 방식으로 정보를 표시하려면 완성된 HTML 대신 위키코드를 입력하는 데 사용되는 위키코드가 필요할 수 있습니다.

Kommentarer inaktiverade.