`ir_datasets`: AQUAINT

Index

aquaint
aquaint/trec-robust-2005

`"aquaint"`

A document collection of about 1M English newswire text. Sources are the Xinhua News Service (People's Republic of China), the New York Times News Service, and the Associated Press Worldstream News Service.

Dataset details

docs

Language: en

Document type:

TrecDoc: (namedtuple)

doc_id: str
text: str
marked_up_doc: str

Example


import ir_datasets
dataset = ir_datasets.load('aquaint')
for doc in dataset.docs_iter():
    doc # namedtuple<doc_id, text, marked_up_doc>

Citation

bibtex: @misc{LDC2001T55, title={The AQUAINT Corpus of English News Text}, author={David Graff}, year={2002}, url={https://catalog.ldc.upenn.edu/LDC2002T31}, publisher={Linguistic Data Consortium} }

`"aquaint/trec-robust-2005"`

The TREC Robust 2005 dataset. Contains a subset of 50 "hard" queries from trec-robust04.

Documents: News articles
Queries: keyword queries, descriptions, narratives
Relevance: Deep judgments
Shared task site
Task overview paper
See also: trec-robust04

queries

Language: en

Query type:

TrecQuery: (namedtuple)

query_id: str
title: str
description: str
narrative: str

Example


import ir_datasets
dataset = ir_datasets.load('aquaint/trec-robust-2005')
for query in dataset.queries_iter():
    query # namedtuple<query_id, title, description, narrative>

docs

Language: en

Document type:

TrecDoc: (namedtuple)

doc_id: str
text: str
marked_up_doc: str

Example


import ir_datasets
dataset = ir_datasets.load('aquaint/trec-robust-2005')
for doc in dataset.docs_iter():
    doc # namedtuple<doc_id, text, marked_up_doc>

qrels

Query relevance judgment type:

TrecQrel: (namedtuple)

query_id: str
doc_id: str
relevance: int
iteration: str

Relevance levels

Rel.	Definition
0	not relevant
1	relevant
2	highly relevant

Example


import ir_datasets
dataset = ir_datasets.load('aquaint/trec-robust-2005')
for qrel in dataset.qrels_iter():
    qrel # namedtuple<query_id, doc_id, relevance, iteration>

Citation

bibtex: @inproceedings{Voorhees2005Robust, title={Overview of the TREC 2005 Robust Retrieval Track}, author={Ellen M. Voorhees}, booktitle={TREC}, year={2005} }

ir_datasets: AQUAINT

"aquaint"

"aquaint/trec-robust-2005"

`ir_datasets`: AQUAINT

`"aquaint"`

`"aquaint/trec-robust-2005"`