ir_datasets : AOL-IA (Internet Archive)

import ir_datasets
dataset = ir_datasets.load("aol-ia")
for query in dataset.queries_iter():
    query # namedtuple<query_id, text>

You can find more details about the Python API here.

CLI

ir_datasets export aol-ia queries



[query_id]    [text]
...

You can find more details about the CLI here.

No example available for PyTerrier

from datamaestro import prepare_dataset
topics = prepare_dataset('irds.aol-ia.queries')  # AdhocTopics
for topic in topics.iter():
    print(topic)  # An AdhocTopic

This examples requires that experimaestro-ir be installed. For more information about the returned object, see the documentation about AdhocTopics.

docs

1.5M docs

Language: multiple/other/unknown

Document type:

AolIaDoc: (namedtuple)

doc_id: str
title: str
text: str
url: str
ia_url: str

Examples:

import ir_datasets
dataset = ir_datasets.load("aol-ia")
for doc in dataset.docs_iter():
    doc # namedtuple<doc_id, title, text, url, ia_url>

You can find more details about the Python API here.

CLI

ir_datasets export aol-ia docs



[doc_id]    [title]    [text]    [url]    [ia_url]
...

You can find more details about the CLI here.

No example available for PyTerrier

from datamaestro import prepare_dataset
dataset = prepare_dataset('irds.aol-ia')
for doc in dataset.iter_documents():
    print(doc)  # an AdhocDocumentStore
    break

This examples requires that experimaestro-ir be installed. For more information about the returned object, see the documentation about AdhocDocumentStore

qrels

19M qrels

Query relevance judgment type:

TrecQrel: (namedtuple)

query_id: str
doc_id: str
relevance: int
iteration: str

Relevance levels

Rel.	Definition	Count	%
1	clicked	`19M`	100.0%

Examples:

import ir_datasets
dataset = ir_datasets.load("aol-ia")
for qrel in dataset.qrels_iter():
    qrel # namedtuple<query_id, doc_id, relevance, iteration>

You can find more details about the Python API here.

CLI

ir_datasets export aol-ia qrels --format tsv



[query_id]    [doc_id]    [relevance]    [iteration]
...

You can find more details about the CLI here.

No example available for PyTerrier

from datamaestro import prepare_dataset
qrels = prepare_dataset('irds.aol-ia.qrels')  # AdhocAssessments
for topic_qrels in qrels.iter():
    print(topic_qrels)  # An AdhocTopic

This examples requires that experimaestro-ir be installed. For more information about the returned object, see the documentation about AdhocAssessments.

qlogs

36M qlogs

Query Log type:

AolQlog: (namedtuple)

user_id: str
query_id: str
query: str
query_orig: str
time: datetime
items: Tuple[
LogItem: (namedtuple)
1. doc_id: str
2. rank: int
3. clicked: bool
, ...]

Examples:

import ir_datasets
dataset = ir_datasets.load("aol-ia")
for qlog in dataset.qlogs_iter():
    qlog # namedtuple<user_id, query_id, query, query_orig, time, items>

You can find more details about the Python API here.

CLI

No example available for CLI

No example available for PyTerrier