Tuesday, January 13, 2015

Getting started with Semantic Technologies

Recently Ontotext launched a Self-Service Semantic Suite – shorted to S4. S4 provides a set of services for low-cost (currently free) on-demand text analytics and metadata management on the cloud. This provides a great way to get acquainted with Semantic Technologies.


Available S4 services

S4 currently offers the following services:

  1. Text analytics for News content, Biomedical content or Twitter content
  2. Linked Data server with reliable access to the DBpedia, FactForge, GeoNames, WordNet, MusicBrainz, and New York Times datasets 
  3. Self-managed RDF database (GraphDB) on the cloud

Trying out Text analytics

Text analytics – in this context – is about finding out what is important in texts (natural language), and using this information.

To try this out, copy some text containing some Persons and Places, biomedical terms and/or Twitter content. Preferably in English for best results, but other languages will produce results as well.
Go to the S4 homepage and click on “Demo S4 today for free”. Paste your text in the Text Analytics box; choose whether your text is more News, Biomedical or Twitter oriented, and hit Execute.

Your result will show the provided text with different types of terms highlighted in different colours. See the below example.



Figure 1. Example of an annotated text

If you hover over an annotated term, it will show extra information. For instance for an organisation it will show the location in DBpedia (the semantic version of Wikipedia). In my example this makes clear that this article is not about some IMF, it is about the IMF, and more info is available on http://dbpedia.org/page/International_Monetary_Fund.

So what’s in it for you? 

This service can provide all kinds of structure and information on topics that can help you to classify, understand, link and enrich information.

Trying out Semantic queries

S4 also lets you try out semantic queries using SPARQL, the query language for semantically stored information such as the DBpedia.
Go to the S4 homepage and click on “Demo S4 today for free”. Go to the LOD Access Tab. Select a query from the Pulldown. Let’s try “Find airports near London”.
The SPARQL query is:

PREFIX geo-pos: <http://www.w3.org/2003/01/geo/wgs84_pos#>
PREFIX omgeo: <http://www.ontotext.com/owlim/geo#>
PREFIX dbpedia: <http://dbpedia.org/resource/>
PREFIX dbp-ont: <http://dbpedia.org/ontology/>
PREFIX ff: <http://factforge.net/>
PREFIX om: <http://www.ontotext.com/owlim/>

SELECT distinct ?airport ?label ?RR
WHERE {
        dbpedia:London geo-pos:lat ?latBase ;
                       geo-pos:long ?longBase .
        ?airport omgeo:nearby(?latBase ?longBase "50mi");
                 a dbp-ont:Airport ;
                 ff:preferredLabel ?label ;
                 om:hasRDFRank ?RR .
      } ORDER BY DESC(?RR)


Even without a SPARQL crash-course, this is quite easy to read:

  • First some definitions are introduced
  • The query will return the airport ID, name and some rank (RR)
  • From DBpedia the latitude and longitude of London are retrieved
  • Only results that have the DBpedia Ontology type “Airport” are selected, 
  • They must be nearer than 50 miles to London, according to the Owlim Geospatial function “Nearby”

Click on “Execute” and have a look at the results. Try out some of the other queries as well.

So what’s in it for you? 

An enormous wealth of structured information is available for you to use. Were you aware that you could ask Wikipedia such detailed questions? Be aware: extensive knowledge is needed to write such concise statements and really use the results.

Next step

Now that you know that Text analysis and Semantic queries are available, what is your next step in using Semantic technologies?

Saturday, December 20, 2014

Serial – een geslaagde contentstrategie

Zojuist is het laatste deel van Serial gepubliceerd. Serial is serie van 12 podcasts van de hand van Sarah Koenig en geproduceerd door This American Life van WBEZ. Het volgt het onderzoek van Sarah naar een moordzaak in 1999. In 12 afleveringen wordt het verhaal verteld van de moord op Hae Min Lee in Baltimore, de veroordeling van Adnan Syed voor deze moord en het onderzoek naar het bewijs – 15 jaar later.


Na aflevering 1 was ik direct verslaafd. Het plot is intrigerend: een ontkennende verdachte, veroordeeld op uiterst dun bewijs dat op veel plaatsen elkaar tegenspreekt. Daarnaast nemen Sarah Koenig en haar team de luisteraar mee op hun zoektocht vol twijfel, verbazing en soms zelfs humor.

Wat zijn de aspecten die Serial in mijn ogen bijzonder maken, en wat doet dit verhaal in een Blog over voornamelijk de technische en business aspecten van contentstrategie?

Serial en contentstrategie


Iedere content strateeg kent inmiddels het belang van een goed verhaal, en dit is een goed verhaal. Niemand begrijpt hoe de zachtaardige 17-jarige Adnan zijn eveneens 17-jarige ex-vriendin heeft kunnen vermoorden, maar hij is er wel voor veroordeeld, ondanks soms flinterdun bewijs. Het interessante verhaal plus de persoonlijke – haast intieme – manier waarop het verteld wordt zijn voor mij de eerste stap in deze geslaagde contentstrategie.

Een tweede stap is de aandacht die in deze productie is gegaan. 15 Maanden onderzoek van een compleet team van journalisten heeft geresulteerd in 12 podcasts van ieder ongeveer een uur non-fictie radio. Het dichtste wat erbij komt dat ik ken is Argos radio – maar dan maatje XXL. Er is een eigen website met ondersteund materiaal en er is zelfs speciaal een eigen soundtrack gecomponeerd door Mark Henry Phillips en Nick Thorburn.

De derde stap is de – voor mij – ideale kanaalkeuze. Ik zit dagelijks twee uur in de auto, en een uur Radio 1 is echt genoeg per dag. Podcasts zijn voor mij ideaal omdat ik kan luisteren naar de dingen die mij interesseren: Argos, de Content Matters Podcast en vele anderen, op het moment dat het mij uitkomt.

De vierde stap in deze geslaagde contentstrategie is het commerciële aspect. De eerste podcasts worden betaald door het WBEZ radiostation, gesponsord door MailChimp. In opvolgende podcasts hoor je extra sponsors aanhaken, aangetrokken door de kwaliteit en/of het succes van de podcast. In één aflevering doet Sarah Koenig een oproep voor de financiering van een tweede seizoen. Deze financiering is binnen een week rond.

Ook ik heb een kleine donatie gedaan aan Serial. Het blijft raar dat ik zonder knipperen 20 euro neertel voor een nieuw goed (e-)boek van mijn favoriete auteurs, maar twijfel over het doneren van een paar euro na het gratis krijgen van een fantastisch audioboek van 12 uur.

Conclusie


Mijn doel van deze blog was om te vertellen over hoe ik genoten heb van deze fantastische podcast, en is dat niet het bewijs van een fantastische content strategie? Gratis Word-of-mouth marketing. Doel bereikt met vlag en wimpel! Ik wacht geduldig op seizoen 2 van Serial, of vergelijkbare initiatieven.

Vertel een goed verhaal, zorg dat het kwalitatief goed gemaakt is en in een handig formaat. En laat de credits (in welke vorm dan ook) binnenstromen. Dat geldt voor elke goede contentstrategie.

Friday, November 21, 2014

Big improvements for Big Content


At HintTech we are one of the first able to test MarkLogic 8, our favorite Big Data & Big Content platform.



On MarkLogic World earlier this year, MarkLogic offered an insight in the new features, such as JavaScript & JSON support, SPARQL 1.1 & Inferencing and Bitemporal support.

In the coming days we will post blogs with revealing updates & inside information about MarkLogic 8 and our test drive of these features.

Read the Blogs through our corporate website, or subscribe there and we will keep you posted.

Be the first to know about MarkLogic 8!

Thursday, November 6, 2014

Zelf lesmateriaal maken

'Leerkrachten moeten zelf lesmateriaal kunnen maken' kopten de grote landelijke media vandaag.



Het idee is dat leraren niet afhankelijk moeten zijn van de drie grote uitgeverijen van schoolboeken, maar moeten zelf kunnen bepalen welk lesmateriaal ze gebruiken. Bovendien moeten ze dit materiaal ook zelf kunnen maken en uitwisselen.

De Stichting Leermiddelen Keuze* wil met behulp van studenten van de lerarenopleidingen van Noordelijke Hogeschool Leeuwarden en de Rijksuniversiteit Groningen digitaal en papieren lesmateriaal gaan beoordelen op kwaliteit en vervolgens voor iedereen beschikbaar stellen.

De minister heeft al interesse getoond voor het initiatief, en D66 zal het voorstellen bij de behandeling van de begroting van het ministerie van Onderwijs.

Kanttekeningen

Dit klinkt natuurlijk als een prima plan, waarbij leerkrachten hun kennis en kunde kunnen gebruiken om het onderwijs beter en goedkoper te maken. Omdat het zo’n goed idee is plaats ik hier graag de volgende kanttekeningen bij, mede vanuit mijn ervaringen uit het project Book2Fit:

  • In lesmateriaal gaat het niet alleen over de enkele les, maar juist ook over een complete methode die een leerling moet begeleiden van “zero to hero”. Veel leerkrachten zullen prima in staat zijn om uitstekend lesmateriaal te produceren, maar wie zorgt het dat het ook in een methode past?
  • In het verlengde hiervan is het belangrijk dat lesmateriaal goed gecategoriseerd wordt, zodat het teruggevonden kan worden voor hergebruik. Voordat je als ijverige leerkracht zelf lesmateriaal maakt over bijvoorbeeld Ebola is het nuttig om te controleren of een collega niet ook al een prima les hierover beschikbaar heeft gesteld. Om lesmateriaal goed te kunnen Metadateren om het uitwisselbaar en toetsbaar te maken heeft Edustandaard het Onderwijsbegrippenkader opgesteld. Ik zou hopen dat alle nieuwe initiatieven gebruik zullen maken van het OBK.
  • Uit eerdere initiatieven zoals Wikiwijs blijkt dat het maken van lesmateriaal geen sinecure is. Goed dat de stichting de kwaliteit wil gaan garanderen. Doen zij ook een controle op het authentiek zijn van het lesmateriaal (auteursrechtcontrole)?
  • Bij dit soort initiatieven zal de 1% regel voor communities zeer waarschijnlijk ook gelden: er zijn veel meer afnemers dan aanbieders. Wellicht zal de 1% actieve bijdragers moeten worden vrijgesteld om lesmateriaal te maken, of stel ik dan grote uitgeverij van schoolboeken nummer 4 voor? De minister heeft al aangegeven dat overheid zich er niet mee moet bemoeien.


Book2Fit

Ik heb zelf mogen bijdragen aan Book2Fit. Een tool waarin Daidalos (nu HintTech), Ricoh en IT-workz al in 2008 samen hebben gewerkt aan een tool die leerkrachten in staat stelt om zelf lesmateriaal samen te stellen.

Binnen Book2Fit hebben we ervoor gekozen om juist samen te werken met de drie grote uitgeverijen van schoolboeken. Zij hebben materiaal ter beschikking gesteld voor leerkrachten om mee te arrangeren.

Daarom konden leerkrachten hun vertrouwde lesmethode blijven gebruiken en tegelijkertijd inhoud van de methode naar eigen wensen aanpassen. In deze benadering maakt het niet uit of een docent daar voorzichtig mee begint, of meteen een groot deel van het materiaal zelf maakt of arrangeert.

*Ik heb zelf geen Stichting Leermiddelen Keuze kunnen vinden, kent iemand ze?

Monday, October 27, 2014

Content is an investment in customer experience

Now and again you run into a quote that ties things together. Some time ago I saw a presentation by Schneider & Nichols on content strategy that included the following quote:

“Content is an investment in customer experience with measurable return”

I have worked for commercial publishers for years, and am also active in content marketing. I always felt the connection between both worlds from a technological perspective, but had problems combining both business models.

This quote nicely ties both worlds together: commercial publishers have always invested in creating content to get a measurable return. The customer experience is that good that customers are willing to pay for the content. Commercial publishers measure content success by turnover and profit.

Content marketers want to create memorable customer experiences. This can only be achieved by investing in memorable content. Creating a meaningful way to measure your return is a challenge any content marketer will face. Although not as easy to measure as commercial publishers, a clear definition must and can be made to justify your content marketing investments.


Content writer by Ritesh Nayak via Flickr (CC BY-SA 2.0)

Here is a previous nice quote

Monday, October 13, 2014

Alfresco Summit 2014

Update: Alfresco One 5.0 is now publicly available. Read what's new here.

October 8th and 9th I had the opportunity to visit the Alfresco Summit 2014 in London. Alfresco is an Enterprise Content Management System, so the focus is not (just) on web content, but all the content an organisation would manage: documents, assets and metadata, managed in specified processes. Alfresco differs from other ECMs through its open architecture and extensive support of standards.



Highlights

The Summit offered an eclectic mix of business, solution and technical sessions. For me as a content strategist, the highlights were:

  • Search: The newest version 5.0 of Alfresco will support the newest version of the SOLR search engine (4.10). This will boost the retrieval of documents, for instance by offering facets (or better: filters. I learned managers don’t like the word “facets”. It sounds too complicated) and other improvements.
  • Media Management Module: In the first quarter of 2015 an improved Media Management Module will become available, offering improved Asset Management like Transcoding Services, improved Metadata management and Sharable collections.
  • WCM: Alfresco Web Content Management has spun-off in a separate product: Crafter. Crafter offers full WCM functionality, keeping all useful Alfresco features such as events, workflows etc.
  • Open source SharePoint integration: Alfresco announced it is contributing its Microsoft SharePoint open source integration to the Apache Software Foundation. This integration connects Microsoft SharePoint to virtually any enterprise content management (ECM) system, including Alfresco, using the open standard CMIS (Content Management Interoperability Services) from OASIS. 
  • Semantic Enrichment: A case study was shown where open source tools were used to semantically enrich documents (read my earlier blog about this subject) in Alfresco. Semantic enrichments can dramatically improve use and retrieval of documents.
  • Activiti integration: Alfresco integrates Activiti, a light-weight workflow and Business Process Management (BPM) Platform targeted at business people, developers and administrators. Its core is a BPMN 2 process engine for Java. 
  • Fred: Our friends at Xenit offer Fred. Fred provides an (extra) intuitive user-interface on top of Alfresco, making the use of Alfresco even easier.


Retrospective

Alfresco already offered a fine palette of functionality. But ECM software often has to vindicate its existence (and licence / support fees) over shared drives or other uncertainties about generic ECM functionalities. The new functions and integrations improve Alfresco’s position in the ECM market.

Friday, October 3, 2014

De E-boekenmarkt is in beweging

Het zijn interessante tijden op de e-boekenmarkt. De markt leek een plateaufase te hebben bereikt, terwijl business en techniek nog lang niet uitontwikkeld zijn. Onderstaande figuur toont de afzet in e-books per kwartaal volgens het Centraal Boekhuis, met een flinke dip in verkopen (rood).

e-Book afzet volgens Centraal Boekhuis

Hierbij een aantal ontwikkelingen van de afgelopen maanden:

  1. 2e Hands e-books
    Tom Kabinet biedt de mogelijkheid om e-books 2e hands aan te bieden en te verkopen. Dit tot grote vreugde van boekenlezers en tot ergernis van het Nederlands Uitgevers Verbond. De rechter heeft bepaald dat Tom Kabinet vooralsnog door mag gaan met zijn winkel in 2e hands e-books.
  2. All-you-can-read e-books
    Schreef ik al eerder over Flat Fee lezen van artikelen, ook op de e-book markt doet dit model zijn intrede. Onder andere Scribd, Amazon, Oyster en Entitle zijn hiermee gekomen, waarbij Entitle in ieder geval ook lezen op de e-reader ondersteund.
    In Nederland is Elly’s choice gestart: 10 e-books per maand voor €2,99 per maand. Klinkt aantrekkelijk, maar helaas alleen (nog) boeken van VBK en Dutch Media, dus nog geen Spotify voor e-books.
  3. E-books lenen
    Bij de samenwerkende bibliotheken kun je sinds kort ook e-books lenen.
    Inmiddels zijn er 125.000 e-booklezers ingeschreven die al meer dan 500.000 e-books uit het assortiment van ongeveer 7000 boeken hebben gedownload. Hiermee is de e-boekenmarkt aanzienlijk verruimd (zie cijfers CB).
  4. Centrale e-boekenplank
    Het CPNB heeft LeesID geïntroduceerd, een centrale e-boekenplank voor e-books. Via LeesID hebben lezers een centrale toegangsplek tot alle e-books van de verschillende deelnemende aanbieders.
  5. Buitenlandse e-books
    Bol.com en Kobo gaan samenwerken. Voor BOL betekent dit toegang tot een enorme collectie buitenlandse e-books en een geavanceerd technologisch platform. Voor Kobo is het een grote sprong op de Nederlandse markt



On the platform, reading van Mo Riza via Flickr (CC BY 2.0)

Waarom zo veel rumoer?

Kenners verwachten een grote entree van Amazon op de Nederlandse markt. Als een dergelijke speler de markt betreedt zal er veel veranderen. De markt zal (hopelijk) groeien, en de bestaande partijen zullen (waarschijnlijk) marktaandeel verliezen. Daarom is het verstandig nu nog zo veel mogelijk strategische posities te betrekken.

Wat zijn uw ervaringen met bovenstaande innovaties? En op welke verandering zit u als e-lezer te wachten? 

Meer lezen?